Nature子刊：用机器学习揭露人类基因调控背后的“语法”

2022-07-16来源：量子位

AI又立功了。

这次，来自芬兰赫尔辛基大学的最新研究借助机器学习，破解了人类基因调控背后的“语法”。

而在此之前，科学家单单是知道DNA可以决定基因在某时某处进行表达，现在终于对它背后的逻辑有了深刻的理解。

这项成果将给癌症和遗传病研究带来新启发，现已登上Nature子刊（自然·遗传学）。

破解基因调控背后的“语法”

正式开始之前，先来一点背景知识。

基因调控（Gene regulation）是控制细胞内基因活性的重要过程，不正确的调控会导致疾病产生，譬如癌症。

人类基因组的DNA包含为蛋白质编码的基因，这些蛋白质序列可赋予肌肉细胞力量，赋予脑细胞处理信息的能力等。

DNA中还包含调控基因的元素，决定基因何时何地表达，譬如确保肌肉基因只在肌肉里表达，大脑基因在大脑中表达。

我们一直对决定基因调控的编码逻辑知之甚少，这是因为：

虽然人类基因组包含近30亿个碱基对，但基因组序列（genomic sequence）太短，无法用来学习背后的逻辑。

现在，芬兰科学院肿瘤遗传学高级研究中心的科学家们，采用了一种创新方法——不使用自然基因组序列，而是将随机合成的DNA序列引入人类细胞。

这些细胞读取新的DNA后，突出显出作为活性调控元素（active regulatory elements）的序列。

这些序列就是要研究的对象。

作者介绍，它们的空间加起来是整个人类基因组的100倍。

有了足够规模的数据集，就能利用机器学习进行数据分析了。

都有哪些发现？

我们知道，基因表达受可结合DNA的转录因子（一种蛋白质的总称）调控。

这个机器学习模型则显示，单个转录因子以“加性”方式参与基因调控，且语法较弱（with weak grammar）。

在两个主要调控元件——增强子（增强转录作用）和启动子（定义转录的起始）之中，增强子会以一种不在转录因子之间产生相互作用的机制增加启动子的表达。

随后，研究人员比较了三种不同的人类细胞：结肠癌细胞、肝癌细胞以及来自视网膜的正常细胞。

他们发现只有少数转录因子在细胞中保持高度活性，但它们的活性与细胞类型无关，在哪里都是相似的。

这一结果表明，人类细胞中的基因调控元件可以根据染色质环境（context）分为两种：

要么位于DNA密集的封闭染色质区域，要么位于DNA没有紧密围绕组蛋白的更开放的染色质环境中。

染色质和染色体是同一种物质的两种形态。染色质是伸展的状态。有利于DNA信息的表达。

传统观点则认为，活性调控元件只位于开放的染色质区域内，在这里转录因子很容易接触到DNA。

故此，在封闭染色质区域内发现起作用的活性调节元件是该研究的核心新观察结果之一。

另外，研究人员还发现了依赖于染色质的调控元件。

这些元件在基因组中的正常位点具有活性，但假如将它们从原始位置移出并转移到另一个基因附近，它们的活性就会大大降低。

　　图片使用申明：原创文章图片源自‘Canva可画’平台免费版权图片素材；引用文章源自引用平台文章中所使用的原图。

相关文章