AI加速基因研究,MIT团队用几分钟即可预测数千种3D基因结构
创始人
2025-02-04 12:42:04
0

(来源:MIT News)

每个细胞都含有相同的基因序列,但只表达其中的一部分。这种细胞特异性的基因表达模式确保了不同类型的细胞(如脑细胞和皮肤细胞)之间的差异,这些差异部分由遗传物质的三维结构决定,该结构控制着每个基因的可访问性。

近期,麻省理工学院的化学家们提出了一种新方法:利用生成式 AI 来确定这些三维基因组结构。他们的技术可以在短短几分钟内预测数千种结构,比现有的实验分析方法快得多。

通过这种方法,研究人员能够更轻松地研究基因组的三维结构如何影响单个细胞的基因表达模式和功能。

“我们的目标是尝试从基础的 DNA 序列预测三维基因组结构。”该研究的资深作者、麻省理工学院化学系副教授 Bin Zhang 说,“现在我们已经可以做到这一点,这种方法与最先进的实验分析技术不相上下,并为未来深入研究开辟更多可能性。”

目前,这项研究成果已经发表在 Science Advances 上,麻省理工学院的研究生 Greg Schuette 和 Zhuohan Lao 是这篇论文的主要作者。

从序列到结构

在细胞核内,DNA 和蛋白质形成了一种称为染色质的复合物,它包含多个层次的组织,使细胞能够将 2 米长的 DNA 塞进直径只有百分之一毫米的细胞核中。长链 DNA 缠绕在称为组蛋白的蛋白质上,形成了类似珠子串在绳上的结构。

特定位置上可以附加被称为表观遗传修饰的化学标签,这些标签因细胞类型不同而变化,并影响染色质的折叠方式及其附近基因的可访问性。染色质构象的这些差异有助于决定哪些基因在不同的细胞类型或同一细胞内的不同时间点被表达。

在过去的 20 年里,科学家们开发出很多确定染色质结构的实验方法,其中一种被广泛使用的技术名为“Hi-C”,通过将细胞核中的相邻 DNA 链连接在一起发挥作用。然后,研究人员可以通过将 DNA 切成许多小片段并对其进行测序来确定哪些片段彼此靠近。

这种方法可用于大量细胞来计算染色质切片的平均结构,也可用于单个细胞来确定特定细胞内的结构。然而,Hi-C 以及类似技术比较耗时费力,处理一个细胞的数据大约需要一周时间。

为了克服这些局限性,Bin Zhang 团队利用生成式 AI 开发了一个模型,创建了一种快速、准确的方法来预测单细胞中的染色质结构。他们设计的 AI 模型可以快速分析 DNA 序列,并预测这些序列可能在细胞中产生的染色质结构。

“深度学习在模式识别方面非常擅长。”Bin Zhang 说,“它能够分析非常长的 DNA 片段,包含数千个碱基对,并找出这些 DNA 碱基对中编码的重要信息。”

研究人员创建的模型名为“ChromoGen”,包含两个部分:第一部分是一个深度学习模型,经过训练后能够“读取”基因组,分析基础 DNA 序列和染色质数据;第二部分是一个生成式 AI 模型,基于超过 1100 万个染色质构象的数据进行训练,能够预测物理上准确的染色质构象。

在将两部分进行整合后,第一部分“告知”生成模型细胞类型特异环境如何影响不同染色质结构的形成,从而有效捕捉序列与结构之间的关系。对于每个序列,研究人员使用模型生成许多可能的结构。这是因为 DNA 是一种非常无序的分子,因此单一的 DNA 序列可以产生许多不同的可能构象。

“预测基因组结构的一个主要复杂因素是不存在单一的目标解。无论你观察基因组的哪一部分,都存在一系列结构分布,而预测这种非常复杂的高维统计分布极其困难。” Schuette说道。

快速分析

一旦训练完成,该模型可以在极短时间内生成预测,比 Hi-C 或其他实验技术快得多。

“你可能需要花费六个月的时间进行实验才能得到某一特定细胞类型的几十种结构,而使用我们的模型,在单颗 GPU 上只需 20 分钟就能生成特定区域的一千种结构。”Schuette 表示。

在训练了他们的模型后,研究人员用它对 2000 多个 DNA 序列进行了结构预测,然后将它们与实验确定的这些序列的结构进行了比较。他们发现,模型生成的结构与实验数据中看到的结构相同或非常相似。

“我们通常会查看每个序列的数百或数千种构象,这可以合理地表示特定区域可能具有的结构多样性。”Bin Zhang 表示,“如果你在不同的细胞中多次重复实验,你很可能会得到一个非常不同的构象,而这也是我们模型预测到的。”

此外,研究人员还发现,该模型能够对未用于训练的其他细胞类型的数据做出准确预测,这表明该模型可用于分析细胞类型之间的染色质结构差异,以及这些差异如何影响其功能。该模型还可用于探索单个细胞内可能存在的不同染色质状态,以及这些变化如何影响基因表达。

另一个潜在的应用是探索特定 DNA 序列中的突变如何改变染色质构象,这有助于揭示此类突变如何导致疾病的发生。“我认为可以用这种模型来解决很多其他未知问题。”Bin Zhang 表示。

这项研究由美国国立卫生研究院资助。目前,研究人员已经将所有数据和模型公开,供其他研究者获取。

原文链接:

https://news.mit.edu/2025/with-generative-ai-mit-chemists-quickly-calculate-3d-genomic-structures-0131

相关内容

热门资讯

OpenAI从特斯拉、xAI和... 据《连线》报道,OpenAI已从竞争对手挖走了四名知名工程师,其中包括特斯拉前软件工程副总裁 Dav...
忘了梅西吧,来看看中国人形机器... 美国Gizmodo网站巴西版7月6日文章,原题:忘了梅西吧:中国的机器人足球赛有望彻底改变机器人技术...
无机房电梯控制系统升级全攻略:... 无机房电梯的控制系统升级,说白了就是给电梯的“大脑”和“肌肉”换新装备,重点盯紧硬件更换、软件升级、...
盒马进津,一场迟来的约定 作者 | 颜叶 编辑 | 魏晓 6月27日开业以来,盒马落地天津的首店刷新了不少纪录。 数据显示,盒...
Meta上亿美元抢人的另一面,... 文 | 字母榜,作者 | 毕安娣,编辑 | 肖阳 Meta丝毫没有收手的意思。 就在刚刚,彭博社爆...
“引力二号”火箭“三合一”联合... 新京报讯(记者张建林)近日,由东方空间研制的中大型可回收液体运载火箭“引力二号”完成了“三合一”联合...
原创 美... 编辑丨苏木 文丨苏木 本文陈述所有内容皆有可靠信息来源,赘述在文章结尾 “美国这波操作实在让人看不...
奥动新能源申请换电系统初始化相... 金融界2025年7月8日消息,国家知识产权局信息显示,奥动新能源股份有限公司申请一项名为“换电系统的...
Win7系统下的数据怎么备份?... 在普遍应用的Windows 7操作系统中,数据备份显得极为重要,这是确保信息安全的核心手段。一旦遭遇...
比越南还忘恩负义!曾获中囯北斗... 在国际关系中,有些国家得了便宜还卖乖,真是让人看不下去。澳大利亚就是个典型例子,曾经靠着中国北斗系统...
鹿城:以“早动、快动、小动”全... 【本站】面对今年预计首个正面影响温州的第4号台风"丹娜丝",鹿城区着力构建"早动、快动、小动"三动防...
你不知道的安徽建工②:以“智”... 胡雨松 今年5月,位于合肥市长丰县的安徽建工集团智能绿色制造(长丰)产业园(以下简称“产业园”)全面...
天坛公园发布五大合作领域,面向... 系统开放IP授权,开发夜间沉浸式科技文旅体验、艺术展演以及高品质文化定制内容,打造“四时祈运”为主题...
天津银行手机银行8.0云端焕新... 以“智领金融新生态”为核心,天津银行手机银行8.0版本于7月7日通过云端发布会正式亮相。作为践行金融...
吴忠推动执法模式从传统向智慧变... 近日,记者走进宁夏回族自治区吴忠市公安局执法办案管理中心,近距离感受吴忠市公安机关如何以执法办案管理...
活力中国调研行|“老药方”邂逅... “药不到樟树不齐,药不过樟树不灵”,江西樟树市素有“千年药都”之称。近年来,当地政府依托中医药底蕴,...
祥鑫科技获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示祥鑫科技(002965)新获得一项实用新型专利授权,专利名为“...
智能终端产业集群崛起——打造“... 01 产业集群 ●全市正在打造一个集研发、制造、销售等于一体的智能终端产业集群,吸引国内外投资,带动...
浙江风驰机械申请高精度芯轴成型... 金融界2025年7月8日消息,国家知识产权局信息显示,浙江风驰机械有限公司申请一项名为“一种高精度芯...
扬州造“永不落幕的太阳”升空,... 近日,夜幕下的江都区低空经济人才实训基地内,一架搭载巨型LED灯组的无人机凌空悬停,将6000平方米...