模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞
创始人
2024-06-26 13:41:20
0

新智元报道

编辑:乔杨 好困

【新智元导读】能抗衡AlphaFold 3的生命科学大模型终于出现了。初创公司Evolutionary Scale AI发布了他们最新的98B参数蛋白质语言模型ESM3。不仅支持序列、结构、功能的all-to-all推理,团队还在实验中发现,它设计的新蛋白质相当于模拟自然界5亿年的进化。

继AlphaFold 3更新后,我们又看到了一个生命科学领域的大模型ESM3。

模型开发团队来自于名为Evolutionary Scale AI的初创公司,团队负责人Alex Rives在推特上官宣了模型发布的消息。

这个令人振奋的消息也得到了Yann LeCun的转发,他表示,你们这个公司有点「闷声发大财」的意思。

相比AlphaFold系列,ESM3有什么竞争优势?

首先就是Meta团队轻车熟路的——开源。

虽然模型API仍处于内测阶段,需要申请试用资格,但模型代码已经放到了GitHub上。而且公司还会与AWS和英伟达云计算平台合作,方便开发者使用和部署。

仓库地址:https://github.com/evolutionaryscale/esm

但比较遗憾的是,目前在HuggingFace仓库中还没有公开模型权重。英伟达官方博客显示,ESM3将在Nvidia BieNeMo平台提供一个小型开源版本的代码和权重,但仅限于非商业用途。

仓库地址:https://huggingface.co/EvolutionaryScale/esm3-sm-open-v1/tree/main

此外,ESM3与不同于模拟多种生物分子的AlphaFold 3,只专注于蛋白质,但可以同时推理其序列、结构和功能,这种多模态能力属于领域首创。

更让人耳目一新的是,ESM3在自然界中27.8亿个多样化蛋白质上进行训练,逐渐学习到了进化过程如何让蛋白质发生变化。

从这个角度来看,ESM的推理过程可以被视为「进化模拟器」,这为当前的生命科学研究开辟了全新的视角。团队甚至在官网文章中提出了「模拟5亿年进化」的标语。

或许你已经注意到了,ESM这个名字和Meta之前的蛋白质模型ESMFold非常类似。

这并不是有意擦边。事实上,Evolutionary Scale这家初创公司就是Meta-FAIR蛋白质小组的前成员创办的,公司的首席科学家Alex Rives正是这个已解散团队的前负责人。

去年8月,在Meta的「效率年」中,扎克伯格选择解散了只有十几名科学家的蛋白质小组,让公司专注于更有盈利前景的研究。

但Rives并没有被Meta的这种举动吓倒,而是决定自立门户,他们目前已经筹集了1.42亿美元的种子资金。

那么就来仔细看看,这次的ESM3具体有哪些新内容?

ESM3:生物学的前沿语言模型

生命科学并不像我们想象的那般神秘莫测、不可捉摸。

蛋白质分子虽然有难以置信的多样性和动态变化,但是它的合成遵循严密的算法与流程。如果把它看成一门技术,其先进程度远远超过任何人类创造的工程。

生物学,就是一个厚厚的密码本。

只不过,这个密码本是用我们尚未理解的语言写就的,即使是当今最强超算上运行的工具也不过触及皮毛。

如果人类能够阅读,甚至是书写「生命代码」,就能使生物学变得可编程。试错法将被逻辑取代,费力的实验将被模拟所取代。

ESM3就是朝这个宏伟愿景迈出的一步,是迄今为止首个能同时对蛋白质的序列、结构和功能进行推理的生成模型。

过去五年中LLM的突飞猛进,也让ESM团队发现了Scaling Law的威力,他们发现,同样的模式也适用于生物学。

随着训练数据以及参数规模的扩大,模型会加深对生物学基本原理的理解,并能更好地预测、设计生物结构和功能。

因此,ESM3的开发思路也与Scaling Law一脉相承,其规模比上一代ESM大大扩展,数据量提高了60倍,训练计算量提高了25倍,并且是具有原生多模态的生成模型。

ESM3的训练过程囊括了地球自然环境的多样性——数十亿种蛋白质,从亚马逊雨林到海洋深处,小到土壤中的微生物,极端到深海热泉。

HuggingFace上的模型卡显示,训练集中天然蛋白质数量达到27.8亿,并通过合成数据增强到31.5亿个序列、2.36个结构以及5.39亿个带有功能注释的蛋白质,token总数达到7710B。

模型训练参数总量达到98B,使用了超过1024 FLOPS的算力。团队似乎与英伟达紧密合作,训练使用了Andromeda集群,是当今吞吐量最高的GPU集群之一,部署了最先进的H100 GPU和Quantum-2 InfiniBand网络。

网页来源:https://andromeda.ai/

他们表示「相信ESM3的计算总量是有史以来生物模型之最」。

推理蛋白质的序列、结构和功能

处理文本的语言模型一般以token作为基本单位,但多模态的蛋白质模型更加复杂,需要将序列、三维结构和功能都转换为离散的字母进行表示。

为了更好地扩展训练规模、释放模型的「涌现」生成潜力,ESM3使用的词汇在同一语言模型中能够很好地连接序列、结构和功能,进行联合推理。

不同于GPT等语言模型,ESM3的训练目标继承于掩码语言模型(masked language modeling objective)。

每个蛋白质的序列、结构、和功能的部分位置会被掩码,模型在训练过程中需要逐渐理解三者之间的深层联系,从而预测掩码位置。如果遮蔽所有位置的标记,就相当于执行生成任务。

由于在蛋白质的序列、结构和功能上联合训练,对这三种模态可以任意进行掩码和预测,因此ESM3实现了「全对全」预测或生成(all to all)。

也就是说,模型的输入可以是部分或完全指定的三种模态的任意组合。这种强大的多模态推理能力有很强的应用价值,科学家们能以前所未有的灵活度和控制度设计全新的蛋白质。

比如,可以提示模型结合结构、序列和功能,提出PET酶活性位点的潜在支架结构。PET是一种常用的塑料,如果PET酶设计成功,就能用于高效分解塑料废物。

ESM3通过序列、结构和功能的多模态提示设计PET酶活性位点的支架

Evolutionary Scale的联合创始人兼兼工程副总裁Tom Sercu表示,在内部测试中,ESM在应对各种复杂提示时表现出了令人印象深刻的创造力。

「它能够解决一个极其困难的蛋白质设计问题,创造一种新型绿色荧光蛋白。ESM3能够帮助科学家加速工作,开辟新的可能性——我们期待看到它在未来对生命科学研究的贡献。」

当数十亿个蛋白质来自进化时间轴上的不同位置,具有丰富的多样性时,模型还能学到模拟进化的能力。

能力随规模涌现

正如LLM在规模扩展中「涌现」出了语言理解、推理等能力,在解决有挑战性的蛋白质设计任务时,ESM3也随规模增加逐渐显现能力,其中一个重要的能力就是原子级协调。

比如,提示中可能指定组成蛋白质的两个氨基酸需要在序列位置上相近,但在结构中相距较远。这衡量了模型在结构生成任务中达到原子级精度的能力。

这对于设计功能性蛋白质至关重要,而ESM3解决这类复杂生成任务的能力可以随着规模增加逐渐提高。

不仅如此,在训练完成后,ESM3的能力还有进一步提升的空间,其机制类似于LLM常用的RLHF方法。

但区别在于,ESM3并不是从人类那里接受反馈,而是可以评估自身的生成质量,进行自我改进,也可以结合已有的实验数据和湿实验结果,让ESM3的生成与生物学结果保持对齐。

模型生成能力随规模增长,且微调的提升效果明显

模拟5亿年的进化

在发表的论文中,ESM3团队详细介绍了他们在模型上观察到的「模拟进化」功能。

论文地址:https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf

绿色荧光蛋白(Green Fluorescent Protein,GFP)及其荧光蛋白家族是自然界中最美丽的蛋白质之一,但它们只存在于「生命之树」的几个分支中。

但GFP不仅仅是美丽而已,它包含一种荧光发色团(fluorescent chromophore)。这种分子可以吸收短波长的单色光子、捕获部分能量,再释放出波长较长的另一种单色光子。比如,自然界存在的GFP可以吸收蓝光并发出绿光。

由于这种特性,GFP能够作为标记,帮助科学家在细胞内观察蛋白质,成为了生物学中最广泛使用的工具之一,GFP的发现也因此获得了诺贝尔奖。

GFP的功能如此独特且有用,结构也是非常罕见:由十一条链组成的桶状结构,中间穿过一条螺旋。折叠后进行自发反应,在蛋白质中心的分子会重新排列,产生荧光发色团。

这种机制是独一无二的。没有其他已知的蛋白质能够自发地从其自身结构中形成荧光发色团,这表明即使在自然界中,产生荧光也是相当罕见且困难的。

为了能在实验室有更广泛的应用,科学家们尝试添加突变或改变颜色,进行人工合成。最新的机器学习技术能够搜索到序列差异高达20%的变体,但功能性GFP的主要来源依旧是自然界而非蛋白质工程。

想在自然界中找到更多的变体也并不简单,因为新荧光蛋白的进化需要漫长的时间——GFP所属家族的历史相当久远,它们从祖先序列中分化出来的时间点能追溯到数亿年前。

这个棘手的问题或许能在ESM3这里得到解决。

将天然GFP核心结构中几个位点的信息作为提示,并使用CoT技巧,ESM3成功生成了新型GFP的候选者。

这种生成绝不可能是随机撞大运或者是全局搜索,因为可能的序列和结构的组合起来会达到天文数字——20229x 4096229,比可见宇宙中所有的原子数加起来还要多。

在首次实验中,团队测试了ESM3生成的96个候选蛋白,其中出现了成功的发光样本,而且存在一种十分独特的结构,与自然界中任何蛋白质都相差甚远。

在另一组96个候选样本中,发现了几种亮度与天然GFP相似的蛋白质,其中一种亮度最高的蛋白质被命名为esmGFP,与最接近的天然荧光蛋白相比有96个突变(在229个氨基酸组成的序列中,有58%的相似部分)。

左侧是与所有已知GFP都相差较大的生成物B8,从B8开始,ESM3生成了右图的esmGFP

与自然进化不同,蛋白质语言模型并不在进化约束内明确工作。

但为了让ESM3解决其预测下一个掩码token的训练任务,模型必须学习进化如何在潜在蛋白质空间中演变。

从这个意义上说,ESM3生成与天然蛋白十分相似的esmGFP的过程,可以被视为一种进化模拟器。

对esmGFP进行传统的进化分析是自相矛盾的,因为它是在自然过程之外创造的,但仍可以从进化生物学的工具中获得洞见,了解一个蛋白质通过自然进化与其最近的序列邻居分化所需的时间。

因此,研究团队使用进化生物学的方法,把esmGFP当成自然界新发现的蛋白质进行分析。他们估计,esmGFP等效于进化模拟器执行的超过 5 亿年的自然进化。

esmGFP的渲染图

开放模型

自成立以来,ESM项目(ESM project)一直致力于通过发布代码和模型来实现开放科学。目前仍能在GitHub和HuggingFace上找到团队在几年前发布的代码和模型权重。

仓库地址:https://huggingface.co/facebook/esm2_t36_3B_UR50D/tree/main

看到ESM模型在研究和工业领域的创造性和有影响力的应用,可谓是令人惊叹:

- Hie等人使用ESM-1v和ESM-1b来进化抗体,改善了结合亲和力、热稳定性和病毒中和等治疗相关特性。

- BioNTech和InstaDeep微调了一个ESM语言模型,用于检测COVID刺突蛋白中的变异,成功地在WHO指定之前标记了所有16种关注变异。

- Brandes等人使用ESM-1b来预测突变的临床效果,目前这仍是完成该重要任务的最强方法。

- Marsiglia等人使用ESM-1v来设计新的抗CRISPR蛋白变体,这些变体在保持目标编辑功能的同时,减少了对非目标副作用。

- Shanker等人使用ESM-IF1引导多样蛋白的进化,包括实验室验证的对SARS-CoV-2高效抗体。

- Yu等人微调了ESM-1b来预测酶的功能,包括稀有和研究不足的酶,并通过实验验证了预测结果。

- Rosen等人使用ESM2嵌入来构建单细胞基础模型中的基因表示。

- Høie等人微调了ESM-IF1在抗体结构上的表现,在CDR区域的序列恢复中达到了最先进的性能,设计出了高结合亲和力的抗体。

而这些,只是建立在ESM平台上的惊人工作的一小部分!

如今,团队正式宣布,将发布一个ESM3 1.4B参数版本的权重和代码,以便科学家和开发人员能够基于ESM3的理念和架构进行构建。

参考资料:

https://blogs.nvidia.com/blog/evolutionaryscale-esm3-generative-ai-nim-bionemo-h100/

https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf

https://www.evolutionaryscale.ai/blog/esm3-release

相关内容

热门资讯

相比以往货运飞船,天舟九号在货... 新京报讯(记者张建林)7月15日,由中国航天科技集团五院(以下简称“航天五院”)抓总研制的天舟九号货...
永州冷水滩:“AI哨兵”系统织... 今日永州讯(通讯员 周艳梅 王庚娣)暑期防溺水,科技来助力。永州市冷水滩区上岭桥镇创新引入防溺水“A...
成都大邑:无人机织就“智慧治理... 人民网 赵祖乐 基层治理中,“看不全、到不了、查不细”曾是长期困扰基层工作者的痛点。在成都大邑县,随...
沧能电力取得可避免砸伤行人且易... 金融界2025年7月15日消息,国家知识产权局信息显示,沧能电力装备股份有限公司取得一项名为“一种具...
高技术产品出口连续9个月保持增... 14日,国新办举行新闻发布会介绍2025年上半年进出口情况。海关总署副署长王令浚说,今年以来,面对复...
科技昨夜今晨0715:英伟达 ... “科技昨夜今晨”时间,大家好,现在是 2025 年 7 月 15 日星期二,今天的重要科技资讯有: ...
全球首例!深圳机器人自主搭乘地... 机器人自己搭乘地铁,自主规划最优线路,为地铁站内的7-Eleven便利店送货上门——目前,深圳的机器...
英伟达宣布恢复对中国销售H20... (英伟达将对中国恢复出售H20芯片图源/英伟达官网) 英伟达正在向美国政府提交重新对中国销售H20芯...
郭明錤称苹果2026下半年量产... IT之家 7 月 15 日消息,天风国际证券分析师郭明錤今天(7 月 15 日)在 Medium 平...
小扎自曝挖人秘诀:小团队我亲自... 衡宇 闻乐 发自 纽凹非寺 量子位 | 公众号 QbitAI 快把硅谷大厂挖成筛子的小扎,终于站出来...
2025国际基础科学大会开幕 本报北京7月14日电 (记者吴月)7月13日,2025国际基础科学大会在北京国家会议中心开幕,包括多...
天舟九号太空送货 携“摄像师”... 中新社上海7月15日电 (郑莹莹 赵珺初)天舟九号货运飞船15日从文昌航天发射场出发,赴太空给神舟二...
三星多款新机通过蓝牙认证 A1... 【CNMO科技消息】近日,有外媒爆料称,三星即将推出的多款入门级手机型号陆续通过蓝牙技术联盟(Blu...
衡安特世佳取得气体超声流量传感... 金融界2025年7月15日消息,国家知识产权局信息显示,唐山衡安特世佳电子有限公司取得一项名为“气体...
金星地壳竟在变薄?地球孪生星的... 嘿,朋友们!今天要跟大家唠唠一个超有意思的天文新发现。咱们都知道金星,这颗被称为 “地球孪生星” 的...
天舟九号货运飞船发射任务取得圆... 新华社海南文昌7月15日电 我国15日凌晨在文昌航天发射场成功发射天舟九号货运飞船。 当日5时34分...
“美国基本上退出了开源大模型竞... 【文/观察者网 阮佳琪】 当地时间7月14日,美媒《纽约时报》报道称,Meta新成立的“超级智能实...
新研究:鱼类悬停在水中其实很“... 新华社北京7月13日电一项新研究发现,鱼类悬停在水中时并不像看起来那般轻松,而是要消耗不少能量。这一...
河南双品建设取得建筑工程用细沙... 金融界2025年7月15日消息,国家知识产权局信息显示,河南双品建设工程有限公司取得一项名为“一种建...
宁波亿林取得一种高效的隔膜气泵... 金融界2025年7月15日消息,国家知识产权局信息显示,宁波亿林节水科技股份有限公司取得一项名为“一...