扎尔伯格重金押注的AI蛋白质团队,拿出了最新成果。
近日,非营利学术机构Biohub发布了全球首个开源蛋白质世界模型,这套系统由蛋白质结构预测、设计和生物发现引擎组成,能帮助研究人员更快地设计出全新的蛋白质结合剂。

模型基于包含68亿蛋白质和11亿个结构的全球最大蛋白质结构与功能图谱ESM Atlas搭建,包含了该团队最新的蛋白质折叠模型ESMFold2,并在实测中战胜了AlphaFold3。
论文中,研究人员利用该系统对癌症和免疫学中五个重要靶点(EGFR、PDGFRβ、PD-L1、CTLA-4和CD45)进行了测试,蛋白命中率为36-88%,抗体模式为15-29%。

值得一提的是,该模型坚持完全开源,目前已通过Biohub平台免费向全球科学界开放。
虽然Biohub是一家相当年轻的企业,但其核心研究团队却算得上是AI蛋白质领域的先驱之一。
早在2022年,还叫Meta-FAIR的蛋白质小组推出了轰动一时的ESMFold,拥有150亿参数,速度比AlphaFold2快一个数量级。
而如今,该团队已经不满足于单纯地升级ESMFold,而是构建了一个完整的模型和资源系统,也就是世界模型。
这个系统里包含了:最先进的蛋白质折叠模型、一种通过探索模型潜在空间设计蛋白质-蛋白质相互作用的设计方案、可用于理解未被表征蛋白的可解释性工具,以及全球最大的蛋白质结构与功能图谱。
Biohub副总裁Sal Candido在媒体采访中表示,这是一张前所未有的蛋白质生物学地图。
Biohub为这个世界模型系统发布了长达106的论文预印本,主要围绕着ESMC、ESMFold2和ESM Atlas这三大部件组成。

蛋白质语言模型ESMC是这套系统的基础,拥有3亿、6 亿和60亿三个参数规模,对比前一代ESMC2纳入了宏基因组数据,将训练数据集的规模从约5000万序列扩展至约28亿序列。
ESMFold2则直接挑战最先进的蛋白质折叠模型这一位置,在实测中速度明显快于其他折叠模型,且保持了业内领先的准确性。

而ESM Atlas是全球最大的蛋白质结构与功能图谱,包含68亿个蛋白质和11亿个预测结构,使得系统能够在生命尺度上实现蛋白质分析和发现。
总的来看,ESM世界模型在数据量上比AlphaFold数据库多8亿条目,在蛋白质复合物上略胜AlphaFold3,包括抗体-抗原结合。
Biohub作为一家非营利机构,背靠着Meta CEO扎克伯格与妻子普莉希拉·陈成立的“陈-扎克伯格倡议”(CZI),目标是在本世纪结束之时治愈人类所有疾病。

图:扎克伯格和妻子普莉希拉·陈
在今年四月,该组织还宣布了一项长达5年、投入5亿美元的里程碑计划——联手全球顶尖机构,共同打造构建生命预测模型所需的技术和多模态数据集。
在推出蛋白质世界模型之前,该公司最为人所的熟知的成果都集中在虚拟细胞领域,联合10x Genomics、Ultima Genomics等启动了“十亿细胞项目”(Billion Cells Project)

图:rib细胞推理模型
还推出了全球首个能推理细胞生物学的人工智能模型rBio虚拟细胞推理模型,有望减少昂贵的生物实验,极大地加速生物医学研究和药物发现。
文章来自于"智药局",作者 "向然"。
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda