斯坦福Arc Tahoe-100M虚拟细胞团队专访:AI制药的壁垒不是"模型"?而是高质量、亿级规模的数据集

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
斯坦福Arc Tahoe-100M虚拟细胞团队专访:AI制药的壁垒不是"模型"?而是高质量、亿级规模的数据集
6106点击    2025-07-14 12:57

Vevo Therapeutics(现为Tahoe)与Arc研究所,两家分别在生物技术商业转化和非营利性基础研究领域领先的机构,于2025年2月联合发布了一项里程碑式的成果:全球最大的单细胞药物扰动数据集Tahoe-100M。这一发布率先为整个生物科学界提供构建“虚拟细胞”模型所需的高质量数据集,有望深刻改变我们理解和治疗复杂疾病的方式。


斯坦福Arc Tahoe-100M虚拟细胞团队专访:AI制药的壁垒不是


此次访谈汇集了AI4BioMed的重要KOL,包括Vevo的联合创始人Nema Alidoust和Johnny Yu,以及Arc研究所的创始人Patrick Hsu、首席技术官Dave。他们将共同揭示AI生物学的下一场革命。


斯坦福Arc Tahoe-100M虚拟细胞团队专访:AI制药的壁垒不是


目录


01. “ImageNet时刻”:为何生物学需要自己的海量数据集?


02. 摆脱无效数据:从观测性到因果性的关键一跃


03. Tahoe-100M:史上最大单细胞扰动数据集的诞生


04. 幕后技术:“马赛克平台”与“AI爬虫”的双重创新


05. 超越蛋白质:构建“虚拟细胞”的必要性与挑战


06. 开源的力量:加速整个领域的共同进步


07. “生物学的清晨”:一个属于勇敢者的新时代


01.

“ImageNet时刻”:为何生物学需要自己的海量数据集?


主持人: 恭喜团队发布了Tahoe-100M!可以解释一下,为什么说这是一个堪比“ImageNet”的时刻?


Patrick Hsu (Arc Institute): 在人工智能的发展史上,革命性的突破往往由标志性的数据集引爆。2009年李飞飞教授团队的ImageNet,就为机器视觉带来了非线性的飞跃。我们相信,生物学也正处于这样一个时刻。过去我们聚焦于蛋白质层面,但要真正理解健康与疾病,我们必须将模型的能力提升到细胞层面。


Dave (Arc Institute): 是的,我们需要一个能激发细胞产生多样化反应的数据集,而这正是Tahoe-100M的核心价值。它不仅仅是数据的堆砌,更是希望通过它来驱动整个领域,让机器能够学习细胞的语言和行为逻辑,这正是我们发起Arc虚拟细胞图谱(Arc Virtual Cell Atlas)的初衷。


斯坦福Arc Tahoe-100M虚拟细胞团队专访:AI制药的壁垒不是


02.

摆脱无效数据:从观测性到因果性的关键一跃


主持人: 过去生物学也积累了大量数据,它们的问题出在哪里?


Nema Alidoust (Vevo Therapeutics): 过去的数据存在两个核心问题。第一,绝大多数是观测性的。它们告诉你健康组织里有什么,但无法解释基因之间、药物与细胞之间的因果关系。第二,信息密度极低。我们曾用当时公开的6000万个细胞数据训练模型,但惊讶地发现,即使只用其中1%的数据,模型性能也几乎没有下降。这说明这些数据在很大程度上是冗余的,缺乏多样性。


Hy (Arc Institute): 正是如此。生物学研究需要从描述性的关联分析,走向因果推断。我们需要知道,当我施加一个扰动——无论是基因编辑还是药物——细胞会如何确切地反应。这才是构建预测性模型的关键。之前的公开扰动数据集总共加起来可能只有一两百万个数据点,而Tahoe-100M一次性就将这个数字提升了近百倍。


03.

Tahoe-100M:史上最大单细胞扰动数据集的诞生


主持人: 能否具体介绍一下Tahoe-100M这个数据集?


Johnny Yu (Vevo Therapeutics): Tahoe-100M是一个包含了1亿个单细胞数据点的庞大集合。我们使用了1200种不同的药物,对来自50种不同癌症患者模型的细胞进行了处理。它不仅在规模上是史无前例的,更重要的是,它几乎消除了困扰以往研究的“批次效应”。因为整个实验是由一个极小的核心团队在极短的时间内完成的,保证了数据的高度一致性和可比性。我们认为,这可能是第一个真正为机器学习量身打造的生物学数据集。


Dave (Arc Institute): 在拓扑学意义上,模型试图在高维空间中构建一个“流形”来描绘所有可能的细胞状态。为了让模型能探索并理解这个复杂的流形,它必须见到足够多、足够多样的扰动和响应。Tahoe-100M提供的正是这种前所未有的多样性,让模型有机会学习到更通用、更鲁棒的细胞行为规律。


斯坦福Arc Tahoe-100M虚拟细胞团队专访:AI制药的壁垒不是


04.

幕后技术:“马赛克平台”与“AI爬虫”的双重创新


主持人: 高效生成如此庞大的数据集,背后有什么技术创新吗?


Johnny Yu (Vevo Therapeutics): Vevo的核心创新之一是我们的“马赛克平台”(Mosaic platform)。传统的药物筛选一次只能针对一种癌症模型,效率低下。而我们的平台能将来自不同患者(例如肺癌、胰腺癌等)的癌细胞汇集到一个可重复培养的“马赛克肿瘤”中。这样一来,我们就能在同一个实验里,一次性测试数百种药物对数十种不同遗传背景的癌细胞的影响,实现了数据生成效率的指数级提升。


Dave (Arc Institute): 而在Arc,我们则开发了一个名为scBaseCamp的AI系统。你可以把它想象成生物学领域的“谷歌爬虫”。我们构建了一个AI代理,它能自动抓取、解析和标准化互联网上所有公开的单细胞测序数据。这项工作非常关键,因为过去的公开数据格式混乱、注释不一。通过这个AI代理,我们整理出了一个包含约2.3亿个细胞的观测性数据库,它与Tahoe-100M的扰动数据形成了完美的互补。


05.

超越蛋白质:构建“虚拟细胞”的必要性与挑战


主持人: 为什么说蛋白质模型(如AlphaFold)还不够,我们必须走向“虚拟细胞”?


Dave (Arc Institute): 这是一个关于抽象层次的问题。用一个计算机工程的比喻:DNA就像是细胞的ROM,编码了基础程序;而RNRNA则更像是RAM,它的表达水平会根据细胞所处的环境、压力、疾病状态而实时动态调整。我们构建“虚拟细胞”模型,本质上是在推断细胞的CPU——即细胞响应输入的运算逻辑。只有理解了这个CPU,我们才能反向求解:要让一个癌细胞恢复健康,我应该输入什么样的指令(药物或基因编辑)?


Hy (Arc Institute): 正是如此。我们需要研究生物学中更高层次的抽象。蛋白质是重要的分子机器,但它们的行为最终是在整个细胞的复杂网络中展现的。转录组(RNA的集合)为我们提供了一个完美的观测窗口,因为它能反映细胞对内外环境变化的综合响应。我们认为,这是当前模拟细胞行为最合适的抽象层次。


06.

开源的力量:加速整个领域的共同进步


主持人: Vevo是一家商业公司,为什么会决定将如此宝贵的数据集完全开源?


Nema Alidoust (Vevo Therapeutics): 这个决定是我们在项目启动后几小时内就做出的。首先,我们想为整个领域“立下一个新标杆”,推动大家摆脱百万级数据的思维定势,向着更大规模迈进。其次,Vevo的理念是保持一个精简的“超级明星”团队。通过开源,我们等于邀请了全世界最聪明的头脑来和我们一起探索这份数据,他们的反馈和发现,其价值远超我们自己雇佣一百个科学家。我们移除了最大的瓶颈——数据,从而团结了所有志同道合的人。


Dave (Arc Institute): 这与Arc的使命不谋而合。我们致力于推动开放、合作的科学。正是Vevo的开源精神,才促成了这次激动人心的合作。我们相信,只有将最优质的资源公之于众,才能最大限度地加速科学进步。


07.

“生物学的清晨”:一个属于勇敢者的新时代


主持人: 有了数据和模型,我们离AI驱动的疗法还有多远?如果类比GPT系列,我们现在处于哪个阶段?


Nema Alidoust (Vevo Therapeutics): 我想用一个有点里根风格的说法:现在是“生物学的清晨”(Morning in Bio)一个新时代正在来临。我们必须摒弃过去那种缓慢、过度谨慎、假说驱动的研究模式。过去,因为实验昂贵,我们每一步都小心翼翼。但现在,测序成本、计算成本都已大幅下降,我们有能力、也应该更大胆地去探索,让数据给我们带来惊喜,而不是被人类的偏见所束缚。


Hani Goodarzi (Arc Institute): 如果进行类比,我认为在蛋白质模型领域,我们可能已经越过了GPT-3的阶段。但在单细胞和虚拟细胞模型领域,我们正处在从GPT-1迈向GPT-2的阶段。这是一个无比激动人心的时刻,因为这意味着巨大的潜力和清晰的成长路径就在眼前。


Patrick Hsu (Arc Institute): 当然,生物学的验证周期很长,90%的药物在临床试验中失败。但虚拟细胞模型将从根本上改变这一现状。它能帮助我们更精准地选择靶点,在投入巨大的临床资源前,就极大地提高成功的概率。这不仅仅是成本的节约,更是对整个药物发现范式的彻底重塑。我们正站在一个新范式的起点上


文章来自于微信公众号“AI新药价值论”,作者是“Charles”。


AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。

项目地址:GitHub:https://github.com/camel-ai/owl

2
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


3
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

4
AI爬虫

【开源免费】ScrapeGraphAI是一个爬虫Python库,它利用大型语言模型和直接图逻辑来增强爬虫能力,让原来复杂繁琐的规则定义被AI取代,让爬虫可以更智能地理解和解析网页内容,减少了对复杂规则的依赖。

项目地址:https://github.com/ScrapeGraphAI/Scrapegraph-ai