当前,AI正以前所未有的速度席卷全球,医疗是这波浪潮中最耀眼的明星。
被誉为“女版巴菲特”的Cathie Wood(木头姐)发布的报告中提到,医疗保健是AI最被低估的应用领域,引发市场的强烈讨论,海内外AI医疗股暴涨。
当AI最终将深度重塑医疗行业,什么样的企业能够在这场变革中真正受益?
近期一个明显的趋势是,跨国药企们,正成批从中国AI制药身上寻找未来。
技术上,6月30日,晶泰科技宣布与辉瑞扩大战略合作,基于已有的研发成果,共同开发全新一代的分子模拟平台以驱动新药研发,以应对辉瑞快速拓展的小分子化学空间与持续升级的研发需求。
管线资产上,同月,石药集团宣布已与阿斯利康订立战略研发合作协议,利用其AI引擎双轮驱动的高效药物发现平台,开发新型口服小分子候选药物,总交易金额超过53亿美元。
跨国药企的真金白银,代表了国际对中国AI制药技术实力与管线价值上的认可,有力印证了本土企业在AI药物研发领域的落地能力与创新价值。
而观察上述合作不难发现,巨头青睐的并非仅仅是AI能力,而是出色的实际成果,这背后是围绕数据积累、临床转化、团队背景等要素的综合优势。
AI技术正在深度变革生物医药,而中国AI制药之所以成为跨国药企争相合作的对象,标志着一个以新技术为代表、重新定价中国创新的药物研发时代或许已经掀起帷幕。
一个显而易见的事实是,当下模型的性能瓶颈在于数据,高质量的海量数据在制药和医疗尤为稀缺。
一方面,获取高质量的生物医学数据需要更高的成本和门槛。另一方面,有价值的数据往往分散在各个机构和企业中,形成了严重的“孤岛”现象。
正如Recursion联合创始人兼CEO所说:“要构建生物学中的基础模型,需要大量高质量的数据。除了少数问题(例如蛋白质折叠)之外,这些数据目前不存在于公共领域”。
尤其是,Evo2的横空出世,标志着AI生命科学领域已经进入了大模型时代,对高质量数据的需求日益增长。
然而,目前学术界可用的公开训练集体量极为有限。对新化学空间的覆盖精度不够且迭代周期长;以PDB为代表的公共数据库则存在规模增长速率停滞、多样性匮乏等局限;广泛被购买的同质化的数据库,更难拉开算法的差距,难以催生出独具创新性的分子。
木头姐重仓的TempusAI,就是一家深耕AI医疗数据的公司,核心投资逻辑在于,其拥有目前世界上最大、最全面的癌症患者分子数据库,包含250PB多模态数据。
此前Nature发表的文章指出,为了应对AlphaFold在公开蛋白质数据上的不足,艾伯维、赛诺菲、强生、武田多家制药巨头合作利用内部专有数据开发私有AI模型,以提升药物研发能力。
Nature发文:大型制药公司正在构建私有数据
如何解决数据挑战已成为AI赋能生物医药的关键。为此,一些代表企业正在积极探索解决方案。从长远来看,生物医药的智能化进程背后,一场围绕数据进行的深刻变革正在徐徐展开。
尽管中国生物科技产业起步较晚,导致数据曾是巨大短板,但这也催生了一系列创新性的数据策略。
面向未来,中国因其工业体量的庞大,仍然有机会在专业领域数据中积累出优势,推动AI应用在全球范围内率先实现“从量变到质变”,释放巨大发展潜力。
谁能更早解决数据挑战,带来标杆解决方案,谁便更有机会兑现 AI 在医药领域的价值和想象空间。
传统机器学习方法高度依赖历史实验数据,但在小分子药物发现中,可用的高质量数据难以获得,且覆盖的化学空间极为有限。
学术界和产业界不仅需要更高精度的预测,还需要更经济高效的研发方法。
面对这一数据困境,经典的计算化学、量子物理方法,仍然占据市场主导,只需要知道分子的基本结构就可以进行预测,为数据“拓荒”迈出第一步。
量子计算赋能生命科学
这套经典方法,曾一度将全球第一家计算药物研发上市公司送上70亿美元市值。薛定谔(Schrodinger)推出了一系列的量子物理、计算化学创新算法工具,广泛受到制药产业信赖,已经成为市场的主流选择。
其拳头产品,FEP(自由能微扰)技术尤其具有代表性,其价值已在顶级药企的重磅交易中得到验证。
FEP计算在药物研发中有非常重要的地位,能实现对活性、选择性、耐药性、稳定性等关键药物候选指标的高精度预测。该技术可以直接生成高精度的研发数据,解决新靶点、新体系无初始数据的挑战;还能显著减少进入实验阶段的化合物数量,从而节省大量的时间和资源。
2022年末,武田制药以高达60亿美元的交易总额引进TYK2抑制剂NDI-034858,预付款为40亿美元,引发了行业的巨大震动。其核心价值不仅在于药物本身潜力,它还是药物发现历史上首个大规模成功应用先进自由能微扰计算技术(FEP+)的里程碑项目,也验证了计算驱动药物研发的广阔前景。
该项目基于薛定谔的FEP+技术,通过模拟分子间的原子级相互作用,从4000个可能的活性虚拟化合物中,精准地筛选出仅46个最有希望的分子进行实际合成,最终得到9个指标优秀的分子,极大缩短了研发进程,精确筛选出最有潜力的分子。这个案例也成为基于第一性原理的研发方法在产业价值与重要性的最有利佐证。
薛定谔使用FEP+设计和筛选靶向TYK2的化合物
再看最近的中国案例,晶泰科技自2018年与辉瑞签约的战略合作后,再次拿到辉瑞的研发订单,以AI+量子物理来打造新一代药物模拟平台,与经典方法一争高下。
根据晶泰与辉瑞在2024年初联合发布的论文展示,两家共研的XFF与XFEP平台自有底气,对标市场占有率第一的FEP 算法,XFEP仍展现出更加优越的性能、通量和化学空间覆盖。
这也意味着,辉瑞在晶泰的赋能之下,能比同行更精确地预测关键成药性质。同时,晶泰科技AI+物理模型的解决方案可以让辉瑞以更低的成本、在研发更早期用上更加精确的预测工具,兼顾精度与泛化能力这样传统上“鱼与熊掌不可兼得”的重要指标,因此赢得辉瑞的研发复购。
此外,晶泰还将为辉瑞本地化部署XFEP平台,提供从参数定制到FEP计算的全流程支持。这种深度集成使辉瑞科学家能直接应用高精度工具,减少外部依赖,提升研发敏捷性。
来自制药大厂的验证与坚定买单也展示着,量子物理+AI算法的深入融合是大药企真金白银选择的发展方向,为破局药物研发数据瓶颈迈出关键一步。
尽管,物理学模型通过先验知识降低对数据量的需求,减少算法黑箱问题,扩大了分子搜索空间,但依旧没能绕开数据供给的根本问题。
数据供给不足的背后,是传统实验方式的桎梏。科学家在近乎两个世纪未曾根本改变的实验环境下,依靠繁琐的手工操作,不仅效率低下,更无法避免人为失误带来的误差,严重影响着数据的可靠性与研发的效率。蕴含大量噪音、难以重现的人类实验数据,无法直接满足AI模型训练的高质量需求。
面对手工实验的诸多弊端,自动化实验室带来了立竿见影的效果,以药物研发DMTA(Design、Make、Test、Analyze)流程为例,人工方法每一轮大约需要一名化学家花费3到6周的时间,而自动化实验室将这一过程缩短到3到10天。
阿斯利康于2017年启动iLab项目,这个全自动药物化学实验室成立之初的愿景是将识别药物候选物的效率提升50%,目前iLab可以实现DMTA的完全自动化。
行至当下,机器人和AI的兴起让自动化实验室进入新的发展阶段,自动化实验室不再仅仅是一个独立工具,而是成为驱动整个研发流程的关键基础设施。
在Nature盘点的2025年值得关注的全球七大突破性技术中,「自动驾驶实验室」在列,文章指出:自动化实验室结合现代机器人和 AI 算法,能够规划和执行复杂的高通量实验,极大地拓展了化学研究的边界。
木头姐的《Big Ideas 2025》也指出,「自动驾驶实验室」正在使用可扩展生物学和人工智能来彻底改变药物发现。
在一些关键领域,如化合物合成,这是整个药物研发过程中最耗时及代价最高的部分之一,应用了AI和机器人技术的自动化湿实验室,能够实现可扩展、灵活、多项目、更快且更具成本效益的执行流程。
2024年1月,荷兰阿姆斯特丹大学团队在Science发文,他们开发了一个名为“RoboChem”的自主化学合成AI机器人,能够在一周之内优化合成 10-20 个分子,而这项任务此前需要一个博士生花费几个月来完成。
RoboChem
更重要的是,自动化实验正成为AI科学研发范式中承担起数据收集重任的关键基础设施。AI 指导下的机器人技术,将以更精确、更高效、可扩展的方式提供稳定可重现的实验数据,并进一步提供有价值的见解并支持数据驱动的决策,推动自动化实验室迈向智慧化阶段。
一些前沿企业,如Recursion和晶泰科技,正在大力投资基于AI和机器人的自动化实验室设施以大规模获取独特的生物数据和见解。
Recursion的自动化高通量实验室每周最多可以处理超过220万个样本,公司在表型组学、转录组学、蛋白质组学等领域生成了约36 PB的专有数据。
晶泰科技则在深圳、上海、波士顿建有超过10000平方米机器人实验室,部署超200台自动化工作站,每月积累20+万条反应过程数据,收集效率是传统数据收集方式的40倍;一次构建的AI 预测算法已经超越人类科学家,可以对 DMTA 周期中的关键环节更准确的预测,供人类科学家决策。
晶泰科技自动化实验平台
这些新型自动化设施的意义不仅在于提高实验流程效率和质量,而且还通过生成和分析真实世界实验数据来训练和改进AI模型。从中产生的大规模、高质量的结构化数据,为形成包含感知、生成、预测、决策、计划和执行的闭环大模型提供了基础,对算法的迭代、化合物筛选以及工艺优化至关重要。
更进一步地,以“AI+机器人” 的深度融合为支点,自动化实验平台加速算法从经验学习向因果推理进化,为智能时代的科研范式提供基础。
生命科学的旺盛的研发需求决定,数据的生产和整合只是第一步。
在靶点发现、化合物筛选、分子合成等核心环节,单纯的数据积累已无法满足创新需求,行业焦点在于深度解析数据与预测能力。
换句话说,药企公司更看重有价值的洞察。因此,高质量数据深度整合领域知识,对于打造垂直领域AI for Life Science模型而言不可或缺。
从通用AI领域的样本来看,掌握数据这一核心环节后,围绕数据构建服务和壁垒则是企业发展的必经之路。
例如Scale AI,公司从自动驾驶数据标注业务切入,逐步构建起涵盖数据标记与管理、模型训练与评估,以及AI应用开发与部署的全链条解决方案,最终拿下OpenAI、微软、谷歌、Meta等关键客户,晋升为大模型“卖水人”。
近日,Meta同意以约140亿美元收购Scale AI 49%的股份,足以证明数据在AI时代的关键价值。
生命科学领域,类似Scale AI的新型数据基建正迎来爆发机遇。其关键价值在于:通过自动化实验室产生高纯度结构化数据,形成跨药物发现、精准医疗、合成生物学的多模态引擎,并最终转化为研发效率优势。
例如Recursion通过自动化积累了超过50PB的生物、化学和患者数据库,开发了多款可加速药物发现AI 模型。Phenom-1作为35亿张细胞图像训练而来,用来寻找治疗癌症的分子。
AI加持下,Recursion正在快于行业平均速度将药物分子推进至临床。同时公司还和拜耳、罗氏等跨国药企合作开发新药,足以证明其数据驱动平台的有效价值创造。
晶泰科技则依托自动化实验室产生的PB级标准化数据,构建了超200个垂直AI模型矩阵,包括分子生成、靶标可开发性研究、分子性质预测、合成策略、晶型筛选等环节。
同样,模型预测精度越高,晶泰进而吸引更多合作伙伴,其反馈也在改进湿实验,再以实验结果反哺模型优化,形成指数级增强的循环进化。
2024年,晶泰科技总收入达到2.66亿元,首次达成港交所对商业化公司的收入门槛(2.5亿港元),营收指标是公司商业化的最有效的证明,昭示晶泰进入规模化发展阶段。
AI正在重塑生命科学行业的价值链条,从"人工经验"进化到"数据智能",Recursion、晶泰科技等先行者已提前实现生态占位,重要性日益凸显。
当前AI正以惊人的速度发展,生物医药正在迎来历史性机遇。然而相关数据的稀缺,成为横亘在技术理想与落地应用之间的关键障碍。
对此,晶泰科技勾勒出一条破局之路:打造可解释的物理+AI+机器人引擎,一方面卷底层物理学算法,在药企的内部需求推动下持续升级高精度物理模拟方法,降低数据依赖与训练门槛;另一方面将实验室转化为数据矿山,在广泛的药企合作中持续高通量产出高精度、可重复的领域数据,解决AI 发展的瓶颈问题。
这一实践代表生命科学正加速摆脱传统路径的束缚,一个由数据和计算驱动的更理性、更高效、更精准的研发范式正在到来。
文章来自于微信公众号“智药局”。
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】MONAI是一个专注于医疗影像分析的深度学习框架,它可以让医院高效、准确地从医疗影像数据中提取有价值的信息,以辅助医生进行诊断和治疗。
项目地址:https://github.com/Project-MONAI/MONAI?tab=readme-ov-file