曾在一线手搓材料,如今他要为每家企业配一位AI CTO | 专访律动造物谢童

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
曾在一线手搓材料,如今他要为每家企业配一位AI CTO | 专访律动造物谢童
5753点击    2026-01-28 14:54

曾在一线手搓材料,如今他要为每家企业配一位AI CTO | 专访律动造物谢童


在 AI 浪潮席卷全球的今天,大模型在写诗、作画、敲代码上已经展现出惊人的天赋。然而,在面对严谨、硬核的物质科学(物理、化学、材料)时,却常常表现得像个“偏科生”:它们能侃侃而谈化学理论,却在最基础的分子式、晶体结构书写和反应推理上频繁出现不稳定输出:说的像那么回事,写出来却漏洞百出。


近日,律动造物(Green Dynamics)创始人谢童领衔的新南威尔士大学(UNSW)团队,与瑞士洛桑联邦理工 (EPFL) Philippe Schwaller 团队联合发表论文:《MiST: Understanding the Role of Mid-Stage Scientific Training in Developing Chemical Reasoning Models》。这项工作为科学大模型打入了一针“工程化的清醒剂”:它不再盲目优化传统的 next-token loss 或困惑度(Perplexity),而是提出了 MiST(中段科学预训练)框架——一套在进入强化学习前,用于评估与塑造科学推理可解性的工程化协议。


曾在一线手搓材料,如今他要为每家企业配一位AI CTO | 专访律动造物谢童

(来源:受访者提供)


MiST 的核心逻辑在于:在进入强化学习(RL)之前,先通过内生的诊断指标将模型的“潜在可解性”(Latent Solvability)量化为 SCS(化学语法得分)与 CCS(化学能力得分)。只有当这两项“底座体检指标”达标,RL 才能真正将化学推理能力解锁。


在这条路线下,经过 MiST 和强化学习后的 CheMiST 大模型相比其基座模型的科学推理可解性分数最高可推升 1.8 倍,随后 RL 在多类复杂的化学任务上展现出跃迁式增益:有机反应命名准确率提升约 6 倍,无机材料生成的准确率提升约 1.7 倍。MiST 的出现,标志着科学推理模型的训练已从“经验主义的摸索”转向“可量化、可预测、可复现”的工程路径。


值得注意的是,谢童团队曾开源首个面向材料科学与化学的基础大模型 DARWIN,在“科学大模型”主线上完成了初步探索;而洛桑联邦理工学院(EPFL)的 Philippe Schwaller 教授则与 Andrew D. White(Future House 联合创始人)等人共同提出了首个工具增强的化学智能体 ChemCrow,在“科学智能体”方向奠定了基础。


曾在一线手搓材料,如今他要为每家企业配一位AI CTO | 专访律动造物谢童

图 | 谢童(来源:受访者提供)


为什么通用 AI 玩转不了化学?


近年来,基于规则奖励的在线强化学习方法(例如 GRPO 一类方法)被证明可以显著提升数学与代码等领域的推理表现。但一系列后续研究指出:RL 更像“放大器”——它只能放大基础模型输出分布中本来就存在、哪怕概率很低的正确解;如果正确解几乎从不出现,奖励就会极其稀疏甚至消失,训练自然难以推进。


化学是对这一结论的“压力测试”。化学问题不仅依赖专门的符号系统(如 SMILES、IUPAC 命名、CIF 等),还受到价态、键合、立体化学、相稳定性等物理化学硬约束。论文指出,通用 LLM 往往连“写对符号”都不稳定,更难在硬约束下保持推理链条的一致性;当正确答案不在候选输出里时,RL 的奖励信号就会消失或非常稀疏。


曾在一线手搓材料,如今他要为每家企业配一位AI CTO | 专访律动造物谢童

图 | 各大通用模型的化学语言能力(SCS)得分(来源:受访者提供)


“化学推理的本质是受物理和经验约束的链式推理(Physically and empirically constrained Chain-of-Thought)。”谢童告诉 DeepTech。


以钙钛矿太阳能电池的研发为例,其推理逻辑链遵循“成分/结构→缺陷/动力学→性能”。其配方中即使仅有 1% 的离子比例微调,也会触发一系列复杂的连锁反应。此时,模型不仅需要预测性能走势,更需在晶格应变、相稳定性、离子迁移等微观维度上保持逻辑自洽。然而,目前的通用模型在面对价态守恒、立体化学、反应可行性等硬约束时,模型经常会出现看起来会说、但推不动,甚至陷入重复输出一些奇怪内容的情况。


论文提出,RL 想在化学上成功,必须先满足两条必要条件。化学语法得分 (SCS),模型能稳定地产生、校验并操纵正确的化学各个细分学科的专业表示(如 SMILES、IUPAC、CIF 等),确保输出语法上有效、符号上自洽;化学能力得分 (CCS),底座模型的先验分布里已经对正确解赋予了不可忽略的概率、具备一定密度的化学规律与可行解空间;否则即使引入 RL,也很难把“正确解”从几乎为零的概率中奖励出来、放大出来。


曾在一线手搓材料,如今他要为每家企业配一位AI CTO | 专访律动造物谢童

图 | 强化学习并不能“从零教会”AI 化学推理(来源:受访者提供)


“这两个指标也为 Future House 在选择 ether0(其化学推理大模型)的底座模型时提供了一个合理解释:在现有通用模型中,Mistral-3-24B 在化学符号稳定性(SCS)方面表现尤为突出,使其更适合作为化学推理大模型的起点。”谢童表示。


MiST 助力解锁 AI 的化学推理能力


为了打破僵局,谢童及团队提出了 MiST 框架。“其核心逻辑很简单:在上 RL 之前,先把模型的‘化学语法+化学能力’补齐,让它具备被 RL 教会的资格。”谢童补充道,“它的重点不是让模型去死记硬背更多知识,而是先把三件事固化进模型的输出分布:语法正确性(能写对)、化学知识可解性(能理解)、以及推理表达方式(能稳定地推)。这样后面的 RL 才有可优化的空间,否则正确解都进不了候选输出,奖励信号再强也教不动。”


MiST 将训练分为两个关键动作:持续预训练 (Continued Pre-training)。在 2.9B tokens 的化学语料上进行针对性训练,这让 AI 学会了化学界的术语,能稳定操纵符号系统,确保输出的结构自洽;监督微调 (Supervised Fine-tuning)。利用包含思维链 (CoT) 的数据,让模型不仅能写对产物,还能解释推导过程。


曾在一线手搓材料,如今他要为每家企业配一位AI CTO | 专访律动造物谢童

(来源:上述论文)


这些步骤将 3B 和 7B 模型的潜在可解性分数(SCS)提升高达 1.8 倍,并使 RL 在多个下游任务取得跨越式提升,比如有机反应命名准确率从10.9% 升至 63.9%,无机材料生成从 40.6% 升至 67.4%;同时,输出可解释的推理轨迹。


“真正让人兴奋的是,这项研究并非单纯实现了通过 RL 提升模型评测分数,而在于我们验证了一个关键的因果链条:只有当通过 MiST 框架补齐了必要的模型专业前置能力后,强化学习才能真正有效地提升模型的化学与材料科学推理能力。”谢童表示。


这套结果背后代表一个范式变化,传统方法侧重于训练模型掌握事实性知识的提取与问答能力,而本工作构建的架构能够:在多重物理化学约束条件下生成候选分子/材料结构;执行单步及多步逆向合成设计、产物预测、官能团与骨架编辑;实现与实验工具链及自动化平台的高效闭环集成。


以研发“钙钛矿器件的界面添加剂”为例,CheMiST(经过 MiST+RL 训练后的大模型)会启动一套严谨的逻辑链条:首先,它会基于目标需求(如疏水性、缺陷钝化、能级匹配)自主生成一批潜在结构候选;随后对 SMILES 等化学符号进行合法性检查;紧接着,它会结合化学先验知识与计算工具进行快速初筛,剔除不符合官能团极性或配位逻辑的方案;最后,CheMiST 会输出一份详尽的推理轨迹,解释每一个推荐结构的科学逻辑,并按优先级进行排序。


打造每一个企业的 AI CTO


2023 年创办律动造物时,谢童的目标就已十分明确:打造全球首个“端到端闭环”的自主材料与化工品发现引擎。实验化学与材料科学出身的他,曾“手搓”过大量材料,也与团队取得过世界纪录级别的新材料成果。“我从高中参加化学竞赛就开始做实验,也正因为长期在一线做实验,我越发强烈地感受到:材料和化工研发中有大量环节可以被系统性提升,许多成本和时间,其实消耗在大量不可复用的经验试错上。”谢童感慨道。


“我们想做的不是一个会聊天的模型,而是给每一家化工与材料企业配一位‘AI CTO’,或者说材料化学行业的 cursor(面向研发流程的智能协作与执行工具), 把研发从经验驱动的试错,变成可计算、可验证、可闭环迭代的工程系统。而且这个 CTO 会根据不同行业不同产线进行动态的推理,也就是每个公司都能基于我们的大模型和智能体拥有自己的 CTO。”


目前,律动造物有两大 AI CTO 产品线:ByteScience(科学 AI 智能体)负责把方向找对,ByteFactory (自主化实验室,Self-Driving Lab) 负责把验证跑快,两者合起来将研发闭环。


具体来说,ByteScience 用于把分散的资料、经验和历史实验结果变成可用的知识,让团队更快定位问题、在明确约束下给出更靠谱的候选方案,减少盲试和重复踩坑, 并且提供推荐方案的可解释性.


目前,MiST 框架也已经被整合进 ByteScience 智能体里,并应用于真实的研发流程中:保证化学结构表示的稳定性、价态与立体化学的自洽性,以及目标物性与工艺边界的协同优化,而非仅限于榜单优化。


据谢童透露,由此带来的直接效益体现为研发周期与成本的结构性压缩:新材料筛选效率显著提升(涵盖电池、光伏、航空航天, 精细化工等领域);配方迭代速度大幅加快(涉及涂层、胶粘剂、膜材料等体系);关键路径从传统的数月甚至数年的试错周期,缩短至以天为单位的闭环迭代周期,实现从慢速探索向可控快速迭代的模式跃迁。


ByteFactory 用于把实验验证环节标准化、自动化,智能化并行起来,让实验更快、更可复现,缩短等待时间,把几周一轮尽量压到更高频的迭代。


据悉,自去年开始,律动造物便开始系统与多家上市材料化工公司展开合作,获得了多笔具有相当规模的商业化订单,并将其“AI CTO”嵌入到真实的材料与化工研发流程中运行。


曾在一线手搓材料,如今他要为每家企业配一位AI CTO | 专访律动造物谢童

图 | AI CTO 驱动的自主化实验室正在合成钙钛矿样品(来源:受访者提供)


在实际案例中,律动造物已帮助部分客户将实验验证成本和研发周期最高可达百倍量级。这种降本增效并非简单的流程加速或者暴力筛选,而是通过 AI 挖掘出了原本被埋没在数十年经验试错中的宝矿。


“其中最令我印象深刻的,是来自一家客户团队的评价:在某些材料设计任务中,我们的智能体在候选方案的覆盖面、约束条件的满足度以及迭代速度方面,已经达到甚至接近其内部资深研究人员的水平。这一反馈对我触动颇深,因为大模型和智能体不再局限于答题式的表现,而是实际参与到客户的研发决策中,产生了直接的影响。”


具体而言,在明确性能目标与合成工艺边界后,客户使用 AI 智能体生成并筛选出一批候选材料,其中部分设计方向是其团队在十多年的研究中未曾考虑过的。初步验证结果良好,目前已推进至更接近产线的验证阶段。“这样的落地速度与深度,实际上远超我最初的预期。”


未来 5-10 年的胜负手:谁更会做工程化


在全球材料市场爆发式增长的背景下,中国企业凭借强大的国内需求与国家战略支持,正处于这场材料革命的前沿。然而,在谢童看来,真正的变革不在于产能的扩张,而在于研发底层逻辑的彻底革命。


这种范式的代际跨越,预示着未来 5-10 年,材料研发将完成从经验驱动的试错向计算指导+智能推理+实验验证+闭环迭代体系的跨越。在这种新范式下,AI 的角色将发生质变:它不再仅仅是文献检索的“速记员”,而是深度参与假设生成、约束校验与实验决策的核心研发者。这种转变将把以往极度依赖专家直觉的非标过程,沉淀为可复用、可规模化的标准化流程,让更耐用的电池、更高效的光伏以及更低成本的化工材料能够加速走出实验室,进入日常生活。


但谢童也清醒地指出,这一过程并非一蹴而就。由于材料供应链“牵一发而动全身”的特性,从技术突破到产业普及,需要跨越漫长的工程化验证与产线协同。真正的落地,是 AI 研发的高频迭代与产业端快速验证机制之间的“双向奔赴”。


面对飞速演进的 AI 技术,谢童也为科研工作者提出了一套穿越周期的核心理念:不应仅停留于如何调用模型,而应深入学习如何将现实科学问题转化为可验证的约束体系。


材料化学与计算机科学有着本质差异。计算机领域通常有统一的黄金基准,而材料化学性能(如强度、稳定性)强烈依赖于环境与工艺等环境因素,不存在绝对普适的标准答案。因此,谢童建议聚焦以下三大实践指南:精准定义约束条件,将热力学稳定性、合成可行性、成本阈值等转化为 AI 可理解的量化表达;同时构建闭环迭代流程,将每次验证系统性地回写至知识库;并坚持做实验证与可复现性,确保研发过程的每一环节都清晰可追溯。


“如果能建立起这套‘约束—验证—闭环’的习惯,你会发现 AI 的迭代再快,你也不会被热点或工具更新牵着走。因为你掌握的是材料化学研发最核心的那套方法论。”


参考链接:


1.https://arxiv.org/abs/2512.21231


文章来自于“DeepTech深科技”,作者 “落花”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
cursor

【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现,请参考教程进行配置。

视频教程:https://www.bilibili.com/video/BV1WTKge6E7u/

项目地址:https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file


2
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

5
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

6
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner