Z Tech|独家解读Meta朱泽园开源新基线,用10%算力跑赢Llama3-8B,科学方法引领新范式,语言模型物理学迈入新时代

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Z Tech|独家解读Meta朱泽园开源新基线,用10%算力跑赢Llama3-8B,科学方法引领新范式,语言模型物理学迈入新时代
5371点击    2025-08-02 14:04

01 物理学式的AI科学革命


即便是最顶尖的大模型,依然会在简单推理和常识问题上犯错。这是算法极限,还是训练范式出了问题?我们能否像物理学家一样,用客观、可控的实验揭示“AGI”本质?


《Physics of Language Models(语言模型物理学)》,正是将AI研究带入“物理学范式”的项目,由Meta FAIR研究院的朱泽园概念化发起,并统筹设计。朱泽园是LoRA技术合作者、Katyusha优化算法发明者、清华本科,麻省理工博士、Google Codejam全球编程大赛第二名、IOI两届国际金牌,论文引用超三万。他从优化理论深耕多年,现专注于AI基础理论和智能本质的科学探索。


Z Tech|独家解读Meta朱泽园开源新基线,用10%算力跑赢Llama3-8B,科学方法引领新范式,语言模型物理学迈入新时代


02 用物理学方法追寻智能的普适规律


Z Tech|独家解读Meta朱泽园开源新基线,用10%算力跑赢Llama3-8B,科学方法引领新范式,语言模型物理学迈入新时代


Physics of Language Models主张,AI进步应像物理学一样,追求可复现、可归纳、可解释的“普适规律”。如牛顿和开普勒用观测与归纳总结自然定律,AI也需建立“理想实验田”:


  • 将“智能”拆解为原子化、可控的任务维度(推理、知识、结构理解等),为每个维度设计合成实验,最大限度减少“现实世界数据”的噪音;


  • 用可控实验,揭示不同模型架构的极限与短板,不仅看“刷分”,更追溯“为何如此”“如何突破”;


  • 坚持客观、可验证的科学精神和学术思想传承,推动AI从工程走向基础科学。


这种范式革新,获将为后续模型设计奠定坚实理论基础。


03 开源理论走向实证,算力门槛前所未有之低


本次开源,是Physics of Language Models自诞生以来首次将理论体系落地到实际大模型,堪称一个里程碑。用42,000 GPU小时(不到Llama3-8B的10%),从零训练出在多项benchmark上全面超越同量级真开源模型,并且超越了Llama3-8B这样的数据闭源模型。最重要的是,全链路开源数据、代码、权重和详细实验,任何人均可复现。


Z Tech|独家解读Meta朱泽园开源新基线,用10%算力跑赢Llama3-8B,科学方法引领新范式,语言模型物理学迈入新时代


04 两大关键策略:理论+实践深度结合


策略一(Part 3.1):多样重写+QA混合预训练,重构知识提取机制


2023年发表的Physics of LM系列 Part 3.1论文,首次揭示知识提取的极限与突破口:只有在预训练阶段引入多样化重写和QA混合数据,才能让大模型学会知识的抽取与迁移。这一发现已在2024年ICLM大会上获得高度关注,朱泽园受邀做2小时tutorial,系统讲解了LLM基础模型训练中的现象与理论,获得广泛好评。YouTube链接


值得一提的是,这两项理论指导已经在2024年12月被Nvidia团队实现,并发表为名为Nemotron-CC的开源数据。


策略二(Part 4.1):Canon层,横向信息流的革命


Z Tech|独家解读Meta朱泽园开源新基线,用10%算力跑赢Llama3-8B,科学方法引领新范式,语言模型物理学迈入新时代


如MMLU曲线所示,仅用简单的Canon层结构,模型能力大量提升。这一发现,正是两个月前Physics of LM系列Part 4.1论文首次提出。


卡农(Canon)层的核心,是在模型内部引入横向残差连接——即使只是前几个token的简单平均,也能让Transformer推理深度提升2-4倍,推理广度和结构学习能力同步增强。Canon层极易集成主流架构,零调参、成本极低,且能显著提升长度泛化(甚至可大量替代RoPE等位置编码)。


Z Tech|独家解读Meta朱泽园开源新基线,用10%算力跑赢Llama3-8B,科学方法引领新范式,语言模型物理学迈入新时代


这或许是LLM设计的‘伽利略时刻’——可控的合成预训练实验揭示了大模型结构的极限,有望成为领域发展的分水岭。”


05 为什么说这是开创性的工作?


  • 定义了“理想实验田”:用合成数据拆解“智能”,让不同架构极限差异被放大(现实数据噪音会掩盖本质)。


  • 建立模型科学的客观评测范式:极小体量实验,即可揭示大模型架构未来,为行业节省巨额算力。


  • 成果全开源,重现性极高:全部数据、代码、权重和实验曲线都详实对比,杜绝“挑数据、挑模型”。模型参数已上传 Hugging Face


  • 项目和论文主页 physics.allen-zhu.comGithub


《Physics of Language Models》致敬科学本源。它以物理学般的客观性和学术思想传承,把AI从“只会刷榜”带入“可验证、可解释、可积累”的科学新阶段。希望每一个关注智能本质的你,都能在这个全开源实验田里,发现属于自己的规律与灵感。


请注意,此次内容已经过精心编辑,并得到了朱泽园博士的认可。欲了解更多关于朱泽园的信息,敬请访问其网站http://zeyuan.allen-zhu.com/。我们也欢迎读者通过留言互动,分享您对本文的看法。


Z Tech 将继续提供更多关于人工智能、全球化市场、机器人技术等领域的独家技术分析与学术Talk。我们诚邀对未来充满憧憬的您加入我们的Phd/Reseachers的实名社群!,与我们共同分享、学习、成长。


文章来自于微信公众号“Z Potentials”。


关键词: AI , Meta , 朱泽园 , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站