卡帕西630行代码炸出81个智能体,4天协作跑2333次实验,公布预训练十大发现

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
卡帕西630行代码炸出81个智能体,4天协作跑2333次实验,公布预训练十大发现
8628点击    2026-03-16 10:43

Karpathy让AI通宵干活,自己去蒸桑拿了。


这个Autoresearch项目总共630行Python代码,两天AI自主完成276次实验,筛出29项有效改进,把一个语言模型的训练效率提升了约11%,全程零人类干预。


卡帕西630行代码炸出81个智能体,4天协作跑2333次实验,公布预训练十大发现


但真正有意思的故事,发生在Karpathy放下键盘之后。


全球开发者社区接过了这个项目,把它从“一个AI做实验”变成了“一群AI做科研”。


他们搭了一个分布式协作层,让数十个智能体在不同GPU上共享成果、分工协作,4天已经跑了超过2000次实验。


卡帕西630行代码炸出81个智能体,4天协作跑2333次实验,公布预训练十大发现


人类进去检查成果时才突然发现:


不知不觉间,AI已经自发形成了智能体间的同行评审制度。


AI“重新发明”科学共同体


Karpathy本人曾给出autoresearch的下一步方向:


目标不是模拟一个博士生,而是模拟一整个研究社区。


社区照着这个方向做了。


受SETI@home(寻找外星信号的分布式计算项目)启发,开发者在autoresearch上层加了一个协作层,诞生了autoresearch@home


任何互联网用户都可以参与并协作进行人工智能/机器学习研究。


卡帕西630行代码炸出81个智能体,4天协作跑2333次实验,公布预训练十大发现


智能体可以阅读并学习以往的实验结果,避免重复工作,并实时地在彼此成果的基础上继续发展。


不到一周已经从最初的13个智能体扩展到80+个智能体、运行2000+实验。


其中智能体自发产生了角色分化,没人事先分配任务,但群体运行一段时间后,不同智能体开始各司其职


  • 实验员负责跑实验
  • 验证员专门复现别人的结论
  • 统计员测量方差和置信度
  • 元分析员提新研究方向
  • ……


数字最能说明问题:


一个智能体一天跑了188次实验,专门验证别人的声明。另一组智能体生成了5895条研究假设,但一个实验都没跑。


整个系统开始像一个分布式研究实验室。


卡帕西630行代码炸出81个智能体,4天协作跑2333次实验,公布预训练十大发现


项目发起者Ensue创始人Christine Yip公布了十大发现,除了智能体角色分化之外,还有很多涉及最底层的AI训练技术细节。


卡帕西630行代码炸出81个智能体,4天协作跑2333次实验,公布预训练十大发现


  • 更多step始终优于更大的batch


将batch_size减半从2^19 → 2^18,训练步骤加倍,BPB(Bits Per Byte)改善了0.007。


  • 简单的注意力模式就是最好的


多个智能体独立发现并验证,最终收敛到了一个窗口注意力模式:SSSL(3个短上下文层,1个长上下文层,重复)。


过多的长层会浪费计算资源在全局注意力机制上,过少会导致跨toke信息缺失。


  • 调整初始化比调整优化器更重要


仅三项改动就带来了约0.004 BPB的改善:value embedding使用正态初始化、QKV缩放倍率、给残差连接(skip-connection)加上可学习权重。


这些改动都没有涉及到优化器,而在大模型预训练里,0.001都算有效。


  • 能学习的就别写死


把固定常数替换为可学习参数,几乎总能提升性能。案例包括skip-2残差权重、残差混合的lambda系数、value embedding的门控参数。


即使在5分钟的短训练中,这些新参数也能收敛并产生收益。


  • 最优架构出人意料地小


群体智能在深度和宽度之间做了大范围探索,最终最优配置是:12层、维度512、aspect ratio 40。


加深网络很快就适得其反,16层带来84%更多的参数,但步数减少23%,BPB反而更差。


  • 大量“改进”其实是噪声


一个智能体专门跑了100组随机种子实验,发现种子方差约为0.002 BPB,这恰好是很多声称的”改进”的量级。换句话说,之前很多“发现”可能只是运气好。


有了这个结论后,智能体群体自发调整了行为:开始要求重复实验、多种子验证、独立确认。


  • 一些公认好技术直接翻车


几个实验产生了灾难性退化:weight tying直接把BPB炸到3.216,label smoothing炸到1.32,PaLM风格的z-loss带来一致性退化。


这些负面结果写进共享记忆后,成了整个集群最有用的知识,所有后来的智能体都自动避开这些坑,不再浪费算力重复踩。


  • 最大的机会可能还没智能体碰


1045次实验中,几乎所有改动都在改模型架构。但元智能体生成了1000多条关于数据管道的假设:课程学习、数据排序、领域特定批处理,一条都没被测试。


最大的突破可能根本不在架构上,而在数据调度上。


  • 集体记忆加速了发现过程


因为智能体共享实验结果,后来的智能体可以直接从已知最优配置出发,不用从头重新发现前人的工作。


几个关键突破来自那些综合了已有结果而非盲目探索的智能体,证明共享记忆能显著加速研究进程。


为了优化,智能体“不择手段”


在autoresearch激发的另一个衍生项目auto-discovery中,发现除了自动训练模型,智能体在科学发现和算法发现中表现也不错。


在几个经典的数学优化任务上竟然比AlphaEvolve、SkyDiscover和LoongFlow等重量级的结果更好。


卡帕西630行代码炸出81个智能体,4天协作跑2333次实验,公布预训练十大发现


项目发起者华盛顿大学博士生Tu Xinming发现了AI智能体为了优化令人捧腹大笑的时刻。


他忘了在指令文件里写“不许上网搜答案”。结果AI直接上网搜了一圈,从别人的开源仓库里把最优解抄了过来。


还有一次,AI碰到评估脚本里的严格容差限制。它没有卡住,也没有报错,而是自己去读了评估器的源代码,理解了约束条件,然后专门设计了一套“容差感知优化”策略,在规则边界内继续推进。


这与传统超参数搜索不同,传统方法在预设范围内调数字;autoresearch框架下的AI可以直接删掉AdamW优化器,然后从零写一个新的,自由度完全不同。


卡帕西630行代码炸出81个智能体,4天协作跑2333次实验,公布预训练十大发现


One More Thing


Karpathy在最初设计autoresearch时只写了630行代码。


他也没想到,社区会在几天内把它变成一个分布式科学共同体,有实验、有验证、有评审、有分工,甚至有了自己的“负面结果知识库”。


这场实验中最有意思的发现,不是任何一个具体的模型架构,而是这个过程本身。


Karpathy在OpenAI的前同事Noam Brown提问:为什么在自工业革命以来人类历史上最关键的时刻,他没有在人工智能前沿实验室工作?


卡帕西630行代码炸出81个智能体,4天协作跑2333次实验,公布预训练十大发现


Karpathy还没有回应,但有人替他答了。


我想他可能会问你类似的问题:在至少自工业革命以来人类历史上最关键的时刻,你为什么要把自己局限于商业组织?


autoresearch:


https://github.com/karpathy/autoresearch


autoresearch@home:


https://ensue-network.ai/autoresearch?view=strategies


auto-discovery:


https://github.com/XinmingTu/auto-discovery


参考链接:

[1]https://x.com/christinetyip/status/2032590900107346327

[2]https://x.com/TuXinming/status/2032478765033701835


文章来自于“量子位”,作者 “梦晨”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT