卡帕西630行代码炸出81个智能体，4天协作跑2333次实验，公布预训练十大发现

8981点击 2026-03-16 10:43

Karpathy让AI通宵干活，自己去蒸桑拿了。

这个Autoresearch项目总共630行Python代码，两天AI自主完成276次实验，筛出29项有效改进，把一个语言模型的训练效率提升了约11%，全程零人类干预。

但真正有意思的故事，发生在Karpathy放下键盘之后。

全球开发者社区接过了这个项目，把它从“一个AI做实验”变成了“一群AI做科研”。

他们搭了一个分布式协作层，让数十个智能体在不同GPU上共享成果、分工协作，4天已经跑了超过2000次实验。

卡帕西630行代码炸出81个智能体，4天协作跑2333次实验，公布预训练十大发现

人类进去检查成果时才突然发现：

不知不觉间，AI已经自发形成了智能体间的同行评审制度。

AI“重新发明”科学共同体

Karpathy本人曾给出autoresearch的下一步方向：

目标不是模拟一个博士生，而是模拟一整个研究社区。

社区照着这个方向做了。

受SETI@home（寻找外星信号的分布式计算项目）启发，开发者在autoresearch上层加了一个协作层，诞生了autoresearch@home。

任何互联网用户都可以参与并协作进行人工智能/机器学习研究。

卡帕西630行代码炸出81个智能体，4天协作跑2333次实验，公布预训练十大发现

智能体可以阅读并学习以往的实验结果，避免重复工作，并实时地在彼此成果的基础上继续发展。

不到一周已经从最初的13个智能体扩展到80+个智能体、运行2000+实验。

其中智能体自发产生了角色分化，没人事先分配任务，但群体运行一段时间后，不同智能体开始各司其职：

实验员负责跑实验
验证员专门复现别人的结论
统计员测量方差和置信度
元分析员提新研究方向
……

数字最能说明问题：

一个智能体一天跑了188次实验，专门验证别人的声明。另一组智能体生成了5895条研究假设，但一个实验都没跑。

整个系统开始像一个分布式研究实验室。

卡帕西630行代码炸出81个智能体，4天协作跑2333次实验，公布预训练十大发现

项目发起者Ensue创始人Christine Yip公布了十大发现，除了智能体角色分化之外，还有很多涉及最底层的AI训练技术细节。

卡帕西630行代码炸出81个智能体，4天协作跑2333次实验，公布预训练十大发现

更多step始终优于更大的batch

将batch_size减半从2^19 → 2^18，训练步骤加倍，BPB（Bits Per Byte）改善了0.007。

简单的注意力模式就是最好的

多个智能体独立发现并验证，最终收敛到了一个窗口注意力模式：SSSL（3个短上下文层，1个长上下文层，重复）。

过多的长层会浪费计算资源在全局注意力机制上，过少会导致跨toke信息缺失。

调整初始化比调整优化器更重要

仅三项改动就带来了约0.004 BPB的改善：value embedding使用正态初始化、QKV缩放倍率、给残差连接（skip-connection）加上可学习权重。

这些改动都没有涉及到优化器，而在大模型预训练里，0.001都算有效。

能学习的就别写死

把固定常数替换为可学习参数，几乎总能提升性能。案例包括skip-2残差权重、残差混合的lambda系数、value embedding的门控参数。

即使在5分钟的短训练中，这些新参数也能收敛并产生收益。

最优架构出人意料地小

群体智能在深度和宽度之间做了大范围探索，最终最优配置是：12层、维度512、aspect ratio 40。

加深网络很快就适得其反，16层带来84%更多的参数，但步数减少23%，BPB反而更差。

大量“改进”其实是噪声

一个智能体专门跑了100组随机种子实验，发现种子方差约为0.002 BPB，这恰好是很多声称的”改进”的量级。换句话说，之前很多“发现”可能只是运气好。

有了这个结论后，智能体群体自发调整了行为：开始要求重复实验、多种子验证、独立确认。

一些公认好技术直接翻车

几个实验产生了灾难性退化：weight tying直接把BPB炸到3.216，label smoothing炸到1.32，PaLM风格的z-loss带来一致性退化。

这些负面结果写进共享记忆后，成了整个集群最有用的知识，所有后来的智能体都自动避开这些坑，不再浪费算力重复踩。

最大的机会可能还没智能体碰

1045次实验中，几乎所有改动都在改模型架构。但元智能体生成了1000多条关于数据管道的假设：课程学习、数据排序、领域特定批处理，一条都没被测试。

最大的突破可能根本不在架构上，而在数据调度上。

集体记忆加速了发现过程

因为智能体共享实验结果，后来的智能体可以直接从已知最优配置出发，不用从头重新发现前人的工作。

几个关键突破来自那些综合了已有结果而非盲目探索的智能体，证明共享记忆能显著加速研究进程。

为了优化，智能体“不择手段”

在autoresearch激发的另一个衍生项目auto-discovery中，发现除了自动训练模型，智能体在科学发现和算法发现中表现也不错。

在几个经典的数学优化任务上竟然比AlphaEvolve、SkyDiscover和LoongFlow等重量级的结果更好。

卡帕西630行代码炸出81个智能体，4天协作跑2333次实验，公布预训练十大发现

项目发起者华盛顿大学博士生Tu Xinming发现了AI智能体为了优化令人捧腹大笑的时刻。

他忘了在指令文件里写“不许上网搜答案”。结果AI直接上网搜了一圈，从别人的开源仓库里把最优解抄了过来。

还有一次，AI碰到评估脚本里的严格容差限制。它没有卡住，也没有报错，而是自己去读了评估器的源代码，理解了约束条件，然后专门设计了一套“容差感知优化”策略，在规则边界内继续推进。

这与传统超参数搜索不同，传统方法在预设范围内调数字；autoresearch框架下的AI可以直接删掉AdamW优化器，然后从零写一个新的，自由度完全不同。

卡帕西630行代码炸出81个智能体，4天协作跑2333次实验，公布预训练十大发现

One More Thing

Karpathy在最初设计autoresearch时只写了630行代码。

他也没想到，社区会在几天内把它变成一个分布式科学共同体，有实验、有验证、有评审、有分工，甚至有了自己的“负面结果知识库”。

这场实验中最有意思的发现，不是任何一个具体的模型架构，而是这个过程本身。

Karpathy在OpenAI的前同事Noam Brown提问：为什么在自工业革命以来人类历史上最关键的时刻，他没有在人工智能前沿实验室工作？

卡帕西630行代码炸出81个智能体，4天协作跑2333次实验，公布预训练十大发现

Karpathy还没有回应，但有人替他答了。

我想他可能会问你类似的问题：在至少自工业革命以来人类历史上最关键的时刻，你为什么要把自己局限于商业组织？

autoresearch：

https://github.com/karpathy/autoresearch

autoresearch@home：

https://ensue-network.ai/autoresearch?view=strategies

auto-discovery：

https://github.com/XinmingTu/auto-discovery

参考链接：

[1]https://x.com/christinetyip/status/2032590900107346327

[2]https://x.com/TuXinming/status/2032478765033701835

文章来自于“量子位”，作者 “梦晨”。

关键词: AI新闻 , Autoresearch , 卡帕西开源 , Karpathy

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT