01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员

7769点击 2025-03-20 23:06

一个超越DeepSeek GRPO的关键RL算法出现了！

用上该算法后，Qwen2.5-32B模型只经过RL训练，不引入蒸馏等其他技术，在AIME 2024基准上拿下50分，优于相同setting下使用GRPO算法的DeepSeek-R1-Zero-Qwen，且DAPO使用的训练步数还减少了50%。

这个算法名为DAPO，字节、清华AIR联合实验室SIA Lab出品，现已开源。

论文通讯作者和开源项目负责人都是一个叫Qiying Yu的人。

01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员

Qiying Yu，何许人也？

量子位搜罗网络公开资料，整理出以下信息：

禹棋赢，01年生，本科毕业于哈工大，直博进入清华AIR，目前博士三年级在读。去年年中，他以研究实习生的身份加入字节首次推出的「Top Seed人才计划」。

01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员

我们还从知情人士处得知了禹棋赢的另一重身份——

在字节大模型团队内部负责打造“能力显著提升的下一代语言模型”的攻坚小组中，禹棋赢是唯一的实习生。

虽然是实习生，但在这个大神云集的小组里，禹棋赢被委以重任，直接负责RL方向的研究。

凭什么？

事情要从去年夏天说起。

去年10月，他在字节第一个跑出aha moment

去年5月，字节启动「Top Seed人才计划」，最终录取多名应届和在读博士组成史无前例的AI研究团队，禹棋赢就在其中。

为期2个月的warm up landing（类似可自由探索的适应期）后，禹棋赢锚定了自己的方向——大语言模型推理。

几乎定下方向的同时，禹棋赢就和mentor王明轩确定，要做一个聪明的强推理能力模型。

这事儿和豆包大模型主团队的项目并行推进，主要是禹棋赢一个人在探索。

更为关键的是，看到“采样更多，弱模型准确率也可以很高”的现象后，他坚定以及肯定要用RL来做。

不久之后的9月，RL与CoT结合使逻辑准确性和泛化能力大幅提升的OpenAI-o1就出现了。

方向没错！那就“沿这条路一直往后做”。

01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员

知己知彼，百战不殆。禹棋赢开始花式拿o1跑case，比如挨个做IMO题（其中部分题目得到答案不难，严谨的证明过程才是得分点）。

不跑不要紧，一跑起来问题就暴露了。

o1能给出正确答案，但是证明过程缺乏。

基于此，禹棋赢和团队当时就赌了一把，判断o1是纯基于outcome supervision train出来的。

于是乎，禹棋赢get了一个与当时主流思路不同的强烈技术信号：

用outcome based reward去做 RL。

就这么干吧！接着就是基于字节内部小模型和内部代码库，用很少的GPU、学术界开源数据集，疯狂迭代、疯狂跑。

这一干还真给他干出东西来了——

一开始，能把小模型的数学能力提升几十分，超过内部最大、最强的模型。

后来，禹棋赢几乎每天都会发现模型涌现出一些新能力，一些此前大伙儿一直想让它有、但又可望不可即的能力。

现在，不需要构造任何东西，只需要通过RL，模型自己就能把这些能力涌现出来，甚至涌现复杂的类o1的推理能力。

以至于那段时间禹棋赢非常兴奋，每天拽着王明轩疯狂讨论到深夜。

他自己更是直接在会议室摆了张床住在公司。

虽然他和床的关系，在那1个多月里其实是这样的：半夜12点能躺下，但兴奋得根本睡不踏实，凌晨2点又爬起来写代码，可能5点多一个idea灵感乍现就又爬起来。

基本上每一夜都非常兴奋地起来好几次，就这么醒醒睡睡，也不觉得累。

01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员

此处出现了一个关键的时间节点。

“大概十月十几号，我们发现要模型输出非常复杂的数学公式时，它会说This is very difficult and seems to lead a very complicated equation. Let’s try another approach。”禹棋赢觉得大模型这个反思过后换思维的行为很有灵性。

屏息凝神，他和王明轩盯着屏幕反复确认，最终认定——这就是他们所追求的能力的雏形！

根据截图，当时他们在文档里敲下这么一段话：

非常有意思。更加坚定地相信Outcome-based RL一定能激发出非常厉害的行为！！！

01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员

没错，DeepSeek-R1引人注目的Aha Moment（顿悟时刻），禹棋赢在去年10月在字节内部跑通了。

据说，此后，禹棋赢被邀请进入LLM攻坚小组，并委以「负责RL方向」的重任。

下一战，“研究清楚RL的scaling规律”

以上细节，来自最近互联网冲浪时在一个知乎话题下的意外发现。答主匿名，分享了在字节大模型团队Top Seed实习的经历，从事RL方向。

经量子位求证确认，该答主就是禹棋赢。

01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员

沿着这条脉络，我们在互联网上搜集整理了禹棋赢的更多“战绩”。

据HIT计算学部团委公众号资料，禹棋赢是哈尔滨工业大学2018级本科生。

他以材料专业入学，中途转到计算机科学与技术专业，主要研究方向为自然语言处理。

按照目前资料来看，这应该是名天赋型选手——大二才开始学编程，但同年就加入了博导车万翔的科研团队。

大四时，禹棋赢在左旺孟教授团队以一作身份在ECCV上发表了一篇论文。

本科毕业后，禹棋赢直博清华，现在清华AIR博三在读。

此前，他曾先在智源实习，作为核心作者产出了Emu、EVA-CLIP系列工作，跟随的mentor是曹越（前光年之外联创）和王鑫龙（智源研究院视觉模型研究中心负责人）。

去年5月字节开启Top Seed计划后，他在6月通过校企合作项目入选，成为首批Top Seed成员。

量子位获悉，和禹棋赢同期的Top Seed实习生还有两届IMO满分选手、LLaDA一作、 Buffer of Thoughts一作等人。

这里补充一句，前面我们提到过禹棋赢的mentor王明轩，就是去年量子位率先曝光的字节大模型关键8人之一。

01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员

△王明轩，图源豆包大模型团队公众号

禹棋赢加入Top Seed后，就有了和王明轩一起发现aha moment，每晚讨论到11点、谁也不想离开公司的难忘经历。

后面在 LLM 攻坚小组，有一个好消息，和一个坏消息。

好消息是，加入攻坚小组后，无论是工程上还是数据上得到的各方支持都更多了。

加上组织扁平，鼓励end to end把模型、预训练、后训练打通，结合上下游去思考问题，整体交流非常高效。

“坏”消息是，1月底，DeepSeek-R1从天而降。

禹棋赢在知乎帖中慨叹，本来“那时每天都在认知突破与兴奋中度过，但有点遗憾的是，到1月就被Deepseek打爆了hhh。”

01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员

倒不是心灰意冷，至少R1的出现表示一直坚定推进的路线没有错，DeepSeek团队还把它做得很优雅，且实测效果非常优秀。

后来的测试结果显示，如果选择蒸馏可以立即提升推理效果，但当时为了真正弄清楚机理，禹棋赢和同事们还是选择慢慢来，做长期的事情，step by step提升数据质量。

回看那段日子，禹棋赢觉得“记忆里完全没有疲惫”，兴奋得睡不着觉的感受还历历在目。

“怕什么真理无穷，进一寸有进一寸的欢喜。”他在知乎帖中写道，团队里无论是工程还是算法，都会把追求真理、追求技术本质的突破作为非常大的reward，大家会觉得这个很开心。

现在的禹棋赢又有了新的追求：他bet LLM RL技术towards AGI，接下来的目标是研究清楚RL的scaling。

大模型行业，经验不再是唯一筹码

禹棋赢身上集合了太多tag，是现如今大模型一线极具代表性的缩影。

还有个更戏剧性的tag，必须要提的那种——

进字节前，禹棋赢还在智源做多模态方向实习的时候，据说非常多一线大模型团队的HR都给他和同事抛过橄榄枝。

那时候，禹棋赢是在DeepSeek和字节中做的最终选择。

答案嘛，大家读到这肯定都知道了。

之所以这样选，禹棋赢自己说得很清楚，“字节场景和资源丰富，探索空间足够，上限够高。”

而且和外界印象不一样，新人在这里也可以得到很好的nurture，“明轩、永辉经常来找我交流，我也可以说是在字节读的博”。

如果再来一次，面对DeepSeek，我还是会选ByteDance。

我觉得DeepSeek战斗力真的很强，但我会努力让ByteDance胜算更大一点！

01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员

有点中二？有点燃？

这倒不是关键，关键是真的有地方能承接禹棋赢的高燃。

字节对禹棋赢的重用，本质上是当下顶尖大模型团队对“解决前沿问题能力”的极致追求——一个能在RL方向从0到1跑通关键技术的年轻人，即使身份只是实习生，也能成为攻坚战中不可替代的突击手。

这种情况在AI、在大模型这行并不是新鲜事了。

以实际解决问题的能力而非资历定义价值的逻辑，早已经在重塑AI产业的人才坐标系。

OpenAI从GPT-1开始就这样，一作Alec Radford刚从非顶尖高校本科毕业，后来几乎参与了OpenAI所有的重大突破；到GPT-4o、Sora，团队半壁江山都是新人、年轻人。

DeepSeek也这样，是清北应届生撑起一片天。创业团队更不用多说，大部分都是年轻毕业生组局。

现在又有了字节TopSeed实习生禹棋赢这个例子。

他们的故事折射出AI大模型时代的全新图景——经验不再是唯一筹码，好奇心与执行力才是通行证。

AGI领域，大片的未知领域等待探索。当一个新的模型架构或训练方法被提出，无论是老法师还是新手村村民，都需要重新学习和适应。

另一边，过往的权威方法论可能成为通往AGI的思维枷锁。

年轻人虽然经验相对缺乏，但不落窠臼，还拥有一些独属于初出茅庐者的特质：他们对技术直觉的信任高于既有范式，有拦都拦不住的热情与好奇心，对试错成本怀抱极高的耐受度。

这一切对探索AGI来说，珍贵非常。

01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员

非常nice的事情就是，学界和工业界都很认这张通行证。

学界培养和重用年轻人。每个AI顶会上都诞生闪耀的新星；各大高校大模型相关专业，每年都有更年轻的人担任教职，为后来者引路。

工业界欢迎和托举年轻人。就拿字节Top Seed这个大模型人才项目标杆为例，为包括实习生在内的年轻人提供充分算力资源、业界顶级待遇，不仅给予探索空间，还可以将研究转为实际应用。

一条崭新的、清晰的逻辑链摆在我们眼前：

当AGI探索进入无人区，谁离前沿和新的边界更近，谁就能引领和定义规则，绝不论资历和出身。

One More Thing

At last，看到这儿的朋友们有福了，来吃最后一口瓜：

量子位独家获悉，今年字节还会继续Top Seed项目。

将由原谷歌DeepMind副总裁、现字节跳动豆包大模型团队负责AI基础研究探索工作的吴永辉亲自带队。

参考资料：

[1]https://www.zhihu.com/people/wabjpz

[2]https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTEyNQ==&mid=2247488385&idx=1&sn=56b0aefdc366c35535094062318be078&chksm=cebb3c1bf9ccb50d0061a76305f3710d7baba55d8a8400c55b84ca1aaa287f5af535acc649b2#rd

[3]https://mp.weixin.qq.com/s/2oo0LLsOLdKomNZs2UONnw

文章来自微信公众号 “ 量子位 ”，作者衡宇

01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员

关键词: DAPO , 禹棋赢 , AI算法 , 字节AI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/