坏了!R1的秘密被Deepmind发现了!「啊哈时刻」首次被披露,现已可量化!

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
坏了!R1的秘密被Deepmind发现了!「啊哈时刻」首次被披露,现已可量化!
5452点击    2025-06-21 13:01

自年初起,DeepSeek-R1、OpenAI o3、Qwen3等推理模型相继问世,展现出令人惊叹的智能水平,但它们为什么突然变得这么聪明?东京大学联合Google DeepMind的研究者们终于找到了答案。他们以DeepSeek-R1-Distill-Qwen-32B为研究对象,用一种叫"推理图"的方法,把模型内部那些看不见摸不着的思考过程首次给"可视化"了出来。


坏了!R1的秘密被Deepmind发现了!「啊哈时刻」首次被披露,现已可量化!


坏了!R1的秘密被Deepmind发现了!「啊哈时刻」首次被披露,现已可量化!


"啊哈时刻"首次被披露


推理模型突然停下来说"等等,让我重新想想",然后神奇地纠正了自己的错误答案。这种被称为"啊哈时刻"的现象一直让研究者们着迷,但从来没人知道它到底是怎么发生的。研究者们发现,所谓的"啊哈时刻"在推理图中表现为清晰的环形结构——当模型意识到推理有问题时,它会回到之前的某个思考节点重新开始。更震撼的是,他们现在可以精确地数出每个样本中模型"反悔"了多少次,平均每个问题大约5次!但这个发现只是冰山一角,真正的秘密还在后面...


黑盒破解:推理不再是玄学


以前我们只知道这些模型很厉害,但完全不明白它们到底是怎么想的。研究者们设计了一套巧妙的方法来 "窥探"模型内部:就像医生用脑电图监测人类大脑活动一样,他们监测AI在思考时的"内心活动"。想象AI的大脑有很多层,就像一栋64层的大楼,研究者们在第58层安装了"监控设备",记录AI每一个思考步骤时的"脑电波"。然后用一种叫K-means的方法,把这些复杂的"脑电波"整理成200种不同的"思考模式",最后按照时间顺序把这些模式连接起来,形成一个复杂的网络结构。


这个由思考节点和连接关系构成的网络结构,就是研究者们所说的"推理图"——一张能够展现AI内部思考路径的可视化地图。每个节点代表一种思考模式,每条连线代表思维的跳转,整张图就像是AI大脑的"CT扫描",让我们第一次看清了智能推理的真实面貌。


坏了!R1的秘密被Deepmind发现了!「啊哈时刻」首次被披露,现已可量化!


图:研究者如何从AI模型中提取推理图的详细流程图


K-means聚类:把思维"分门别类"的秘密武器


K-means聚类就像一个超级聪明的图书馆管理员。想象您有一万本散乱的书籍,这个管理员能够自动把它们分成200个类别——数学书放一堆,文学书放一堆,科学书放一堆。在AI的世界里,K-means做的是同样的事情:它发现有些"思考时刻"很相似,就把它们归为一类。论文显示,聚类出来的节点确实对应着有意义的计算过程:有专门处理乘法的节点、处理加法的节点,甚至还有处理"等等,让我重新想想"这种反思行为的节点。这种方法的巧妙之处在于,它不需要人工标注,完全通过数据驱动就能发现模型内部的"思维分工"。


坏了!R1的秘密被Deepmind发现了!「啊哈时刻」首次被披露,现已可量化!


表格展示了聚类发现的典型思考模式:乘法运算、加法运算,以及关键的"等等"反思节点


惊人发现:推理模型的大脑长得不一样


当研究者们对比从DeepSeek-R1技术蒸馏出来的推理模型(DeepSeek-R1-Distill-Qwen-32B)和普通基础模型的推理图时,差异大得让人吃惊。这些蒸馏推理模型的图有三个显著特征:更多的环路结构(平均每个样本5个循环)、更大的图直径(探索范围更广)、还有6倍于基础模型的小世界特征。你可以想象成,普通模型的思路像农村小路,而推理模型的思路像设计精良的一线城市——既有密集的社区网络,又有高效的交通干道。


坏了!R1的秘密被Deepmind发现了!「啊哈时刻」首次被披露,现已可量化!


上图清晰展示:基础模型(上排)的思维路径简单直线,而推理模型(下排)展现出复杂的环路结构和更广泛的探索范围


环形结构:解密"反悔"的智慧


当研究者们仔细分析推理图的环形结构时,发现了一个令人惊叹的规律:这些环路不是随机出现的,而是模型进行自我校验和错误修正的关键机制。每当模型在推理过程中检测到逻辑不一致或结果可疑时它就会激活这种"回溯机制",重新访问之前的关键节点


举个具体例子:假设模型在解一道几何题时,最初计算出三角形面积是25平方厘米。但在后续验证中,模型发现这个结果与题目给出的周长条件矛盾。此时,推理图就会出现环形结构——模型"反悔"回到之前的计算步骤,重新检查底边和高的数值,发现了计算错误,最终修正为正确答案20平方厘米。这种"我算错了,让我重新算一遍"的思维模式,正是环形结构在推理图中的生动体现。


这种量化"反悔"行为的能力,为我们理解和改进推理模型提供了前所未有的洞察。


环路越多,数学越强:规律背后的逻辑


更有趣的是,研究者们发现环路的数量和任务难度成正比。为了验证这一点,他们在三个不同难度的数学数据集上进行了测试:


  • GSM8K:小学到初中水平的数学应用题,比如"如果小明每天读3页书,一周能读完多少页?"


  • MATH500:高中到大学水平的数学竞赛题,涉及代数、几何、概率等多个领域


  • AIME 2024:美国数学邀请赛题目,这是给数学天才准备的超高难度挑战


结果显示:在简单的GSM8K数学题上,推理模型的环路检测率相对较低;但在更难的MATH500和AIME 2024上,环路出现得越来越频繁。这说明复杂推理确实需要更多的"反思"和"重新考虑",而不是一路直冲到底。


坏了!R1的秘密被Deepmind发现了!「啊哈时刻」首次被披露,现已可量化!


左图显示环路数量分布,右图展示图直径变化。推理模型在两个指标上都显著超越基础模型


模型越大,思路越宽:规模效应的新解释


随着模型参数从1.5B增加到32B,推理图的直径也在稳步增长。这意味着大模型不仅仅是记住了更多知识,更重要的是它们能够在更广阔的思考空间中游走。就像一个经验丰富的专家,能够从更多角度思考问题,找到那些不太明显但更有效的解决路径。


坏了!R1的秘密被Deepmind发现了!「啊哈时刻」首次被披露,现已可量化!


三张图清晰展示:模型越大,环路检测率、环路数量和图直径都在增长,与性能提升高度相关


小世界网络:效率与灵活性的完美平衡


什么是"小世界网络"。您可能听说过"六度分隔理论"——世界上任意两个人之间的关系链不会超过6个人。这就是小世界现象的经典例子:虽然每个人只认识有限的朋友(局部连接密集),但通过朋友的朋友,我们能很快接触到世界各地的任何人(全局连接高效)。


在AI的推理图中也出现了类似的神奇结构!推理模型表现出的小世界特征特别令人着迷:


  • 局部密集连接:相关的数学概念(比如加法、乘法、代数运算)在推理图中紧密聚集,形成"概念社区"


  • 全局高效跳转:即使是完全不同领域的概念,也能通过很少的推理步骤建立联系


这种结构让模型既能深入思考某个具体问题,又能灵活地进行跨领域的概念关联,实现了深度和广度的完美平衡。就像一个博学的教授,既精通自己的专业领域,又能快速在不同学科间建立有趣的联系。


坏了!R1的秘密被Deepmind发现了!「啊哈时刻」首次被披露,现已可量化!


左图展示聚类系数和路径长度分布,右图量化小世界指数。推理模型在小世界特征上明显胜出


训练数据的秘密:好数据造就好拓扑


研究者们还发现了一个重要规律:高质量的训练数据能够系统性地扩展推理图的直径。为了验证这一点,他们对比了两个版本的s1数据集:


  • s1数据集:这是斯坦福大学开发的一个专门用于提升推理能力的训练数据集,只有1000个样本,但每个样本都经过精心设计,包含复杂的多步推理过程


  • s1-v1.0:原始版本,在MATH500上能达到92.6%的准确率


  • s1-v1.1:改进版本,通过更精细的数据筛选和质量控制,在MATH500上达到94.4%的准确率,在AIME 2024上从50.0%提升到56.7%


关键发现是:不仅v1.1版本的准确率更高,它训练出来的模型推理图直径也明显更大!这给我们提供了一个全新的数据质量评估标准——不只看准确率,还要看能否培养出良好的拓扑结构。对于正在构建训练数据的人来说,这个发现可能会彻底改变数据筛选的策略。


坏了!R1的秘密被Deepmind发现了!「啊哈时刻」首次被披露,现已可量化!


对比两个版本的s1数据集:v1.1版本(高质量)在200步和400步训练后都产生了更大的推理图直径


工程实践:从理论到落地应用


这些发现对我们开发AI产品有什么实际意义呢?您可以考虑在模型评估时加入推理图分析,用环路数量和图直径作为推理能力的量化指标。在架构设计上,可以尝试显式地构建具有小世界特征的网络结构;在数据构建上,优先选择那些能产生丰富拓扑结构的高质量样本。


拓扑优化的系统级应用:拓扑思维不仅适用于单个模型内部的推理优化,还可以扩展到多智能体系统的全局提示优化中。我今年二月份就介绍过一篇同样来自Google DeepMind的论文,如果您对如何在系统层面应用拓扑优化感兴趣,可以看下这篇《DeepSeek更强了,Agent的Prompt优化该咋整?谷歌、剑桥的MASS:用更好的提示和拓扑优化Agent》,谷歌没有放出代码,但我复现了它。


拓扑学视角:重新定义智能的本质


这项研究最深刻的贡献在于,它提出了一个全新的智能理解框架——推理的拓扑本质。智能不再只是参数和算力的堆砌,而是在抽象概念空间中形成的特定拓扑结构。这种视角可能会启发下一代AI架构的设计,让我们从根本上重新思考什么是真正的机器智能。


文章来自于微信公众号“AI修猫Prompt”。


关键词: AI , 模型训练 , K-means , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0