Scaling Law的焦虑差距可以由「交互深度」解决,MiroMind用Qwen3-72B在GAIA中超越GPT5

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Scaling Law的焦虑差距可以由「交互深度」解决,MiroMind用Qwen3-72B在GAIA中超越GPT5
5105点击    2025-11-24 10:19

在过去五年,AI领域一直被一条“铁律”所支配,Scaling Law(扩展定律)。它如同计算领域的摩尔定律一般,简单、粗暴、却魔力无穷:投入更多的数据、更多的参数、更多的算力,模型的性能就会线性且可预测地增长。无数的团队,无论是开源巨头还是商业实验室,都将希望孤注一掷地押在了这条唯一的救命稻草上。


Scaling Law的焦虑差距可以由「交互深度」解决,MiroMind用Qwen3-72B在GAIA中超越GPT5


今天的开发者和研究者们普遍感到一种深刻的焦虑:Scaling Law是否已接近其经济与物理的尽头? 我们正面临计算资源的瓶颈,以及越来越微弱的边际效益。如果我们只期待这条定律能带领我们抵达AGI的彼岸,那么我们可能正在走向一个昂贵且平庸的死胡同。


突破这一魔咒,成为了通往下一代通用智能的关键命题。


MiroMind团队的重磅论文 MiroThinker v1.0,正是对这一命题的一次大胆且成功的回答。它并未选择在参数或上下文的军备竞赛中继续内卷,而是另辟蹊径,提出了一个被长期忽视的、决定智能上限的 “第三维度”交互深度(Interaction Depth)


Scaling Law的焦虑差距可以由「交互深度」解决,MiroMind用Qwen3-72B在GAIA中超越GPT5


Scaling Law的焦虑差距可以由「交互深度」解决,MiroMind用Qwen3-72B在GAIA中超越GPT5


MiroThinker证明:智能的进化,需要的不再是更巨大的静态脑容量,而是更高效、更深层的“动觉”和“行动力”。在衡量通用AI助手的黄金标准GAIA基准测试中,MiroThinker的72B版本取得了81.9% 的得分,超越了此前的开源霸主,甚至逼近并略高于顶尖商业模型的对标成绩(例如GPT-5-high约76.4%)。


交互式扩展:从“静默思考”到“行动主义”


为了理解MiroThinker的核心突破,我们需要先回顾一下当前LLM的局限性。


传统的大模型测试(Test-time Scaling)往往是在真空中进行的。模型接收一个问题,然后在内部进行推理(CoT),最后输出答案。这就像一个被关在密室里的学生,只能靠死记硬背的知识来答题。一旦遇到知识盲区,或者推理链条中途断裂,它就无计可施,只能开始“胡编乱造”。


MiroThinker引入了 “交互式扩展”(Interactive Scaling) 的概念。


Scaling Law的焦虑差距可以由「交互深度」解决,MiroMind用Qwen3-72B在GAIA中超越GPT5


想象一下,如果允许那个密室里的学生上网查资料、运行代码验证自己的猜想、甚至在发现思路错误时推倒重来,他的解题能力会发生什么变化?


研究团队通过强化学习,让MiroThinker-v1.0能够在在一个任务中执行高达600次的工具调用,这种极长的推理轨迹,允许模型:


  • 自我纠错(Self-Correction):在工具返回的错误信息(例如代码报错或搜索结果冲突)的情况下,模型能够主动修正其思维链(Thought)。
  • 多路径探索(Multi-path Exploration):当一条搜索路径陷入僵局时,模型会果断放弃并探索新的、完全不同的解决路径。
  • 证据验证(Evidence Verification):在得出最终结论前,它会多次使用工具对关键事实进行交叉验证。


通过实验数据证实,交互深度和频率的增加,与智能体性能的提升之间存在清晰的、可预测的关联,这被称之为“交互式扩展律”。这不仅是一个工程实现,更是一种新的理论发现,它为突破参数规模的限制带来了一种新的可能。


如何在256K窗口里装下“整个世界”?


看到这里,资深的AI工程师可能会提出一个尖锐的问题:上下文窗口(Context Window)怎么办?


一个600轮的复杂交互,伴随着网页抓取的长文本、Python代码的报错信息、海量的搜索结果,会瞬间撑爆任何现有的上下文窗口(即使是256K也不够用)。如果简单的截断历史,模型就会“失忆”;如果保留全部,成本和显存都无法承受。


MiroThinker给出了一个极其优雅的工程解法:基于新近度的上下文保留(Recency-Based Context Retention)


研究团队发现了一个有趣的认知规律:决策依赖于逻辑流,而非陈旧的观察结果。


当人类在解决问题时,我们能清晰地记得“我五分钟前尝试过这个方法,但是失败了”(这是ThoughtAction),但我们通常记不清“那个失败的方法具体报错的几百行日志是什么”(这是Observation)。我们只需要知道它失败了,以及它为什么失败。


Scaling Law的焦虑差距可以由「交互深度」解决,MiroMind用Qwen3-72B在GAIA中超越GPT5


MiroThinker模仿了这种人类的记忆机制:


Scaling Law的焦虑差距可以由「交互深度」解决,MiroMind用Qwen3-72B在GAIA中超越GPT5


MiroVerse:用“混淆”逼出真正的智能


如果说架构是骨架,那么数据就是灵魂。MiroThinker之所以能超越同类,很大程度上归功于其构建的庞大合成数据集MiroVerse


Scaling Law的焦虑差距可以由「交互深度」解决,MiroMind用Qwen3-72B在GAIA中超越GPT5


在构建训练数据时,团队面临一个经典难题:如何防止模型“作弊”?


在传统的QA数据集中,答案往往直接包含在文档中。模型只需要学会“关键词匹配”就能得分,这训练的是检索能力,而非推理能力。为了逼出模型的“深度思考”,MiroMind团队设计了一套名为 “约束混淆”(Constraint Obfuscation) 的绝妙机制。


让我们看一个例子:


  • 原始事实:“埃隆·马斯克在2002年成立了SpaceX。”
  • 混淆后约束:“这家航天公司由一位PayPal前高管在21世纪初成立。”


在训练数据中,具体的时间(2002年)、地点(加州)、实体名称(马斯克)被系统性地替换成了间接的、需要推理的描述(temporal/spatial generalizations, referential indirection)。


这意味着,模型无法通过搜索“SpaceX成立时间”直接得到答案。它必须:


  1. 搜索PayPal前高管名单。
  2. 筛选出谁涉足了航天领域。
  3. 确认成立时间是否在21世纪初。
  4. 综合多方信息得出结论。


这种MultiDocQA Synthesis(多文档问答合成) 流程,强迫模型走出舒适区,通过跨文档的多跳推理(Multi-hop Reasoning) 来寻找答案。这就像是把模型送进了一个充满了谜题的迷宫,只有学会真正的逻辑推理,才能找到出口。


强化学习的魔法:GRPO与“偏执”的求证者


拥有了架构和数据,MiroThinker的最后一块拼图是训练方法。这也是它能实现“交互式扩展”的动力源泉。


MiroThinker的训练分为三个阶段:SFT(监督微调)、DPO(偏好优化)和RL(强化学习)。其中,Agentic Reinforcement Learning(智能体强化学习) 是最关键的一步。


在SFT阶段,模型只是在“模仿”人类专家的操作。但在RL阶段,团队使用了 GRPO(Group Relative Policy Optimization) 算法,让模型在沙箱环境中自由探索。


这里的核心在于奖励函数的设计(Reward Design)


Scaling Law的焦虑差距可以由「交互深度」解决,MiroMind用Qwen3-72B在GAIA中超越GPT5


这个公式看似简单,却蕴含深意。


Scaling Law的焦虑差距可以由「交互深度」解决,MiroMind用Qwen3-72B在GAIA中超越GPT5


这种自由度带来了惊人的行为涌现。 实验数据显示,经过RL训练后的模型(30B版本),其交互轨迹发生了质变。


Scaling Law的焦虑差距可以由「交互深度」解决,MiroMind用Qwen3-72B在GAIA中超越GPT5


SFT模型往往倾向于尽早回答问题(这也是大模型的通病,急于求成)。而RL模型则表现得像一个“偏执”的科学家:它会花费大量的步骤去自我验证(Self-Verification),在得出结论前反复检查证据,甚至在发现搜索结果不理想时主动调整关键词重试。


正是这种通过RL涌现出来的“多想一步、多查一次”的特质,构成了交互式扩展的本质。


实验结果:开源模型的逆袭


那么,这一套复杂的组合拳(交互扩展 + 新近度记忆 + 混淆数据 + GRPO),最终效果如何?


在多个权威基准测试中,MiroThinker交出了一份完美的成绩单:


Scaling Law的焦虑差距可以由「交互深度」解决,MiroMind用Qwen3-72B在GAIA中超越GPT5


  1. GAIA (Text-Only):这是衡量通用AI助手能力的金标准。MiroThinker-72B拿下了 81.9% 的高分,不仅碾压了之前的开源霸主MiniMax-M2 (75.7%),甚至超过了 GPT-5-high (76.4%)。
  2. Humanity's Last Exam (HLE):这是一个旨在测试AI极限的超高难度题库。MiroThinker取得了 37.7% 的成绩,比Tongyi-DeepResearch高出4.8个百分点。
  3. 多语言能力:在BrowseComp-ZH(中文浏览基准)上,它达到了 55.6%,大幅领先GLM-4.6。


这些数据证明通过精细设计的交互机制和训练策略,72B参数的模型完全可以由“巧”取胜,在实际任务中通过深度推理弥补参数量的差距。


局限性与真实的反思


1. 工具使用的低效性 研究者坦诚地指出,RL虽然提升了效果,但也导致模型变得“啰嗦”,有时会为了交互而交互。如何在提升交互深度的同时保持工具调用的效率(Efficiency),将是下一个优化热点。


2. 语言混合问题 (Language Mixing) 在处理中文问题时,模型的内部推理(Thought)有时会夹杂英文,导致最终输出的中文质量受到影响(Chinglish 现象)。


3. 沙箱操作笨拙 模型虽然能写代码,但有时会忘记初始化沙箱,或者试图用Python代码去硬读取网页,而不是调用更高效的专用爬虫工具。


写在最后


如果我们把AI的发展比作攀登珠峰,那么“模型规模”是北坡,“上下文长度”是南坡。这两条路虽然宽阔,但越往上走,空气越稀薄,边际效益越低。


MiroThinker向我们展示了第三条路,交互(Interaction)。通过RL鼓励模型“多交互、多验证”,可以在不增加模型参数的情况下显著提升复杂任务的推理能力。欢迎你来群里一起聊。


文章来自于“AI修猫Prompt”,作者 “AI修猫Prompt”。

关键词: AI , 模型训练 , MiroMind , Qwen3-72B
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
AI爬虫

【开源免费】ScrapeGraphAI是一个爬虫Python库,它利用大型语言模型和直接图逻辑来增强爬虫能力,让原来复杂繁琐的规则定义被AI取代,让爬虫可以更智能地理解和解析网页内容,减少了对复杂规则的依赖。

项目地址:https://github.com/ScrapeGraphAI/Scrapegraph-ai

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0