ICML 2026 |让大模型边想边说:这篇文章把「何时开口」变成可学习策略

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
ICML 2026 |让大模型边想边说:这篇文章把「何时开口」变成可学习策略
9354点击    2026-05-18 15:27

导语:推理模型的「沉默税」该怎么解?


用过推理型大模型的人,大概率都熟悉这种体验:模型似乎在认真思考,但屏幕上长时间没有真正有用的内容;如果让它一开始就输出,又很容易出现仓促判断,后面的推理还要被早期错误牵着走。


这正是论文 When to Think, When to Speak: Learning Disclosure Policies for LLM Reasoning 试图解决的问题。作者把这种矛盾称为单流自回归接口下的 “silence tax”(沉默税):在传统单一可见流里,每个生成 token 既更新模型状态,又构成不可撤回的公开承诺。模型多想一会儿,用户就多等一会儿;模型早说一点,又可能过早承诺。


为此,来自纽约州立大学石溪分校、浙江大学、威廉玛丽学院、伊利诺伊大学香槟分校、英属哥伦比亚大学、香港中文大学、以及复旦大学的研究人员提出 Side-by-Side(SxS)Interleaved Reasoning(并列式交错推理),把 “何时披露内容” 变成一个可学习的决策。模型可以在同一个自回归上下文里交替执行两类动作:继续思考,或披露已经被当前推理支持的答案片段。这样一来,流式生成不再只是前端展示策略,而变成了模型自身学到的 “披露策略”。


ICML 2026 |让大模型边想边说:这篇文章把「何时开口」变成可学习策略


  • 论文标题:When to Think, When to Speak: Learning Disclosure Policies for LLM Reasoning
  • 论文地址:https://arxiv.org/pdf/2605.03314
  • 作者:Jiaqi Wei, Xuehang Guo, Pengfei Yu, Xiang Zhang, Wanli Ouyang, Siqi Sun, Qingyun Wang, Chenyu You
  • 机构:Stony Brook University、浙江大学、William & Mary、UIUC、UBC、香港中文大学、复旦大学
  • 会议:ICML 2026


一句话概括这篇论文


SxS Interleaved Reasoning 让大模型在推理过程中学会 “边想边说”:只有当答案片段已经被当前推理前缀支持时,才把它作为用户可见内容披露出来;其余推理继续保留在同一上下文中,帮助模型完成后续推理。


这不是简单地让模型更快输出第一个 token,也不是鼓励它用 “我正在思考” 之类的空话填充等待时间。论文关注的是内容延迟,也就是用户什么时候能看到真正和任务相关、且有依据的内容。


为什么 “快点输出” 不是答案


当前大模型的流式交互通常默认一个设计:模型生成什么,用户就立即看到什么。这种设计简单、稳定,也方便部署,但它把两个原本不同的问题绑在了一起。


  • 第一,生成 token 是模型状态更新的一部分,后续推理会基于已生成前缀继续展开。
  • 第二,生成 token 也是面向用户的公开承诺,一旦展示出来,就会限制后续回答不能随意推翻。


在简单问答里,这个耦合问题不明显;但在数学、科学问答、代码推理等任务里,模型往往需要较长的中间推理。若先完整思考再回答,用户会经历长时间沉默;若一开始就把中间想法或候选答案显示出来,错误前缀又可能造成 “过早承诺”。


论文的关键判断是:真正值得优化的不是 Time to First Token, TTFT(首 token 延迟)这种系统层面的指标,而是 “第一个有用内容何时出现,以及两次有用更新之间间隔多久”。这也是 SxS 后续评测里使用 ARI、ABO、AIRW 等内容延迟指标的原因。


ICML 2026 |让大模型边想边说:这篇文章把「何时开口」变成可学习策略


核心方法:把输出分成

 “思考” 和 “披露” 两种动作


SxS 的设计很直接:模型仍然是标准自回归生成,不需要第二个模型、第二套隐藏状态或专门的推理架构;不同之处在于,它在生成流里通过轻量标签区分两类 token。


  • think(思考动作):用于继续内部推理,不直接作为用户可见答案披露。
  • speak(披露动作):用于披露用户可见内容,这些内容必须被当前推理前缀支持。


可以把它理解成一种 “可控可见性” 的单流生成。所有内容仍在同一上下文里,因此模型不会丢失前面推理;但用户看到的,只是模型选择披露的答案流。


这带来的变化很重要:模型不必在 “沉默到最后” 和 “马上冒险回答” 之间二选一。它可以先披露一个已经被当前推理支持的答案前缀或部分答案,再继续推理剩余部分,随后逐步补全最终回答。


训练流程:先学会格式,

再用 RL 找回推理能力


论文的训练分成两个阶段,核心目标是避免一个常见副作用:如果只奖励早输出,模型可能学会说废话;如果只学交错格式,模型准确率又可能下滑。


  • 第一步,构造蕴含对齐的交错轨迹 (entailment-aligned interleaved trajectories)作者从标准的 prompt、reasoning、response 三元组出发,把推理和答案都切分成片段,再判断某个答案前缀是否已经被当前推理前缀支持。只有被支持的答案片段才会被放进 speak。
  • 第二步,用 SFT 学会双动作语义。SFT 让模型先掌握 think /speak 的基本格式,知道什么时候继续推理,什么时候披露内容。
  • 第三步,用 GRPO 做 RL 恢复推理性能。因为交错格式会改变生成分布,SFT 后准确率可能下降;RL 阶段用结果正确性信号把模型拉回高质量推理,同时保留披露节奏。


这套流程的一个实用点是:它没有把 “早输出” 写成硬规则,而是把 “有依据地早披露” 作为监督和优化目标。换句话说,早不是目的,早且可支持才是目的。


ICML 2026 |让大模型边想边说:这篇文章把「何时开口」变成可学习策略


实验结果:更短的可见等待,

更好的准确率 — 延迟权衡


论文在两类 Qwen3 模型上验证方法:MoE 架构 Qwen3-30B-A3B,以及 dense 架构 Qwen3-4B。主实验覆盖数学推理 AIME25 和跨域科学问答 GPQA-Diamond。除最终准确率外,作者还报告了 Average Inter-Response Wait, AIRW(平均响应间等待),即两次 speak(披露) 更新之间平均隔了多少 think(思考) token。


ICML 2026 |让大模型边想边说:这篇文章把「何时开口」变成可学习策略

注:表中 AIRW 为 token-level 内容延迟代理指标,越低表示两次用户可见更新之间的平均间隔越短。


ICML 2026 |让大模型边想边说:这篇文章把「何时开口」变成可学习策略


最值得注意的是 Qwen3-4B:在 AIME25 上,Qwen3-4B 的 SxS RL Final 达到 80.0%,高于 Standard CoT RL Final 的 73.8%;AIRW 也从 21,316 降到 8,519。在 GPQA-Diamond 上,SxS RL Final 达到 49.3%,高于 Standard CoT RL Final 的 19.0%;AIRW 从 16,338 降到 7,738。


这说明 SxS 的收益不是单纯 “把答案提前挪到前面”,而是改变了推理过程中的披露节奏:用户能更早、更频繁地看到有任务意义的内容,同时最终答案质量并没有被牺牲。


代码与规则知识推理也有类似趋势


论文还在 LiveCodeBench 和 KOR-Bench 上做了额外分析。总体趋势和主实验一致:SxS 不一定在所有设置里追求最高原始准确率,但通常能给出更好的后训练行为,尤其是在小模型上。


ICML 2026 |让大模型边想边说:这篇文章把「何时开口」变成可学习策略


这篇论文的真正价值


这篇工作的有趣之处,不只是提出了一个新格式,而是把 “流式回答” 从工程显示问题推进到了模型学习问题。过去我们通常把交互体验交给前端、系统吞吐或固定模板;SxS 则指出,模型本身可以学习何时披露,且披露必须受到当前推理的支持。


  • 对产品体验来,它提供了一种比 “首 token 更快” 更贴近用户感知的优化方向:让第一个有用内容更早出现,并减少有效更新之间的长空窗。
  • 推理训练来说,它提供了一个新的训练对象:不仅训练模型想得对,也训练模型在合适时机说得对。
  • 对模型部署来说,它的吸引力在于不用改架构,主要依赖数据构造、SFT 和 RL,就可以在标准自回归模型里学习披露策略。


需要注意的边界


这项工作也不是在声称解决了所有流式推理问题。首先,论文里的延迟指标是 token-level proxy(token 级代理指标),并不等同于真实系统的 wall-clock latency(真实时钟延迟);真实产品还会受到推理框架、批处理、网络、前端刷新等因素影响。


其次,SFT-only 的交错模型会出现明显准确率下降,说明 “学会交错格式” 不等于 “保持强推理”。论文用 RL Recovery / RL Final 修复这一点,也意味着这个方法的关键成本在后续强化学习阶段。


最后,SxS 的披露粒度虽然可以通过奖励塑形进一步控制,但更高粒度会带来训练效率成本。也就是说,披露越频繁不一定越好,真正目标仍然是准确率和内容延迟之间的 Pareto trade-off(帕累托权衡)。


结语:让模型学会 “负责地开口”


随着推理型大模型越来越多进入真实交互场景,用户关心的不只是最终答案对不对,还包括等待过程中能不能看到可靠进展。SxS Interleaved Reasoning 给出的答案是:不要简单地让模型更早吐字,而是让模型学习 “何时可以披露已经被支持的内容”。


从这个角度看,这篇论文把大模型推理交互中的一个常见体验问题,转化成了可监督、可强化学习优化的披露策略问题。它让 “边想边说” 不再只是产品话术,而成为可以训练、可以评测、可以和准确率一起优化的模型行为。


文章来自于"机器之心",作者 "机器之心"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0