ICLR 2026|隐式思考模型LRT:「隐式思维链」推理,更快更强!

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
ICLR 2026|隐式思考模型LRT:「隐式思维链」推理,更快更强!
9388点击    2026-04-13 09:35

近日,哈尔滨工业大学(深圳)联合深圳河套学院、Independent Researcher提出了隐式思考模型 LRT(Latent Reasoning Tuning),通过一个轻量级的推理网络,将大模型冗长的「思维链」压缩为紧凑的隐式向量表征,一次前向计算即可完成推理,无需逐 token 生成数千字的中间推理过程。


LRT 不仅实现了高效思考,还能作为一种全新的混合思考范式,在 Qwen3 系列模型上超越了其原生的非思考模式。


ICLR 2026|隐式思考模型LRT:「隐式思维链」推理,更快更强!


  • 论文地址: https://openreview.net/forum?id=CbK7lYbmv8
  • 代码开源: https://github.com/MobiusDai/LRT


出发点:大模型「自言自语」的推理过程真的全都有用吗?


以 OpenAI o1、DeepSeek-R1、Qwen QwQ 为代表的慢思考推理模型,通过生成详尽的逐步推理链来解决复杂问题,展现了强大的推理能力。然而,这些模型存在一个显著痛点 —— 过度思考(Overthinking):


  • 即使是简单的数学题,模型也可能生成数千个 token 的推理过程,其中包含大量回溯、自我验证和冗余步骤;
  • 推理轨迹的长度往往远超最终答案,导致推理延迟高、计算开销大,严重制约了实时应用。


Question:这些冗长的推理链真的全部必要吗?


关键发现:推理轨迹存在大量冗余


为了回答上述问题,团队设计了一组实验:在 DeepSeek-R1-Distill-Qwen-7B 模型上,将推理轨迹进行不同粒度的删减 —— 随机跳过一定比例的 token 或推理步骤,然后观察模型能否仅凭残缺的推理链给出正确答案。


ICLR 2026|隐式思考模型LRT:「隐式思维链」推理,更快更强!


核心洞察: 即使随机丢弃 50% 的推理轨迹,模型准确率仅下降约 2 个百分点。这可以得出两个结论:


  1. 当前的推理轨迹中存在大量冗余信息,远超正确推理所需的信息;
  2. 推理模型具有强大的信息过滤能力,即使面对残缺、高困惑度的推理链,依然能从中提取关键信息并总结得出正确答案。


这一发现直接启发了团队的核心思路:既然完整的逐步推理链并非必要,能否用一种更紧凑的隐式表征来替代它?


方法:隐式思考模型 LRT


基于上述洞察,团队提出了 Latent Reasoning Tuning(LRT) 框架。其核心思想可以概括为:用一个轻量级推理网络,将显式的推理链「编码」为固定长度的隐式向量,直接注入大模型即可生成最终答案。


技术架构


ICLR 2026|隐式思考模型LRT:「隐式思维链」推理,更快更强!


如上图所示,传统推理模型需要逐 token 自回归生成整条推理链(Decode → Decode → ... → Decode),而 LRT 的流程为:


ICLR 2026|隐式思考模型LRT:「隐式思维链」推理,更快更强!


模型的推理生成过程可分为两个阶段:


  • Prefill 阶段: 模型一次性处理输入提示 X 中的全部 token,初始化注意力状态(KV 缓存)。这一阶段是并行的,计算效率较高;
  • Decode 阶段: 模型逐 token 自回归地生成输出,每一步仅基于前序 token 与缓存状态进行推理。这一阶段是串行的,也是推理延迟的主要瓶颈。


在 Decode 阶段,思维链的生成过程可以形式化为:


ICLR 2026|隐式思考模型LRT:「隐式思维链」推理,更快更强!


ICLR 2026|隐式思考模型LRT:「隐式思维链」推理,更快更强!


ICLR 2026|隐式思考模型LRT:「隐式思维链」推理,更快更强!


实验结果


1. 高效思考 —— 在不同 Token Budget 下表现最优


ICLR 2026|隐式思考模型LRT:「隐式思维链」推理,更快更强!


在 DeepSeek-R1-Distill-Qwen-1.5B 上,与多种高效推理方法进行对比:


  • 在不同的 Token 预算下,LRT 在域内和域外任务上全面领先。在 512-Token 下,其平均准确率比 NoThinking 高 2.66%,比 RL 类方法 ShorterBetter、LC-R1 分别高 5.90% 和 4.74%。


2. 混合思考 —— 超越 Qwen3 原生混合思考模式


ICLR 2026|隐式思考模型LRT:「隐式思维链」推理,更快更强!


LRT 的模块化设计天然适合作为混合推理的新范式:面对简单问题使用隐式思考快速作答,面对困难问题切换回显式慢思考深入推理。在 Qwen3 系列模型上验证了这一能力:


  • 在 Qwen3-4B 上,LRT 的 pass@4 平均准确率达到 71.60%,比 Qwen3 原生非思考模式高出 5.82 个百分点!在 GSM8K 上提升近 7%,在 LSAT 上提升超过 14%。这表明隐式推理向量能有效引导模型产生更多样、更高质量的解题路径。


3. 推理效率对比


ICLR 2026|隐式思考模型LRT:「隐式思维链」推理,更快更强!


  • LRT 的推理延迟显著低于 Qwen3 的混合思考模式,甚至比非思考模式还快 —— 因为隐式推理向量引导模型生成更简洁的答案,减少了解码步数。


4. 消融实验分析


ICLR 2026|隐式思考模型LRT:「隐式思维链」推理,更快更强!


隐式推理 token 数量的影响: 随着隐式 token 数从 64 增加到 256,性能稳步提升(42.53% → 48.42%)。


ICLR 2026|隐式思考模型LRT:「隐式思维链」推理,更快更强!


两阶段训练: 加入 RL 阶段后,域内任务平均提升约 9%,域外任务平均提升约 4.3%,验证了强化学习对隐式推理优化的关键作用。


ICLR 2026|隐式思考模型LRT:「隐式思维链」推理,更快更强!


更大的基础模型(如 Qwen3-8B)则能充分利用更多的隐式 token(使用 512 个隐式 token 时结果仍能提高),说明隐式推理的「容量」与基础模型能力正相关。


总结


隐式思考模型 LRT 开辟了一条全新的高效推理路径:


  • 理论洞察: 系统性地揭示了推理轨迹的高度冗余性,证明完整的逐步推理链并非正确推理的前提;
  • 高效思考: 通过将显式推理链压缩为隐式向量表征,用单次前向计算替代数千步自回归解码,大幅降低推理成本;
  • 混合思考: 模块化的即插即用设计,无需修改大模型参数,可在隐式推理与显式推理之间无缝切换,为混合推理系统提供了更优的替代方案;
  • 效果优异: 在数学、逻辑、科学等多类基准上全面超越现有高效推理方法,并在 Qwen3 系列模型上超越其原生非思考模式。


作者信息


本文第一作者姜聪,哈尔滨工业大学(深圳)博士生,研究方向为高效思考与推理模型。通讯作者张正,哈尔滨工业大学(深圳)教授、博士生导师,教育部青年长江学者,主要从事高效能多模态人工智能的研究,近年专注于高效与可信多模态大模型。


主要完成单位为哈尔滨工业大学(深圳)& 深圳河套学院。


文章来自于"机器之心",作者 "机器之心"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI