随着大语言模型逐步从「单轮问答」走向「真实环境中的持续交互」,LLM agents 正在被用于越来越复杂的 agentic applications:deep research、coding、computer use、customer service、medical inquiry、troubleshooting 等等。这些任务和传统问答最大的不同在于:任务所需的信息往往不是一开始就完整给出的。Agent 必须在不确定状态下主动采取行动,例如提问、搜索、调用工具、检查反馈,并在多轮交互中不断更新自己对任务状态的理解。
这类能力可以概括为 active reasoning:在信息不完备的环境中,agent 不只是 “回答问题”,而是需要主动获取新信息,并把新信息真正整合进后续决策和推理中。
根据过往在许多推理任务上的成功,强化学习似乎应该很适合训练这类能力。只要最后任务成功就给正奖励,失败就不给奖励,模型不就应该慢慢学会更好的交互策略吗?
但事情并没有这么简单。与此前 T3 (Reducing Belief Deviation in Reinforcement Learning for Active Reasoning of LLM agents | ICLR-2026 Oral)对多轮推理中 belief deviation 和 belief-trapped trajectory 的分析相呼应,香港中文大学、加州大学圣地亚哥分校、佐治亚理工学院、字节跳动的研究者进一步发现发现,在 active reasoning 场景中,outcome-based RL 并不一定会自然训练出更善于交互的 agent。相反,模型可能进入一种低信息量的训练模式:它反复执行无效操作,过早依赖初始判断,忽略用户或环境返回的新证据;甚至在最终 reward 有所提升时,背后的行为也未必真正变得更会主动获取和使用信息。
如果说 T3 更关注 agent 在多轮交互中如何逐步偏离正确 belief,那么这篇论文《On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM Agents》系统分析了这一现象背后的原因:在 active reasoning 中,agent 的表现同时依赖于两个相互耦合的能力:一方面是选择什么动作来获取信息,另一方面是如何把获取到的信息整合进后续判断。outcome reward 很难自动为这两个相互依赖的环节提供清晰 credit:当前者无法带来有效反馈,后者就缺少可学习的证据;而当后者无法正确吸收反馈时,前者的价值又很难通过最终 reward 得到正确 credit。
研究者将这种训练失败机制称为:
Information Self-Locking,信息自锁。
基于这一观察,作者进一步提出了一个简单而有效的方法:AREW(Action-Selection & Belief-Tracking Advantage Reweighting),通过轻量的方向性反馈重新分配 trajectory 内部的 credit,从而缓解 information self-locking。
论文已被 ICML 2026 接收。

在很多 LLM agent 任务中,模型并不能一开始就看到完整答案。它必须通过多轮交互逐步逼近真实任务状态。
比如:
这些任务有一个共同结构:agent 的表现同时取决于两件事。
第一,它要知道下一步该问什么、查什么、调用什么工具。作者称为 Action Selection(AS)。
第二,它要能把得到的新反馈吸收进自己的内部理解,真正更新对任务状态的判断。作者称为 Belief Tracking(BT)。

如果 AS 很弱,agent 就拿不到有用信息;如果 BT 很弱,即使拿到了有用信息,模型也不会用。
更关键的是,这两者不是独立的,而是强耦合的:
好的行动只有在反馈被正确使用时,才会在最终 reward 中体现价值;好的 belief update 又依赖于前面行动带来了足够有信息量的反馈。
这就带来了 active reasoning 中一个非常隐蔽的 credit assignment 问题:outcome reward 只在最后出现,它很难判断到底是 “问得不好”,还是 “问到了但没吸收好”。
论文第一页的图给出了这一机制的整体直觉。

图:原文 Figure 1。Vanilla outcome RL 下,agent 可能进入 self-locking:informative action 的价值被 weak BT 掩盖,导致 credit assignment 错位;AREW 通过 directional critiques 重新分配 trajectory 内部 credit,使 AS 和 BT 重新对齐。
作者首先发现了一个反直觉现象。
在 outcome-based RL 中,reward 可能确实上升了,但这并不意味着模型真正学会了主动获取信息。为了解耦观察这一点,论文先在两个可控的 active reasoning 任务中做分析:Preference Estimation 要求 agent 通过比较问题逐步估计用户隐藏偏好,MediQ 则要求 agent 通过问诊病人问题逐步识别正确诊断。二者都需要 agent 一边主动获取证据,一边更新对隐藏任务状态的判断,因此很适合用来观察 AS 和 BT 的训练动态。
论文在这两类任务中跟踪了三个量:
结果显示,reward 可以做有限的上升,但 AS 和 BT 并没有同步提升。也就是说,模型表面上变强了,但它并没有真正更会 “获取信息” 和 “使用信息”。

图:原文 Figure 2。左半部分展示训练过程中 reward、AS、BT 的变化:蓝线表示 agent 做出有信息量行动的比例,橙线表示 agent 是否有效吸收反馈并更新 belief,绿线表示最终任务成功率。可以看到,即使成功率随训练有一些有限的上升,AS 和 BT 也可能停滞甚至退化。右半部分进一步固定相同的 action-selection 序列:横轴表示一条轨迹中有多少次有信息量的行动,浅蓝色柱子表示这类轨迹出现的频率;蓝线表示由 agent 自身 BT 处理这些反馈时的成功率,橙线表示由 stronger BT 处理相同反馈时的成功率。结果显示,只有当 BT 足够强时,informative AS 才会和最终 reward 形成更强正相关。
这张图的右半部分揭示了 AREW 的核心 insight:
Weak BT 会遮盖 informative AS 的贡献。
假设 agent 提出了一个很有价值的问题,环境也返回了关键证据。但如果模型没有把这条证据吸收进后续推理,最终答案仍然错了。此时,outcome reward 会告诉 RL:“这条 trajectory 失败了。”
问题在于,RL 并不知道失败的原因是 belief update 做得差,而不是 action selection 做得差。于是,那个本来很有价值的问题也可能得不到正向 credit。
反过来也是一样。
如果 AS 变得保守,模型总是问一些低信息量的问题,BT 就拿不到有价值的反馈。没有足够信息流,belief tracking 也很难学好。久而久之,RL 可能反而鼓励模型依赖初始判断或非交互式 shortcut,而不是认真利用交互反馈(详见原文 Section 2.3 observation 3 | Fig. 6a)。
这就是 information self-locking:
AS 弱导致 BT 没证据可学;BT 弱导致 AS 的价值无法被 reward 识别。二者互相限制,使模型卡在低信息量训练区域。
前面提到,论文将 active reasoning 中的 agent 行为分解为两个相互交替的过程:
这个分解指出 active reasoning 的难点不只是 sparse reward,而是 sparse outcome reward 下两个能力的耦合学习失败。
普通 outcome RL 只看到最终成败,很难把 reward 正确分配给 trajectory 中不同的 AS 和 BT 决策。结果是:
论文在理论部分把这个区域形式化为 self-locking regime:AS informativeness 低,同时 BT capability 也低。在这个区域中,outcome-gradient 对 AS 和 BT 的提升信号都会被当前能力水平限制,因此训练动态很难自然逃出。
为了更直观地解释这一点,论文 appendix 给出了一个二维相图:横轴表示 AS informativeness,纵轴表示 BT capability。

图:原文 Figure 8。AS-BT phase space 中的 learning dynamics。左图表示 outcome-only RL:在低 AS、低 BT 的 locking regime 内,更新方向很弱,agent 难以逃离;右图表示 AREW:directional critiques 在 locking regime 内引入额外更新方向,为模型创造逃离低信息量区域的路径。这张图概括了 AREW 的理论直觉:作者不需要完全重写 RL,也不需要精确 dense reward;只需要在 AS/BT 的关键局部决策上提供一些方向性信号,就可以改变低信息量区域内的 effective update field。
既然 SeL 的核心问题在于 outcome reward 难以在 AS 和 BT 之间提供清晰的学习信号,一个直接的方案,是为每个中间决策都设计精确的 dense supervision:例如准确判断某个问题到底贡献了多少信息,或者某次 belief update 到底应当获得多少中间奖励。但是,在长程 agentic tasks 中,这类 calibrated intermediate reward 往往不能轻易获得。
幸运的是,agentic active reasoning 场景通常会自然暴露一些更粗粒度、但更容易获取的方向性诊断信号:例如,一个 action 是否让环境或用户返回了新的有用证据;一次 belief update 是否把新观察朝着更接近真实任务状态的方向吸收进去。
AREW 的出发点正是利用这些 uncalibrated directional signals。它并不试图为每一步构造精确的中间奖励,也不需要训练额外的 dense reward model,而是把这些方向性信号作为 weak directional critiques,注入到 policy-gradient 更新中,对 trajectory 内部的 stepwise advantage 进行重新分配。
换句话说,AREW 保留原本的 outcome reward,只是在 actor update 时把更多 credit 分配给被正向 critique 的 AS/BT 决策,并削弱被负向 critique 的决策。通过这种 reward-preserving 的 credit reallocation,AREW 在 SeL regime 中重新提供非退化的局部学习信号,使 AS 和 BT 有机会共同改善并逃离低信息量训练区域。
在实现上,AREW 将一条 trajectory 中被正向 critique 的步骤集合记为 positive steps,被负向 critique 的步骤集合记为 negative steps。然后构造一个 intra-trajectory likelihood margin:增加 positive steps 的 log-probability,相对降低 negative steps 的 log-probability。
经过推导(详见原文 Section 4.2),最终落实到 policy gradient 上,就是一个非常轻量的 advantage reweighting:
对原本每一步的 advantage 加上一个由 critique 决定的局部修正项。
直观来说,AREW 做的是:
这使得 AREW 具有很强的可集成性:它可以作为一个上层 credit assignment 修正机制,插入现有 outcome-based RL pipeline。
更重要的是,AREW 不要求 critique 完美。理论分析(原文 proposition 4.1)表明,只要 directional critiques 的 weighted accuracy 好于随机,就可以提供有用的一阶改进信号。后面的实验也验证了这一点:即使 critique 有噪声,AREW 仍然通常优于 vanilla RL。
论文在多个 agentic active reasoning 场景中系统评估 AREW。
整体包括 4 个交互领域:
1. Preference Estimation
Agent 需要通过多轮 pairwise comparison 逐步估计用户隐藏偏好向量。该领域包含 PE-G 和 PE-F 不同设置。AREW 在这里采用的 AS 信号非常直观:如果两部被比较的 item 在不同属性维度上存在 trade-off,而不是一方在所有维度上都明显占优,那么这个 comparison 更可能带来有信息量的偏好反馈;BT 信号则看 agent 更新后的偏好估计是否比上一轮更接近真实偏好向量。
2. Medical Diagnosis
在 MediQ 中,agent 需要基于 clinical vignette 和候选假设,主动询问病人诊断相关问题,并逐步提高正确诊断 的 belief。AREW 的 AS 信号来自 patient feedback 是否真的提供了新的诊断信息;BT 信号则检查模型是否根据有效反馈合理更新了不同诊断假设的置信度,例如是否让正确假设相对其他候选更占优,或者在无信息反馈下保持 belief 不被错误扰动。
3. Troubleshooting
在 FloDial 中,agent 需要通过 yes/no diagnostic questions 排查用户问题,并从候选解释或解决方案中识别正确项。AREW 在这里把用户反馈作为轻量方向性信号:如果问题命中了可诊断信息并得到有效 Yes/No 反馈,就说明该 action 更有价值;如果只得到 Unknown,则说明该问题没有匹配到有效诊断线索。BT 侧则进一步检查 agent 是否在获得有效反馈后提高了正确故障候选的置信度;如果反馈是 Unknown,则更希望 belief 保持稳定,而不是凭空漂移。
4. Customer Service / Tool Use
在 tau2-bench-Telecom 中,agent 需要通过多轮对话和工具调用完成真实感更强的 telecom customer-service 任务。AREW 的设置在本文后面会被单独提到。
在前三个领域中,论文评估了 7 个 active reasoning tasks;在 tau2-bench 上进一步评估 solo setting 和 standard dual-control setting,总共形成 9 个任务 / 设置。所有任务都只提供终局监督。
主要模型包括 Qwen2.5-7B-Instruct 和 LLaMA-3.1-8B-Instruct。RL 算法包括 PPO,并进一步扩展到 GRPO 和 GSPO。
论文首先在前三个领域的 7 个任务上报告最终平均 outcome reward。

表:原文 Table 1。AREW 在 Preference Estimation、Medical Diagnosis、Troubleshooting 三个领域的 7 个 agentic active reasoning tasks 上,与 direct inference 和 vanilla PPO 进行比较。
这里,AREW-AS only 表示仅使用 action-selection 侧的 directional critiques 来重加权动作决策的 advantage,而 AREW-AS+BT 则同时使用 action-selection 和 belief-tracking 两侧的 critiques,对 “获取信息” 和 “吸收信息” 两个环节的 credit 进行联合修正。
主结果非常清晰:
在 28 个 PPO 评估设置中,AREW 在 27 个设置中显著优于 vanilla PPO。
这些结果说明,AREW 的收益并不是某个模型或某个数据集上的偶然现象,而是在不同模型族和不同 active reasoning 任务中都能稳定发挥作用。
除了最终结果,论文还展示了训练过程中的 reward dynamics。

图:原文 Figure 3。Qwen2.5-7B-Instruct 上,vanilla PPO、AREW-AS only、AREW-AS+BT 在 PE、MediQ、FloDial-Hard 上的 reward training dynamics。
这张图可以看到三类典型现象。
为了验证 AREW 的改进是否来自 active reasoning 能力本身,论文进一步分析了 AS 和 BT proxy。

图:原文 Figure 4。AREW 对 AS 和 BT capability proxies 的影响。
这张图最值得注意的地方,不只是 AREW-AS+BT 效果最好,还有:AREW-AS only 已经可以同时改善 AS 和 BT。
表面上看,AS-only 只对 action-selection 侧进行 advantage reweighting,也就是只鼓励模型选择更有信息量的动作,并没有直接给 belief-tracking 决策额外加 credit。但实验结果显示,仅仅改善信息获取,BT 也会随之变好。
这正好说明 AS 和 BT 并不是两个互相独立的能力。更好的 AS 会改变 agent 后续看到的 observation stream:当环境或用户返回的反馈更有信息量,belief tracking 就更容易从这些反馈中学习和更新。换句话说,即使没有直接优化 BT,只要 AS 提供了更高质量的信息流,BT 的学习条件也会被改善。
当然,AS-only 并不能完全替代 BT-side correction。Figure 4 中,AREW-AS+BT 在多数情况下会进一步提升 BT proxy,说明当模型不仅被鼓励 “获取更有用的信息”,也被鼓励 “把这些信息正确吸收进 belief” 时,AS 和 BT 更容易形成正向循环。
因此,AREW 的收益不是简单来自某个单点模块的增强,而是来自对 AS-BT coupling 的干预。只修正 AS 已经能够带动 BT,而同时修正 AS 和 BT 则可以更充分地打破 information self-locking。
一个自然问题是:AREW 是否只是对 PPO 有用?
论文进一步在 GRPO 和 GSPO 上做了实验。结果显示,即使使用 group-based RL variants,self-locking 仍然可能存在;仅仅增加 rollout 采样 并不能从根本上解决 AS/BT 的耦合 credit assignment 问题。而 AREW 在 GRPO 和 GSPO 下也能提升 final performance、AS 和 BT proxies。

图:原文 Figure 6 (b) (c)。
除了 controlled domains,论文还在更复杂的 tau2-bench-Telecom 上评估 AREW。
tau2-bench 的挑战在于,agent 不只是问答,还需要在多轮 customer-service 场景中进行工具调用、与用户协作,并完成真实感更强的服务任务。
论文首先考虑 no-user solo setting。在这个 setting 中,Qwen2.5-7B agent 直接控制任务解决过程。AREW 使用 benchmark 自带的信号构造 critiques:

图:原文 Figure 5。Tau2Bench-Telecom solo setting 中,AREW 提升 reward,同时显著减少 tool execution errors;并且这种提升不是靠更长回复或更多交互轮数换来的。
Figure 5 展示了一个实用结果:AREW 不只是提高 reward,还显著减少 tool execution errors,同时 response tokens 更少,interaction turns 基本可比。这说明 AREW 的收益不是简单来自 “说更多” 或 “多试几轮”,而是来自更有效的 credit assignment。
论文进一步考虑 standard dual-control setting。在这个 setting 中,Qwen2.5-14B agent 需要和 GPT-4o-simulated user 协作。这里存在一个更复杂的 credit assignment 问题:任务进展可能来自 agent 自己正确使用工具,也可能来自 agent 引导用户完成 user-side repair actions。

图:原文 Figure 7。Tau2Bench-Telecom standard dual-control setting 中,AREW 相比 vanilla PPO 将 reward 从约 0.20 提升到约 0.50,同时减少对 user-side operation shortcut 的依赖,并保持更多 assistant-side tool-use 行为。
在 vanilla PPO 中,模型容易走向一种 shortcut:更多依赖用户侧操作来完成部分任务,而 assistant 自己的 tool-use 行为反而下降。这虽然能解决一部分样本,但会使训练偏向最容易获得 reward 的 progress channel,而不是 benchmark 真正希望评估的 assistant-side tool-use 能力。
AREW 则通过 directional critiques 给有用的 assistant-side tool decisions 更多 credit,从而减少对 user-side repair 的过度依赖,把优化压力合理分配到 agent 自己的有效工具使用行为上。
这个结果说明,AREW 也可以用于更接近真实 agentic application 的长程工具使用环境。
AREW 使用的是 weak directional critiques,一个重要问题是:如果 critique 有噪声怎么办?
论文通过随机翻转 stepwise critiques 来评估鲁棒性。

表:原文 Table 2。不同 critique perturbation ratio 下,AREW 的最终表现。即使 critique 被较强扰动,AREW 通常仍然保持与 vanilla baseline 竞争甚至更好的表现。
结果显示,随着扰动比例增加,AREW 的性能会逐渐下降,这是合理的。但在较大范围内,AREW 仍然优于或接近 vanilla baseline,并没有因为 critique 不完美而崩溃。
论文 appendix 还进一步分析了更结构化的 critique destruction,例如只保留 AS 或 BT critique、只保留前 40% 或后 40% 的 critique、用常数 label 填补缺失 critique 等。整体结论一致:AREW 对多种 critique 噪声和破坏方式都具有一定鲁棒性。
这也回应了一个实际部署中的关键担忧:在复杂 agentic tasks 中,我们很难得到精确的 dense supervision,但相对容易获得一些局部方向性信号。AREW 正是为这种 supervision regime 设计的。
这篇工作给 RL for agentic active reasoning 中一个常见但容易被忽视的问题提供了机制解释。过去我们常说,agent 在多轮任务中表现不好,是因为 reward sparse、exploration hard、tool use complicated。但 AREW 指出,在 active reasoning 中还有一个更结构性的困难:
获取信息和使用信息是耦合学习的。Outcome reward 很难自然把这两个能力分开 credit。
这会导致一种自锁:
AREW 的思路也很直接:既然最终 reward 很难自动分配 credit,就利用 active reasoning 中天然存在的局部诊断信号,把 trajectory 内部的 credit 重新分配给更有信息价值的决策。
这带来几个 takeaway:
第一,active reasoning 的训练不能只看最终 reward。 Reward 上升不等于模型真的学会了更好地交互。我们需要关注 agent 是否更会主动获取信息,以及是否更会整合新证据。
第二,LLM agent 的训练失败有时不是单一能力不足,而是多个能力之间的耦合失效。 AS 和 BT 单独看都重要,但真正的问题发生在二者互相依赖、互相 masking 的训练动态中。
第三,弱监督也可以很有用。 AREW 不要求人工标注精确中间奖励,也不需要训练 dense reward model。只要能判断某些步骤大致应该鼓励还是抑制,就可以显著改善 credit assignment。
第四,这类方法可能对更复杂的 agentic systems 有启发。在 Deep Research、coding、customer service、computer use 等任务中,agent 都需要不断决定 “下一步获取什么信息” 以及 “如何吸收新信息”。这正是 AS/BT coupling 最容易出现的地方。
欢迎查阅论文与代码以获取更多技术细节。
如果您觉得这篇工作有帮助,欢迎关注与引用。
@article{zou2026information,
title={OnInformationSelf-LockinginReinforcementLearningforActiveReasoning of LLM agents},
author={Zou, Deyu and Chen, Yongqiang and Feng, Fan and Li, Mufei and Li, Pan and Gong, Yu and Cheng, James},
journal={arXiv preprint arXiv:2603.12109},
year={2026}
}
文章来自于"机器之心",作者 "邹德誉"。
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/