4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法

8601点击 2026-03-13 10:10

大语言模型（LLM）的幻觉问题一直是阻碍其在关键领域部署的核心难题。近日，研究人员提出了一种名为行为校准强化学习（Behaviorally Calibrated Reinforcement Learning）的新方法，通过重新设计奖励函数，让模型学会「知之为知之，不知为不知」。

论文链接：https://arxiv.org/abs/2512.19920

一个仅 40 亿参数的模型在接受该方法训练后，其幻觉抑制能力竟然超越了 GPT-5 等前沿大模型。

4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法

图1：模型在回答数学问题时输出的置信度标注示例。每个声明都附带置信度分数和理由说明。

核心问题：为什么 LLM 会产生幻觉？

研究团队指出，当前主流的大模型后训练范式 —— 基于可验证奖励的强化学习（RLVR）—— 存在一个根本性的奖励错位问题。在标准 RLVR 中，奖励函数通常是二元的：回答正确得 + 1 分，回答错误得 - 1 分。在这种机制下，只要正确概率大于零，一个追求效用最大化的智能体会被激励生成可能错误的答案。这就造成了对「拒绝回答」行为的惩罚，迫使模型抑制不确定性的表达，将猜测伪装成事实。模型被训练成了「优秀的应试者」—— 为了最大化预期分数而猜测，而不是成为「诚实的沟通者」—— 在置信不足时选择放弃。

解决方案：行为校准强化学习

4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法

为了实现这一目标，研究团队设计了两种策略：

策略一：言语化置信度（Verbalized Confidence）

4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法

策略二：Critic 价值函数（Critic Value）

作为显示生成置信度的替代方案，该策略使用 PPO 算法中 Critic 网络的价值函数作为隐式置信度估计器。理论上，Critic 网络通过最小化预测值与策略回报之间的 Brier 分数进行训练，其价值函数会收敛到成功概率。

声明级行为校准：细粒度的「不确定」标注

研究团队进一步将行为校准从响应级别扩展到声明级别，使模型能够精确标注答案中单个不确定的推理步骤，而非简单地拒绝整个回答。这一扩展面临三大挑战：

挑战一：连贯性问题。直接将不确定的声明替换为 < IDK > 可能破坏推理的连贯性 —— 例如在数学问题中，后续步骤往往依赖于前面的结论。研究团队选择让模型输出完整响应，同时用 HTML 标签可视化高亮不确定的声明。

挑战二：中间步骤的歧义性。在思维链（CoT）推理中，中间步骤的正确性和置信度存在天然歧义：一个步骤可能正确识别了前面声明中的错误。为此，研究团队忽略中间推理过程，仅在最终的结构化步骤上进行校准。

挑战三：缺乏细粒度标签。声明级的正确性标注难以获取。研究团队设计了基于弱监督的学习目标：将声明级置信度聚合成响应级置信度，再使用 Brier 分数奖励进行训练。

4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法

实验发现，最小值聚合在声明级评估中表现更优，因为它能更有效地激励模型识别推理链中的薄弱环节。而乘积聚合虽然更适合响应级校准，但可能导致单个声明的置信度过于乐观。

实验结果

研究团队在多个基准测试上评估了该方法，包括字节跳动 Seed 团队发布的极具挑战性的数学推理基准 BeyondAIME，以及 AIME-2024/2025 和 SimpleQA（跨领域事实问答基准）。

核心评估指标

4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法

Confidence AUC：使用模型的置信度分数对正确和错误回答进行排序，计算 ROC 曲线下面积。AUC 越接近 1，说明模型越能准确地将高置信度分配给正确回答，将低置信度分配给错误回答。这是一个纯衡量模型「自知之明」的指标，不受模型本身能力强弱的影响。

响应级评估：超越 GPT-5

在 BeyondAIME 上的响应级评估结果显示（表 1），研究提出的方法显著优于 Qwen3-max，Kimi-K2，Gemini-2.5-Pro 和 GPT-5 等模型。其中，采用言语化置信度（Verbalized Confidence）、置信度乘积聚合（Qwen3-4B-Instruct-confidence-prod）的 40 亿参数模型取得了 0.806 的 SNR 增益，大幅超越 GPT-5 的 0.207。采用 Critic 价值函数（Qwen3-4B-Instruct-ppo-value）也取得了相当好的效果。

4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法

表1：BeyondAIME 响应级评估结果。SNR Gain 和 Conf AUC 是衡量幻觉抑制效果的关键指标，数值越高表示模型越能有效抑制幻觉。

声明级评估：超越 Gemini-2.5-Pro

研究团队还将行为校准从响应级别扩展到声明级别，让模型能够精确标注单个不确定的推理步骤。在 BeyondAIME 的声明级评估中（表 2），置信度最小聚合方法取得了 0.301 的 SNR 增益，显著优于 Gemini-2.5-Pro 的 0.019。

4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法

表2：BeyondAIME 声明级评估结果。最小值聚合方法在 SNR Gain 和 Conf AUC 两个核心指标上均大幅领先前沿模型。

置信度校准图：多数前沿模型缺少「自知之明」

4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法

图2：前沿模型在BeyondAIME上的响应级置信度校准图。可以观察到，很多模型的准确率是一条水平线，与其声明的置信度几乎没有相关性。

4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法

图3：本研究模型在BeyondAIME上的置信度校准图。经过行为校准训练后，模型的准确率与其声明的置信度呈现强烈的正相关关系。其中Base和Base-ppo是基准。

行为校准的四个目标

4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法

图4：在不同风险阈值下的准确率、拒绝率和幻觉率变化曲线。绿色区域代表准确率，黄色区域代表拒绝率，红色区域代表幻觉率。随着风险阈值t的增加，模型逐渐从「应试者模式」过渡到「完全诚实模式」。

研究团队设计的系统满足行为校准的四个目标：

4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法

图5：行为校准的True Positive（实线）和False Negative（虚线)。TP曲线应位于对角线上方，FN曲线应位于对角线下方。Base和Base-ppo是基线

跨领域泛化：元技能的可迁移性

为了验证该方法训练出的元认知能力是否具有可迁移性，研究团队将在数学数据上训练的模型直接在 SimpleQA（具有挑战性的长尾事实知识基准）上进行零样本评估。

结果显示，方法的 SNR 显著优于基础指令模型，超越了大多数评估的前沿模型，与包括 Claude-Sonnet-4.5 和 GPT-5 在内的最强前沿模型相当。由于零样本评估的设定，在模型缺乏基础知识的全新领域上，行为校准被有效迁移，这说明行为校准是一种与预测准确率解耦的技能。

研究启示：

幻觉缓解与准确率是两个独立的能力

该研究还带来了一些理论洞察：

1. 幻觉缓解与事实准确率是两种不同的能力。研究团队观察到，对于某些前沿模型而言，准确率与幻觉率或置信度校准之间并没有正相关关系。GPT 系列模型的优势更多体现在控制幻觉的能力上，而不仅是准确率的优势。

2. 小模型也能实现与大模型相当的置信度校准。实现有效「校准」所需的计算资源远低于追求绝对准确率所需的资源。反过来说，某些大模型的言语化置信度并不能准确反映其实际表现。

3. 行为校准是一种可学习的属性，可以通过训练得到改善。这与此前认为幻觉是 LLM 不可避免的内置特性的观点形成了对比。

文章来自于“机器之心”，作者 “吴嘉赟”。

关键词: AI幻觉抑制 , 模型训练 , 行为校准强化学习

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md