不微调，让LLM推理准确率暴增到99%！试下DeepConf，一个轻量级推理框架

不微调，让LLM推理准确率暴增到99%！试下DeepConf，一个轻量级推理框架｜Meta最新

6381点击 2025-09-09 10:17

在大型语言模型（LLM）进行数学题、逻辑推理等复杂任务时，一个非常流行且有效的方法叫做 “自洽性”（Self-Consistency），通常也被称为“平行思考”。它的逻辑很简单：不要只让模型想一次，而是让它用不同的随机性（temperature > 0）生成多个解答过程（我们称之为“推理路径”或“trace”），然后通过 “多数投票”（Majority Voting）选出出现次数最多的答案。这就好比让一个学生把一道题做很多遍，然后选一个他得出次数最多的答案，通常这个答案的正确率会更高。

这个方法虽然一度管用，但问题也挺明显，存在两个致命痛点

成本极其高昂：假设为了提升一点点准确率，你需要模型生成512条推理路径。这意味着你的计算成本（token消耗量）会暴增512倍。这在实际应用中是难以承受的。
性能遭遇瓶颈：“多数投票”有一个朴素的假设，每一条推理路径的“投票权”是平等的。就像一个大型村民大会，每人一票，商讨解决一个复杂问题，但在这个大会上，有深思熟虑的专家，也有随便猜想的门外汉，甚至还有一些理解错问题的“捣乱者”。由于规则是“人人平等”，如果恰好有足够多的“门外汉”和“捣乱者”碰巧猜了同一个错误答案，他们的票数就会淹没掉少数专家的正确意见。这就是为什么路径越多，准确率有时反而会提升很快饱和甚至下降的原因，引入了太多的“噪音”。

不微调，让LLM推理准确率暴增到99%！试下DeepConf，一个轻量级推理框架｜Meta最新

来自Meta和UCSD的研究者们，提出了一套名为Deep Think with Confidence（DeepConf）的轻量级推理框架，有效解决了这个“又贵又没效率”的窘境，并让GPT-oss在AIME2025的准确率达到了惊人的 99.9%，远高于标准多数投票的97.0%。https://arxiv.org/abs/2508.15260

DeepConf：模型的“自信心”是个宝藏

DeepConf的出发点非常巧妙：能否在不增加外部裁判的情况下，让模型自己来判断哪条推理路径质量更高呢？

不微调，让LLM推理准确率暴增到99%！试下DeepConf，一个轻量级推理框架｜Meta最新

答案是可以的，通过模型的 “内部置信度信号”（Internal Confidence Signals）当模型在生成每一个词（token）时，它都会对词汇表里的所有词计算一个概率分布。

如果模型非常确定下一个词应该是什么，这个概率分布就会非常“尖锐”，集中在少数几个词上（熵低）。
如果模型非常不确定，它可能会觉得好几个词都有可能，概率分布就比较“平坦”（熵高）。

DeepConf的核心思想就是：一条高质量的推理路径，模型在绝大多数步骤中都应该是自信的，其整个生成过程模型的“置信度”应该普遍较高；反之，充满不确定性和错误的路径，则必然会在某些环节表现出“犹豫”，其置信度会很低。

关键概念：怎么量化AI的“自信”？

为了更精准地“把脉”AI的思考过程，研究者们探讨了多种衡量其“自信心”的方法，这是一个从基础单位到复杂应用的、层层递进的过程。

第一步：定义最基础的“词元置信度” (Token Confidence)

不微调，让LLM推理准确率暴增到99%！试下DeepConf，一个轻量级推理框架｜Meta最新

这是所有“自信”置信度计算的基石，定义了模型在生成 每一个词元（token） 时的确定程度。

Ci：表示在第 i 个位置上生成的词元的置信度分数。
Pi(j)：代表在第 i 个位置，模型预测的第 j 个最有可能的候选词元的概率。
k：表示我们考虑多少个最可能的候选词元（例如，k=20）。
logPi(j)：这是取概率的对数。因为概率值在0到1之间，其对数是负数。
−k1∑...：Σ是求和符号。整个公式的意思是，将概率最高的k个候选词元的对数概率加起来，取平均值，最后再取负号。

为什么要这么算？ 这个公式非常巧妙。当模型非常“自信”时，它会给某个词元非常高的概率（接近1），其他候选词概率很低。这时logP的值会接近0，所以计算出的置信度 Ci 会是一个较高的正数。反之，如果模型“不确定”，它会给很多候选词元差不多的低概率，这时logP的值会是较大的负数，最终计算出的置信度 Ci 就会较低。

简单来说，这个公式将模型的预测概率分布转换为了一个直观的、数值化的“置信度分数”。分数越高，模型越确定

第二步：从“平均追踪置信度” (Average Trace Confidence) 说起

有了单个词元的置信度，最容易想到的一个方法就是计算整条推理路径的平均分

平均追踪置信度 (Average Trace Confidence)：这是最基础的方法，将一条完整推理路径中所有token的置信度取平均值。虽然有效，但它的缺点是会“平均掉”局部的、关键性的推理失败，并且必须等待整条路径生成完毕才能计算，无法提前中止。

与以往直接计算整个路径的平均置信度（全局指标）不同，DeepConf认为这种方法会掩盖问题。比如，一条路径可能90%的步骤都非常自信，但在一个关键步骤上出错了，平均值依然会很高。因此它提出了一系列更精细化的局部置信度指标。

第三步：局部置信度测量 (Local Confidence Measurements)

为了克服平均置信度的缺点，DeepConf引入了更精细的局部测量方法，这是DeepConf的精髓所在：

不微调，让LLM推理准确率暴增到99%！试下DeepConf，一个轻量级推理框架｜Meta最新

这个公式就是计算一小段连续文本（一个“组”）的平均置信度。这样做的好处是避免了单个词元的置信度波动过大，能更稳定地反映模型在某个推理阶段的整体状态。

CGi：表示以第 i 个词元为结尾的这个“组”（Group）的置信度。
Gi：代表一个包含 n 个词元的滑动窗口（例如，n=2048）。
∣Gi∣：是这个组里词元的数量。
∑t∈GiCt：将这个组里所有词元的置信度（也就是上面公式1算出的Ct）全部加起来。
组置信度 (Group Confidence)：这是一种滑动窗口式的测量。它不看全局，而是计算一小段连续token（比如1024个）的平均置信度，这样能更好地捕捉推理过程中局部的信心波动。
尾部置信度 (Tail Confidence)：这个指标很有针对性，它只关心推理路径最后一部分（比如最后2048个token）的置信度。因为很多时候，成败就在于最后的结论步骤，结尾的自信程度至关重要。
底部10%组置信度 (Bottom 10% Group Confidence)：

不微调，让LLM推理准确率暴增到99%！试下DeepConf，一个轻量级推理框架｜Meta最新

这个指标非常巧妙，它关注的是一条路径中置信度最低的10%的片段的平均值。这就像寻找“木桶的短板”，一个急剧的置信度下降往往预示着推理链条的断裂。

最低组置信度 (Lowest Group Confidence)：

不微调，让LLM推理准确率暴增到99%！试下DeepConf，一个轻量级推理框架｜Meta最新

这是最极端的情况，直接使用整条路径中那个置信度最低的“组”的值，来代表整条路径的质量。这个指标对“短板”的惩罚是最大的。这些指标就像是给AI的思路装上了不同焦距的显微镜，能从不同维度精准捕捉到它在哪个环节开始犯迷糊。

不微调，让LLM推理准确率暴增到99%！试下DeepConf，一个轻量级推理框架｜Meta最新

采用“底部10%”或“尾部”置信度并结合过滤（尤其是保留10%），准确率通常最高

DeepConf的双轨策略：离线和在线思考

基于这些置信度指标，DeepConf设计了两种非常实用的工作模式。您可以把它们想象成两种不同的项目管理风格：一个是等所有方案都交上来再评审的“事后诸葛亮”，另一个则是在项目进行中就随时叫停不靠谱方案的“实时监督员”。

不微调，让LLM推理准确率暴增到99%！试下DeepConf，一个轻量级推理框架｜Meta最新

离线模式：让最“自信”的思考路径说了算

离线模式操作起来很简单，就是在模型把所有N条推理路径都生成完毕后，我们再来做文章。它主要通过两个关键技术来优化结果：

置信度加权多数投票 (Confidence-Weighted Majority Voting)：这改变了传统“一票一投”的规则。每条推理路径的投票权重不再是1，而是它的置信度得分。这样一来，那些高置信度、高质量的路径在最终决策中的话语权就更重。
置信度过滤 (Confidence Filtering)：这个更直接，就是在投票前先搞一轮“海选”。比如，可以直接淘汰掉置信度排名后90%的路径，只让最精英的10%参与最终决策，以此来大大减少低质量路径的噪音干扰。

在线模式：实时叫停那些“不靠谱”的思路

不微调，让LLM推理准确率暴增到99%！试下DeepConf，一个轻量级推理框架｜Meta最新

在线模式才是这个工作的精华所在，它真正实现了降本增效，操作相当漂亮。它的工作流程设计得非常严谨，可以分解为以下几个步骤：

离线预热 (Offline Warmup)：对于一个新问题，系统会先完整地生成一小批（比如16条）推理路径。这批“先锋部队”的作用是用来摸底的。
设定停止阈值 (Stopping Threshold)：系统会分析这16条预热路径的“最低组置信度”，并据此设定一个动态的“及格线”（即停止阈值s）。比如，可以取这批路径中置信度排名前90%里最低的那个值作为阈值。
动态生成与提前终止 (Online Generation with Early Stopping)：接下来，系统开始生成新的推理路径。在生成过程中，它会实时监控其局部的“组置信度”，一旦发现自信心跌破了刚才设定的阈值s，系统就果断地直接掐断这条路径，不再让它往下浪费一个token！
自适应采样 (Adaptive Sampling)：这还有一个锦上添花的设计。系统会持续统计已完成路径的答案共识度，如果发现大多数路径已经指向同一个答案（比如共识度超过95%），它就会停止生成更多的路径，因为答案已经很明确了。

实验结果：数据不会说谎

论文在多个高难度数学和科学推理基准（如AIME、HMMT、GPQA）上，对多种先进的开源模型（如DeepSeek-8B, Qwen3-32B, GPT-OSS-120B）进行了详尽的实验，这次的结果真的非常惊人：

不微调，让LLM推理准确率暴增到99%！试下DeepConf，一个轻量级推理框架｜Meta最新

准确率大幅提升：在离线模式下，以AIME 2025测试集和GPT-OSS-120B模型为例，标准的多数投票（Cons@512）准确率为97.0%，而使用DeepConf（Tail Conf@512 + top 10%过滤）后，准确率达到了99.9%，几乎完美解决了这个基准测试。
成本显著降低：在在线模式下，与生成完整路径的多数投票相比，DeepConf-low（激进过滤策略）在保持或提升准确率的同时，最多可以减少84.7%的token消耗。这意味着原来需要花费100块钱的计算资源，现在可能只需要15块钱就能达到甚至更好的效果。

实践：DeepConf客户流失预测

为了验证DeepConf在实际业务场景中的效果，我基于研究者开源的源代码搭建了一个基于DeepConf的客户流失预测示例Agent，并用Kaggle上的客户数据集上进行了测试。

不微调，让LLM推理准确率暴增到99%！试下DeepConf，一个轻量级推理框架｜Meta最新

技术栈与环境要求

DeepConf的部署相对简单，但有几个关键的技术要求您需要了解：

vLLM推理引擎：这是运行DeepConf的核心依赖，用于高效的批量推理和获取token级别的log probabilities（logprobs），这是计算置信度的基础数据。
支持logprobs的模型：不是所有模型API都支持返回详细的token概率，DeepSeek-R1、Qwen等开源模型通过vLLM可以完美支持。
合理的计算资源：虽然比传统自洽性方法节省很多，但多路径推理仍需要足够的GPU/CPU资源。

实际运行效果

我使用DeepSeek-R1-8B模型，针对客户流失预测任务设计了8个不同的"专家视角"（信用评分分析师、客户行为专家、财务状况分析师等），每个视角生成4轮推理，共计32条推理路径。

不微调，让LLM推理准确率暴增到99%！试下DeepConf，一个轻量级推理框架｜Meta最新

从实际运行结果可以看到

多角度分析：32条推理路径从不同专业角度分析同一客户，生成的流失概率预测从10%到60%不等，体现了推理的多样性。
置信度量化：每条路径都有明确的置信度评分（4.049-8.262范围），为后续的智能筛选提供依据。
智能投票机制：通过线性加权、指数加权和softmax三种方式进行置信度加权投票，最终预测结果为49.9%（分类为"留存"），与实际情况完全吻合。
高效执行：整个分析过程仅用时162秒，平均每轨迹生成63.2个token，吞吐量达到12.5 tokens/秒。

在3个随机客户的测试中，预测准确率达到66.7%，考虑到这是一个复杂的业务预测任务，这个结果相当令人鼓舞。

关键发现

这次实践让我看到了DeepConf在实际业务场景中的三个突出优势：

业务洞察丰富性：通过多专家视角，我们不仅得到了预测结果，更重要的是获得了32种不同的分析思路，为业务决策提供了丰富的参考。
结果可解释性强：每条推理路径都有完整的分析过程和明确的置信度，让预测结果不再是"黑盒"。
计算效率可控：相比传统需要数百条路径的方法，32条路径就能获得稳定可靠的结果。

周末我会将上述的客户流失预测示例Agent代码分享在群里，欢迎你来群里一起讨论DeepConf的用法！

这对我们开发AI产品意味着什么？

过去，我们试图通过“人海战术”（生成海量路径）来暴力破解推理难题，不仅成本高昂，还常常被噪音淹没。DeepConf证明，通过智能化的筛选和引导，我们可以用少量高质量路径精准地达成目标。这是一种从追求计算的广度到挖掘智能的深度的转变。因此DeepConf的价值远不止于一个降本增效的“秘密武器”。对于身处一线的AI工程师和产品经理而言，它带来的启发是战略性的，标志着我们与大模型协作方式的一次重要进化。

不微调，让LLM推理准确率暴增到99%！试下DeepConf，一个轻量级推理框架｜Meta最新

建议还没试过的朋友可以去试一下，并不要忘了为作者点一个star！

https://github.com/facebookresearch/deepconf/tree/main

文章来自于“AI修猫Prompt”，作者“AI修猫Prompt”。

关键词: AI , 模型训练 , DeepConf , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0