不微调,让LLM推理准确率暴增到99%!试下DeepConf,一个轻量级推理框架|Meta最新

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
不微调,让LLM推理准确率暴增到99%!试下DeepConf,一个轻量级推理框架|Meta最新
4528点击    2025-09-09 10:17

在大型语言模型(LLM)进行数学题、逻辑推理等复杂任务时,一个非常流行且有效的方法叫做 “自洽性”(Self-Consistency)通常也被称为“平行思考”。它的逻辑很简单:不要只让模型想一次,而是让它用不同的随机性(temperature > 0)生成多个解答过程(我们称之为“推理路径”或“trace”),然后通过 “多数投票”(Majority Voting)选出出现次数最多的答案。这就好比让一个学生把一道题做很多遍,然后选一个他得出次数最多的答案,通常这个答案的正确率会更高。


这个方法虽然一度管用,但问题也挺明显,存在两个致命痛点


  • 成本极其高昂假设为了提升一点点准确率,你需要模型生成512条推理路径。这意味着你的计算成本(token消耗量)会暴增512倍。这在实际应用中是难以承受的。
  • 性能遭遇瓶颈:“多数投票”有一个朴素的假设,每一条推理路径的“投票权”是平等的。就像一个大型村民大会,每人一票,商讨解决一个复杂问题,但在这个大会上,有深思熟虑的专家,也有随便猜想的门外汉,甚至还有一些理解错问题的“捣乱者”。由于规则是“人人平等”,如果恰好有足够多的“门外汉”和“捣乱者”碰巧猜了同一个错误答案,他们的票数就会淹没掉少数专家的正确意见。这就是为什么路径越多,准确率有时反而会提升很快饱和甚至下降的原因,引入了太多的“噪音”。


不微调,让LLM推理准确率暴增到99%!试下DeepConf,一个轻量级推理框架|Meta最新


不微调,让LLM推理准确率暴增到99%!试下DeepConf,一个轻量级推理框架|Meta最新


来自Meta和UCSD的研究者们,提出了一套名为Deep Think with ConfidenceDeepConf)的轻量级推理框架,有效解决了这个“又贵又没效率”的窘境,并让GPT-oss在AIME2025的准确率达到了惊人的 99.9%,远高于标准多数投票的97.0%。https://arxiv.org/abs/2508.15260


DeepConf:模型的“自信心”是个宝藏


DeepConf的出发点非常巧妙:能否在不增加外部裁判的情况下,让模型自己来判断哪条推理路径质量更高呢?


不微调,让LLM推理准确率暴增到99%!试下DeepConf,一个轻量级推理框架|Meta最新


答案是可以的,通过模型的 “内部置信度信号”(Internal Confidence Signals)当模型在生成每一个词(token)时,它都会对词汇表里的所有词计算一个概率分布。


  • 如果模型非常确定下一个词应该是什么,这个概率分布就会非常“尖锐”,集中在少数几个词上(熵低)
  • 如果模型非常不确定,它可能会觉得好几个词都有可能,概率分布就比较“平坦”(熵高)


DeepConf的核心思想就是:一条高质量的推理路径,模型在绝大多数步骤中都应该是自信的,其整个生成过程模型的“置信度”应该普遍较高;反之,充满不确定性和错误的路径,则必然会在某些环节表现出“犹豫”,其置信度会很低。


关键概念:怎么量化AI的“自信”?


为了更精准地“把脉”AI的思考过程,研究者们探讨了多种衡量其“自信心”的方法,这是一个从基础单位到复杂应用的、层层递进的过程。


第一步:定义最基础的“词元置信度” (Token Confidence)


不微调,让LLM推理准确率暴增到99%!试下DeepConf,一个轻量级推理框架|Meta最新


这是所有“自信”置信度计算的基石,定义了模型在生成 每一个词元(token) 时的确定程度。


  • Ci:表示在第 i 个位置上生成的词元的置信度分数。
  • Pi(j):代表在第 i 个位置,模型预测的第 j 个最有可能的候选词元的概率。
  • k:表示我们考虑多少个最可能的候选词元(例如,k=20)。
  • logPi(j):这是取概率的对数。因为概率值在0到1之间,其对数是负数。
  • −k1∑...Σ是求和符号。整个公式的意思是,将概率最高的k个候选词元的对数概率加起来,取平均值,最后再取负号。


为什么要这么算? 这个公式非常巧妙。当模型非常“自信”时,它会给某个词元非常高的概率(接近1),其他候选词概率很低。这时logP的值会接近0,所以计算出的置信度 Ci 会是一个较高的正数。反之,如果模型“不确定”,它会给很多候选词元差不多的低概率,这时logP的值会是较大的负数,最终计算出的置信度 Ci 就会较低


简单来说,这个公式将模型的预测概率分布转换为了一个直观的、数值化的“置信度分数”。分数越高,模型越确定


第二步:从“平均追踪置信度” (Average Trace Confidence) 说起


有了单个词元的置信度,最容易想到的一个方法就是计算整条推理路径的平均分


  • 平均追踪置信度 (Average Trace Confidence):这是最基础的方法,将一条完整推理路径中所有token的置信度取平均值。虽然有效,但它的缺点是会“平均掉”局部的、关键性的推理失败,并且必须等待整条路径生成完毕才能计算,无法提前中止。


与以往直接计算整个路径的平均置信度(全局指标)不同,DeepConf认为这种方法会掩盖问题。比如,一条路径可能90%的步骤都非常自信,但在一个关键步骤上出错了,平均值依然会很高。因此它提出了一系列更精细化的局部置信度指标。


第三步:局部置信度测量 (Local Confidence Measurements)


为了克服平均置信度的缺点,DeepConf引入了更精细的局部测量方法,这是DeepConf的精髓所在


不微调,让LLM推理准确率暴增到99%!试下DeepConf,一个轻量级推理框架|Meta最新


这个公式就是计算一小段连续文本(一个“组”)的平均置信度。这样做的好处是避免了单个词元的置信度波动过大,能更稳定地反映模型在某个推理阶段的整体状态。


  • CGi:表示以第 i 个词元为结尾的这个“组”(Group)的置信度。
  • Gi:代表一个包含 n 个词元的滑动窗口(例如,n=2048)。
  • ∣Gi∣:是这个组里词元的数量。
  • ∑t∈GiCt:将这个组里所有词元的置信度(也就是上面公式1算出的Ct)全部加起来。
  • 组置信度 (Group Confidence):这是一种滑动窗口式的测量。它不看全局,而是计算一小段连续token(比如1024个)的平均置信度,这样能更好地捕捉推理过程中局部的信心波动。
  • 尾部置信度 (Tail Confidence):这个指标很有针对性,它只关心推理路径最后一部分(比如最后2048个token)的置信度。因为很多时候,成败就在于最后的结论步骤,结尾的自信程度至关重要。
  • 底部10%组置信度 (Bottom 10% Group Confidence)


不微调,让LLM推理准确率暴增到99%!试下DeepConf,一个轻量级推理框架|Meta最新


这个指标非常巧妙,它关注的是一条路径中置信度最低的10%的片段的平均值。这就像寻找“木桶的短板”,一个急剧的置信度下降往往预示着推理链条的断裂。


  • 最低组置信度 (Lowest Group Confidence)


不微调,让LLM推理准确率暴增到99%!试下DeepConf,一个轻量级推理框架|Meta最新


这是最极端的情况,直接使用整条路径中那个置信度最低的“组”的值,来代表整条路径的质量。这个指标对“短板”的惩罚是最大的。这些指标就像是给AI的思路装上了不同焦距的显微镜,能从不同维度精准捕捉到它在哪个环节开始犯迷糊。


不微调,让LLM推理准确率暴增到99%!试下DeepConf,一个轻量级推理框架|Meta最新

采用“底部10%”或“尾部”置信度并结合过滤(尤其是保留10%),准确率通常最高


DeepConf的双轨策略:离线和在线思考


基于这些置信度指标,DeepConf设计了两种非常实用的工作模式。您可以把它们想象成两种不同的项目管理风格:一个是等所有方案都交上来再评审的“事后诸葛亮”,另一个则是在项目进行中就随时叫停不靠谱方案的“实时监督员”。


不微调,让LLM推理准确率暴增到99%!试下DeepConf,一个轻量级推理框架|Meta最新


离线模式:让最“自信”的思考路径说了算


离线模式操作起来很简单,就是在模型把所有N条推理路径都生成完毕后,我们再来做文章。它主要通过两个关键技术来优化结果:


  • 置信度加权多数投票 (Confidence-Weighted Majority Voting):这改变了传统“一票一投”的规则。每条推理路径的投票权重不再是1,而是它的置信度得分。这样一来,那些高置信度、高质量的路径在最终决策中的话语权就更重。
  • 置信度过滤 (Confidence Filtering):这个更直接,就是在投票前先搞一轮“海选”。比如,可以直接淘汰掉置信度排名后90%的路径,只让最精英的10%参与最终决策,以此来大大减少低质量路径的噪音干扰。


在线模式:实时叫停那些“不靠谱”的思路


不微调,让LLM推理准确率暴增到99%!试下DeepConf,一个轻量级推理框架|Meta最新


在线模式才是这个工作的精华所在,它真正实现了降本增效,操作相当漂亮。它的工作流程设计得非常严谨,可以分解为以下几个步骤:


  • 离线预热 (Offline Warmup):对于一个新问题,系统会先完整地生成一小批(比如16条)推理路径。这批“先锋部队”的作用是用来摸底的。
  • 设定停止阈值 (Stopping Threshold):系统会分析这16条预热路径的“最低组置信度”,并据此设定一个动态的“及格线”(即停止阈值s)。比如,可以取这批路径中置信度排名前90%里最低的那个值作为阈值。
  • 动态生成与提前终止 (Online Generation with Early Stopping):接下来,系统开始生成新的推理路径。在生成过程中,它会实时监控其局部的“组置信度”,一旦发现自信心跌破了刚才设定的阈值s,系统就果断地直接掐断这条路径,不再让它往下浪费一个token!
  • 自适应采样 (Adaptive Sampling):这还有一个锦上添花的设计。系统会持续统计已完成路径的答案共识度,如果发现大多数路径已经指向同一个答案(比如共识度超过95%),它就会停止生成更多的路径,因为答案已经很明确了。


实验结果:数据不会说谎


论文在多个高难度数学和科学推理基准(如AIME、HMMT、GPQA)上,对多种先进的开源模型(如DeepSeek-8B, Qwen3-32B, GPT-OSS-120B)进行了详尽的实验,这次的结果真的非常惊人:


不微调,让LLM推理准确率暴增到99%!试下DeepConf,一个轻量级推理框架|Meta最新


  • 准确率大幅提升:在离线模式下,以AIME 2025测试集和GPT-OSS-120B模型为例,标准的多数投票(Cons@512)准确率为97.0%,而使用DeepConf(Tail Conf@512 + top 10%过滤)后,准确率达到了99.9%,几乎完美解决了这个基准测试。
  • 成本显著降低:在在线模式下,与生成完整路径的多数投票相比,DeepConf-low(激进过滤策略)在保持或提升准确率的同时,最多可以减少84.7%的token消耗。这意味着原来需要花费100块钱的计算资源,现在可能只需要15块钱就能达到甚至更好的效果。


实践:DeepConf客户流失预测


为了验证DeepConf在实际业务场景中的效果,我基于研究者开源的源代码搭建了一个基于DeepConf的客户流失预测示例Agent,并用Kaggle上的客户数据集上进行了测试。


不微调,让LLM推理准确率暴增到99%!试下DeepConf,一个轻量级推理框架|Meta最新


技术栈与环境要求


DeepConf的部署相对简单,但有几个关键的技术要求您需要了解:


  • vLLM推理引擎这是运行DeepConf的核心依赖,用于高效的批量推理和获取token级别的log probabilities(logprobs),这是计算置信度的基础数据。
  • 支持logprobs的模型不是所有模型API都支持返回详细的token概率,DeepSeek-R1、Qwen等开源模型通过vLLM可以完美支持。
  • 合理的计算资源:虽然比传统自洽性方法节省很多,但多路径推理仍需要足够的GPU/CPU资源。


实际运行效果


我使用DeepSeek-R1-8B模型,针对客户流失预测任务设计了8个不同的"专家视角"(信用评分分析师、客户行为专家、财务状况分析师等),每个视角生成4轮推理,共计32条推理路径。


不微调,让LLM推理准确率暴增到99%!试下DeepConf,一个轻量级推理框架|Meta最新


不微调,让LLM推理准确率暴增到99%!试下DeepConf,一个轻量级推理框架|Meta最新


从实际运行结果可以看到


  • 多角度分析:32条推理路径从不同专业角度分析同一客户,生成的流失概率预测从10%到60%不等,体现了推理的多样性。
  • 置信度量化:每条路径都有明确的置信度评分(4.049-8.262范围),为后续的智能筛选提供依据。
  • 智能投票机制:通过线性加权、指数加权和softmax三种方式进行置信度加权投票,最终预测结果为49.9%(分类为"留存"),与实际情况完全吻合。
  • 高效执行:整个分析过程仅用时162秒,平均每轨迹生成63.2个token,吞吐量达到12.5 tokens/秒。


在3个随机客户的测试中,预测准确率达到66.7%,考虑到这是一个复杂的业务预测任务,这个结果相当令人鼓舞。


关键发现


这次实践让我看到了DeepConf在实际业务场景中的三个突出优势:


  • 业务洞察丰富性:通过多专家视角,我们不仅得到了预测结果,更重要的是获得了32种不同的分析思路,为业务决策提供了丰富的参考。
  • 结果可解释性强:每条推理路径都有完整的分析过程和明确的置信度,让预测结果不再是"黑盒"。
  • 计算效率可控:相比传统需要数百条路径的方法,32条路径就能获得稳定可靠的结果。


周末我会将上述的客户流失预测示例Agent代码分享在群里,欢迎你来群里一起讨论DeepConf的用法!


这对我们开发AI产品意味着什么?


过去,我们试图通过“人海战术”(生成海量路径)来暴力破解推理难题,不仅成本高昂,还常常被噪音淹没。DeepConf证明,通过智能化的筛选和引导,我们可以用少量高质量路径精准地达成目标。这是一种从追求计算的广度到挖掘智能的深度的转变。因此DeepConf的价值远不止于一个降本增效的“秘密武器”。对于身处一线的AI工程师和产品经理而言,它带来的启发是战略性的,标志着我们与大模型协作方式的一次重要进化。


不微调,让LLM推理准确率暴增到99%!试下DeepConf,一个轻量级推理框架|Meta最新


建议还没试过的朋友可以去试一下,并不要忘了为作者点一个star!

https://github.com/facebookresearch/deepconf/tree/main


文章来自于“AI修猫Prompt”,作者“AI修猫Prompt”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0