Meta提出Deep Think with Confidence：几乎啥都不用动，就能提升推理的准确性与效率

近年来，大型语言模型（LLMs）在复杂推理任务上表现惊人，尤其是在测试时生成多条推理链并通过“自一致性”（Self-Consistency）进行多数投票的策略，显著提升了答案的正确率。例如，在AIME25上，GPT-OSS-120B使用尾部置信度+Top10%过滤，达到了惊人的**99.9%**准确率，而普通投票为97.0%。：对于一个新问题，先正常生成一小部分（如16条）完整的推理路径，计算它

zenRRan

2785人浏览 · 2025-08-25 15:08:53

zenRRan · 2025-08-25 15:08:53 发布

近年来，大型语言模型（LLMs）在复杂推理任务上表现惊人，尤其是在测试时生成多条推理链并通过“自一致性”（Self-Consistency）进行多数投票的策略，显著提升了答案的正确率。然而，这种通常被称为“并行思考”的方法也带来了巨大的计算成本：每道题生成数百甚至上千条推理路径，token消耗量呈线性增长，在实际部署中几乎不可持续。更糟糕的是，随着生成路径的增加，性能提升会逐渐饱和甚至下降，传统投票法却对所有路径一视同仁，无法区分高质量和低质量的推理。

论文：Deep Think with Confidence
链接：https://arxiv.org/pdf/2508.15260

正是在这样的背景下，Meta AI与UCSD的研究团队提出了Deep Think with Confidence（DeepConf）——一种简单却强大的方法，能够在测试阶段动态识别并过滤低置信度的推理路径，从而在不增加训练成本、不调整超参数的前提下，同时提升推理的准确性与效率。本文将对这一方法进行全面解读，揭示其如何通过“置信度”这一内在信号，实现更智能、更高效的推理聚合。

为什么需要“带置信度的深度思考”？

传统的自一致性方法虽然有效，但有两大痛点：

计算开销巨大：例如，在AIME 2025数学竞赛题上，使用Qwen3-8B模型将准确率从68%提升至82%，需要额外生成511条推理路径，消耗上亿token。
收益递减：生成更多路径并不总能带来性能提升，有时反而会引入噪声，因为低质量路径也可能“带偏”投票结果。

以往也有一些工作尝试用“全局置信度”（例如整条推理路径的平均置信度）来筛选路径，但这种方法有两个缺陷：

掩盖局部错误：整条路径的平均值可能掩盖中间某几步的严重不确定性或错误。
无法提前终止：必须生成完整路径才能计算置信度，无法在生成过程中及时止损。

DeepConf的动机正是要解决这些问题：利用更细粒度的、局部的置信度信号，在生成过程中或生成后动态过滤低质量路径，从而实现高效且准确的推理。

DeepConf如何工作？

一、置信度指标的设计与理解

DeepConf的核心在于一系列创新的置信度度量方式，它们从不同角度捕捉推理路径的质量。

1. Token级指标：

Token熵（Token Entropy）：衡量模型对下一个词的不确定性。熵越低，模型越确信。

其中是第i个位置第j个词的概率。
Token置信度（Token Confidence）：作者定义为前k个候选词的平均负对数概率：

注意：这里置信度越高，数值反而越低（因为取负号），但论文中实际使用时会更关注相对值——数值低代表置信度高。

2. 轨迹级指标：

平均轨迹置信度（Average Trace Confidence）：整条路径所有token置信度的平均值。虽然常用，但容易掩盖局部错误。

3. 创新指标（关键贡献）：

组置信度（Group Confidence）：将轨迹分成长度固定的重叠窗口（如每1024个token一组），计算每组内的平均置信度。这提供了更平滑的局部信号。
底部10%组置信度（Bottom-10% Group Confidence）：取所有组中置信度最低的10%组的平均值。这能捕捉推理中最薄弱、最不确定的环节。
最低组置信度（Lowest Group Confidence）：所有组中置信度最低的那一组的置信度值。这是最极端的局部质量指标，非常适合在线生成中做提前终止的判断。
尾部置信度（Tail Confidence）：只计算轨迹最后固定数量token（如2048个）的平均置信度。因为推理的结尾部分（得出答案的关键步骤）的质量至关重要。

不同置信度度量下，正确与错误推理路径的置信度分布

二、离线推理模式

离线模式下，所有推理路径均已生成完毕，DeepConf通过以下两种策略提升多数投票的效果：

置信度加权投票（Confidence-Weighted Majority Voting）：不再“一人一票”，而是每条路径的投票权重与其置信度成正比。高置信度的路径对最终结果有更大影响力。
置信度过滤（Confidence Filtering）：在进行加权投票之前，先根据置信度分数过滤掉一部分路径。论文主要尝试了两种过滤比例：

Top 10% ：只保留置信度最高的10%的路径。激进策略，力求精度，但若模型对错误答案过于自信，可能翻车。
Top 90% ：保留置信度最高的90%的路径。保守策略，在保持多样性的同时过滤掉最差的10%，稳定可靠。

离线模式下，如何计算不同置信度指标并进行过滤与加权投票的过程

三、在线推理模式

在线模式的目标是在生成过程中实时判断路径质量，并提前终止那些“注定失败”的路径，以节省计算资源。其核心是最低组置信度指标。

在线DeepConf分为两个步骤：

离线预热（Offline Warmup）：对于一个新问题，先正常生成一小部分（如16条）完整的推理路径，计算它们的最低组置信度，然后根据设定的保留比例η（10%或90%），确定一个停止阈值s。例如，DeepConf-low（η=10%）会将阈值s设为预热集中置信度前10%的路径的最低值。
自适应采样（Adaptive Sampling）：开始大规模生成路径。每生成一个token组（如2048个token），就计算当前组置信度。

如果当前值低于阈值s，立即终止该路径。
同时，每完成一条路径，就检查当前所有已生成路径的答案共识度是否超过某个阈值τ（如95%）。如果已达成共识，则停止生成，直接输出结果。

这种方法确保了在线过程近似地复现了离线过滤的效果，同时避免了大量不必要的token生成。

在线生成过程中，如何根据实时计算的组置信度与阈值的比较，来决策是否提前终止一条推理路径

DeepConf效果如何？

实验设置

模型：涵盖了不同规模的先进开源模型，如DeepSeek-8B, Qwen3-8B/32B, GPT-OSS-20B/120B。
基准：多个高难度数学推理数据集，如AIME 2024/2025, HMMT 2025, BRUMO 2025, 以及GPQA-Diamond。
基线：标准的自一致性+多数投票（Cons@K）、以及单条路径精度（Pass@1）。
评估：所有结果均在64次独立运行上取平均，同时汇报准确率和生成的总token数。

离线评估结果

全面对比在512条路径下，不同模型、不同数据集上，各种置信度度量方法配合不同过滤策略的性能

关键发现：

置信度加权+过滤几乎全面优于普通投票。例如，在AIME25上，GPT-OSS-120B使用尾部置信度+Top10%过滤，达到了惊人的**99.9%**准确率，而普通投票为97.0%。
Top10%过滤策略通常带来最大提升，但也存在因模型“自信地犯错”而导致性能下降的风险（如GPT-OSS-120B在部分数据集上）。
Top90%过滤是一个非常安全的选择，几乎总能匹配或略微超过普通投票的精度，同时为后续过滤奠定了基础。
局部置信度信号（尾部和底部）整体表现不逊于甚至优于全局平均信号，证实了关注局部质量的必要性。

以DeepSeek-8B为例，展示使用最低组置信度进行过滤时，Top10%和Top90%策略相对于普通投票的准确率优势

在线评估结果

在线模式下，DeepConf-high和DeepConf-low在预算为512条路径时，相比普通投票在token消耗和准确率上的表现

关键发现：

惊人的效率提升：DeepConf-low平均减少了**43-84%的token消耗，最高可达84.7%**（GPT-OSS-120B on AIME25）。
精度保持甚至提升：在大多数情况下，DeepConf在大幅节省token的同时，准确率与基线相当或更高。例如，DeepSeek-8B在AIME24上节省77.9%的token，准确率反而提升了5.8%。
两种模式的权衡：DeepConf-low（η=10%）追求极致效率，但偶尔会因过滤过于激进导致精度小幅下降；DeepConf-high（η=90%）则更为稳健，以较小的效率提升（节省18-59%token）牢牢守住精度底线。

对比GPT-OSS-120B模型在不同任务上，DeepConf与基线方法在生成token总量上的差异

以DeepSeek-8B为例，准确率随生成token数变化的曲线

结论

DeepConf通过巧妙地利用大语言模型内部的置信度信号，为解决测试时推理的“成本-收益”难题提供了一个优雅而有效的解决方案。它证明了并非所有生成路径都是平等的，也证明了关注推理过程的局部质量远比只关注最终答案更重要。这项研究不仅显著提升了先进模型的推理效率，更重要的是，它为未来构建更加“自知之明”、资源高效的人工智能系统指明了方向——让AI学会在思考时衡量自己的把握，从而更聪明地分配计算资源。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla