近日,一项名为“Deep Think with Confidence”(DeepConf)的研究成果在学术界引起了广泛关注。该研究提出了一种简单而强大的方法,能够在测试阶段显著提升大语言模型(LLMs)的推理效率和性能。DeepConf通过利用模型内部的置信度信号,动态过滤低质量的推理轨迹,从而在不增加额外模型训练或超参数调整的情况下,有效减少生成的token数量,同时提高推理的准确性。论文地址:https://arxiv.org/abs/2508.15260

一、研究背景与挑战

大语言模型在推理任务中展现出了巨大潜力,但现有的测试时扩展方法,如自我一致性(self-consistency)和多数投票,往往存在准确率提升有限和计算开销大的问题。例如,在AIME 2025基准测试中,使用Qwen3-8B模型,将pass@1准确率从68%提高到82%,需要为每个问题额外生成511条推理轨迹,消耗1亿个额外的token。此外,随着轨迹数量的增加,性能提升逐渐趋于平缓甚至下降。

二、DeepConf方法介绍

DeepConf的核心在于结合了并行思考和基于置信度的过滤。该方法在离线和在线两种模式下运行,能够在推理过程中或之后识别并丢弃低置信度的推理轨迹。具体来说,DeepConf引入了几种新的置信度测量方式,包括组置信度(Group Confidence)、底部10%组置信度(Bottom 10% Group Confidence)和尾部置信度(Tail Confidence)。这些测量方式能够更细致地评估推理轨迹的质量,从而更有效地过滤掉低质量的轨迹。 在离线模式下,DeepConf通过置信度加权多数投票和置信度过滤来提高推理性能。而在在线模式下,DeepConf则通过实时评估置信度来动态终止低质量的推理轨迹,从而在保持或提高准确率的同时显著减少生成的token数量。

三、实验结果与分析

研究人员在多个推理基准测试和最新的开源模型上对DeepConf进行了评估,包括Qwen 3和GPT-OSS系列。实验结果表明,DeepConf在离线模式下,使用GPT-OSS-120B模型在AIME 2025基准测试中达到了99.9%的准确率,相比标准多数投票方法提高了2.9个百分点。在在线模式下,DeepConf能够将生成的token数量减少多达84.7%,同时保持或超过标准并行思考的准确率。 例如,在AIME 2025基准测试中,DeepConf@512在GPT-OSS-120B模型上实现了99.9%的准确率,而标准多数投票方法的准确率为97.0%。在BRUMO25基准测试中,DeepConf在Qwen3-32B模型上实现了93.3%的准确率,与标准多数投票方法相当。这些结果表明,DeepConf在不同的模型和数据集上都能取得显著的性能提升。

四、未来工作方向

尽管DeepConf已经取得了显著的成果,但研究人员指出,未来仍有改进空间。例如,可以将DeepConf扩展到强化学习环境中,利用置信度信号指导策略探索,提高训练过程中的样本效率。此外,还需要进一步研究如何解决模型在错误推理路径上表现出高置信度的问题。

AD:精心整理了2000+好用的AI工具!点此获取

0个人收藏 收藏

评论交流