在这里插入图片描述

📖标题:Demystifying Reasoning Dynamics with Mutual Information: Thinking Tokens are Information Peaks in LLM Reasoning
🌐来源:arXiv, 2506.02867

🌟摘要

大型推理模型(LRM)在复杂问题解决方面表现出了令人印象深刻的能力,但它们的内部推理机制仍然知之甚少。本文从信息论的角度研究了LRM的推理轨迹。通过跟踪LRM推理过程中中间表示和正确答案之间的互信息(MI)如何演变,我们观察到一个有趣的MI峰值现象:特定生成步骤的MI在LRM的推理过程中突然显著增加。我们从理论上分析了这种现象,并表明随着MI的增加,模型预测误差的概率降低。此外,这些MI峰值通常对应于表示反射或转换的标记,如“嗯”、“等待”和“因此”,我们称之为思维标记。然后,我们证明这些思维令牌对LRM的推理性能至关重要,而其他令牌的影响最小。在这些分析的基础上,我们提出了两种简单而有效的方法,通过巧妙地利用这些思维标记来提高LRM的推理性能。总的来说,我们的工作为LRM的推理机制提供了新的见解,并提供了提高其推理能力的实用方法。代码在https://github.com/ChnQ/MI-Peaks.

🛎️文章简介

🔸研究问题:如何分析大语言模型(LLM)在推理过程中动态生成的思维过程,并识别对推理结果产生重大影响的关键环节?
🔸主要贡献:论文揭示了在LLM推理过程中存在的互信息峰值现象,并提出了两种简单有效的方法来提升模型的推理性能。

📝重点思路

🔸本文采用信息论的视角,通过计算推理过程中的互信息(MI)变化来研究LLM的推理动态。
🔸识别出在推理过程中出现的“思维标记”即高互信息峰值对应的激活token,这些标记在推理中起关键作用。
🔸提出“表征回收”(Representation Recycling,RR)技术,以多次重复使用MI峰值处的表征,从而提升模型对信息的利用。
🔸提出“基于思维标记的测试时间扩展”(Thinking Token based Test-time Scaling,TTTS),在推理过程中优先考虑思维标记以改善推理性能。

🔎分析总结

🔸通过实验发现,MI峰值虽稀疏分布,但在推理的关键步骤中这些峰值与模型的最终推理能力密切相关。
🔸Suppressing thinking tokens显著降低了模型的推理性能,而抑制其他token则几乎没有影响,这表明思维标记在推理过程中具有重要作用。
🔸RR方法在多个基准测试中一致提高了LLMs的推理性能,尤其是在AIME24等困难问题上表现突出。
🔸TTTS方法在增加token预算时,通过强调思维标记的作用,使得模型推理性能持续改善。

💡个人观点

论文的创新点在于通过信息论的方式揭示了LLM推理过程中的关键信息传递环节,通过复用这些token中的高互信息,提升模型对信息的利用以改善推理性能。

🧩附录

在这里插入图片描述
在这里插入图片描述

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐