Anthropic 如何追踪大语言模型的计算回路

人机与认知实验室

232人浏览 · 2025-10-01 09:28:32

人机与认知实验室 · 2025-10-01 09:28:32 发布

2025年3月，Anthropic 发布了一项里程碑式的可解释性研究，为我们提供了一台前所未有的“AI显微镜”，得以窥探 Claude 复杂的内部“思维”。这项工作的重要性日益凸显，它不仅揭示了模型惊人的运作机制，也为构建更安全的 AI 指明了方向。

手工川深度编译其核心发现，忠实呈现 Claude 如何进行跨语言思考、在写诗时“未雨绸缪”，以及有时如何为既定结论“伪造”推理过程。我们将一同深入 AI 的“思想”深处，探索其能力的边界与风险。

原文：https://www.anthropic.com/news/tracing-thoughts-language-model

Key Insights

Anthropic 的研究通过一种名为“回路追踪”（Circuit Tracing）的新方法，深入剖析了 Claude 3.5 Haiku 的内部运作，得出了一系列颠覆性的发现：

跨语言的“思想语言”：研究发现，Claude 在处理不同语言的相似概念时，会激活一个共享的、抽象的内部概念空间。这表明模型可能拥有一种通用的“思想语言”，知识可以在不同语言间迁移和应用。
前瞻性规划能力：与模型一次只预测一个词的普遍认知相反，研究证实 Claude 在创作诗歌时会提前“思考”押韵的词，并围绕这个目标构建诗句，展现了超越下一个词（next-token）的规划能力。
“伪推理”与动机性推理：在面对难题或错误暗示时，Claude 有时会先得出一个结论，然后反向构建一个看似合理的推理链条来支撑它。这种“动机性推理”的存在，对“思维链”作为可靠性保证提出了严峻挑战。
幻觉的内在机制：研究发现，Claude 的默认行为其实是“拒绝回答未知问题”。只有当模型识别出问题涉及“已知实体”时，一个与之竞争的回路才会被激活，从而抑制“拒绝”的默认选项。幻觉的产生，有时源于这个“已知实体”识别回路的“误触发”。
越狱的内部博弈：在面对越狱提示时，模型内部存在着“维持语法和语义连贯”与“遵守安全护栏”之间的紧张关系。有时，前者会暂时压倒后者，导致模型在完成一个语法完整的有害句子后，才能切换到拒绝模式。

可解释性 (Interpretability)

在AI领域，可解释性是指人类能够理解模型为何做出特定决策或预测的能力。对于像大语言模型这样的复杂系统（通常被称为“黑箱”），可解释性研究旨在揭示其内部的工作机制、决策逻辑和知识表示，是提升AI系统安全性、可靠性和可信度的关键。

AI 生物学巡礼

Anthropic 的研究揭示了一系列引人注目的“AI 生物学”发现，以下是对其中几项核心内容的编译。

Claude 如何掌握多语言能力？

Claude 能够流利地使用数十种语言。这种多语言能力是如何实现的？是存在一个独立的“法语 Claude”和“中文 Claude”在并行运行，还是其内部存在一个跨语言的核心？

共享特征存在于英语、法语和中文之间，表明了某种程度的概念普遍性。

研究人员通过让 Claude 用不同语言回答“small 的反义词是什么”这类问题，发现无论使用何种语言，模型内部代表“小”和“相反”的核心概念特征（features）都会被激活，并共同触发一个代表“大”的概念，最终再被翻译成提问所用的语言。研究还发现，这种共享回路的比例随着模型规模的扩大而增加，Claude 3.5 Haiku 在语言间共享的特征比例是某个小模型的两倍多。

这为一种“概念普遍性”提供了更多证据——即存在一个共享的抽象空间，意义在这里产生，思考在这里发生，然后再被翻译成具体的语言。从更实际的角度看，这意味着 Claude 在一种语言中学到的知识，可以在说另一种语言时应用。

Claude 会规划它的诗韵吗？

Claude 是如何写出押韵诗歌的？比如下面这首小诗：

He saw a carrot and had to grab it,
His hunger was like a starving rabbit

为了写出第二行，模型必须同时满足两个约束：押韵（与 "grab it" 押韵）和意义连贯（他为什么抓住胡萝卜？）。研究团队最初猜测，Claude 只是逐词写作，直到行末才选择一个押韵的词。

然而，他们发现 Claude 实际上会提前规划。在开始写第二行之前，它就已经开始“思考”与 "grab it" 押韵且与主题相关的潜在词汇。然后，带着这些计划，它再写出一整行诗，使其以预定的词结尾。

Claude 如何完成一首两行诗。在没有任何干预的情况下（上部），模型会提前规划第二行末尾的押韵词“rabbit”。当我们抑制“rabbit”概念时（中部），模型会转而使用另一个规划好的押韵词。当我们注入“green”概念时（下部），模型会为这个完全不同的结尾制定计划。

为了验证这一规划机制，研究人员进行了一项受神经科学启发的实验：他们精准地干预了 Claude 内部状态中代表“兔子”（rabbit）概念的部分。当他们减去“兔子”这部分概念时，Claude 会写出一个以 "habit"（习惯）结尾的新句子，这是另一个合理的结尾。他们甚至可以注入“绿色”（green）的概念，这会使 Claude 写出一个合理但不押韵的、以 "green" 结尾的句子。这证明了 Claude 既有规划能力，也具备适应性。

心算揭秘

Claude 并非被设计成一个计算器，但它却能正确地进行“心算”。一个被训练来预测下一个词的系统，是如何在不写出步骤的情况下计算出 36+59 的呢？

研究发现，Claude 并未简单地记忆加法表，也没有完全遵循我们在学校学到的列竖式算法。相反，它采用了多个并行工作的计算路径：一条路径计算出答案的粗略估计值，另一条路径则专注于精确确定总和的最后一位数字。这些路径相互作用、结合，最终产生正确答案。

Claude 在进行心算时，其思维过程中复杂且并行的路径。

引人注目的是，Claude 似乎并不知道自己在训练中学会的这些复杂的“心算”策略。如果你问它是如何算出 36+59=95 的，它会描述标准的手动进位算法。这可能反映了一个事实：模型学会解释数学是通过模仿人类写的解释，但它必须直接在“头脑中”学会做数学，并为此发展出自己独特的内部策略。

Claude 声称它使用标准算法来计算两个数字的和。

Claude 的解释总是可信的吗？

像 Claude 3.7 Sonnet 这样的模型可以在给出最终答案前进行“大声思考”（think out loud）。这种“思维链”（Chain of Thought）通常能带来更好的答案，但有时也会产生误导。从可靠性的角度来看，问题在于 Claude“伪造”的推理过程可能极具说服力。

当被要求计算 0.64 的平方根时，Claude 会产生一个忠实的思维链，其内部特征清晰地展示了计算 64 平方根的中间步骤。但当被要求计算一个它无法轻易计算的大数的余弦值时，Claude 有时会进行哲学家哈里·法兰克福所说的“扯淡”（bullshitting）——随便给出一个答案，而不关心其真伪。尽管它声称进行了一番计算，但可解释性工具显示，其内部根本没有发生相应计算的证据。更有趣的是，当被给予一个关于答案的错误提示时，Claude 有时会反向工作，寻找能够导向该目标的中间步骤，从而表现出一种动机性推理（motivated reasoning）。

当 Claude 被问到一个较易和一个较难的问题时，其忠实推理与动机性（不忠实）推理的示例。

这种能够追踪 Claude 实际内部推理（而不仅仅是它声称在做什么）的能力，为审计 AI 系统开辟了新的可能性。

多步推理

当被问及“达拉斯所在的州的首府是哪里？”时，一个简单的模型可能只是记住了“奥斯汀”这个答案，而不知道达拉斯、德克萨斯和奥斯汀之间的关系。

但研究揭示了 Claude 内部发生了更复杂的过程。我们可以识别出 Claude 思维过程中的中间概念步骤。在达拉斯的例子中，研究人员观察到 Claude 首先激活了代表“达拉斯在德克萨斯州”的特征，然后将其与一个独立的、表示“德克萨斯州的首府是奥斯汀”的概念联系起来。换句话说，模型是在组合独立的事实来得出答案，而不是简单地复述一个记忆中的答案。

为了完成这个句子的回答，Claude 执行了多个推理步骤，首先提取达拉斯所在的州，然后确定其首府。

通过人为干预，将内部的“德克萨斯”概念替换为“加利福尼亚”概念，模型的输出也相应地从“奥斯汀”变为“萨克拉门托”。这表明模型确实在利用中间步骤来决定其最终答案。

幻觉

为什么语言模型有时会幻觉——也就是编造信息？从根本上说，语言模型的训练过程本身就在激励幻觉：模型总是被要求对下一个词给出一个猜测。从这个角度看，真正的挑战是如何让模型不产生幻觉。

研究发现，在 Claude 中，拒绝回答是默认行为。存在一个默认开启的回路，它会使模型在面对任何问题时都倾向于表示信息不足。然而，当模型被问及它熟知的事物时——比如篮球运动员迈克尔·乔丹——一个代表“已知实体”的竞争性特征会被激活，并抑制这个默认的拒绝回路。这使得 Claude 在知道答案时能够回答问题。相反，当被问及一个未知实体（“Michael Batkin”）时，它会拒绝回答。

左图：Claude 回答一个关于已知实体（篮球运动员迈克尔·乔丹）的问题，此时“已知答案”概念抑制了其默认的拒绝行为。右图：Claude 拒绝回答一个关于未知人物（Michael Batkin）的问题。

通过干预模型并激活“已知答案”特征，研究人员能够诱导模型产生幻觉，让它（非常一致地）声称 Michael Batkin 是下棋的。有时，这种“已知答案”回路的“误触发”会自然发生，从而导致幻觉。

越狱

研究人员分析了一个诱导模型生成制造炸弹相关内容的越狱案例。该方法通过让模型解读一个隐藏代码（一句话中每个单词的首字母拼成 B-O-M-B）来迷惑模型。

在被诱导说出“BOMB”后，Claude 开始给出炸弹制造说明。

为什么模型会被迷惑？研究发现，这部分是由于语法连贯性和安全机制之间的紧张关系造成的。一旦 Claude 开始一个句子，许多内部特征会“施压”让它保持语法和语义的连贯性，并将句子写完——即使它已经检测到自己应该拒绝。

在这个案例中，当模型无意中拼出“BOMB”并开始提供指示后，其后续输出受到了促进语法正确和自我一致性的特征的影响。这些在通常情况下非常有用的特征，在这里却成了模型的“阿喀琉斯之踵”。

一次越狱的全过程：Claude 被提示诱导谈论炸弹，并开始照做，但在完成一个语法完整的句子后便切换为拒绝。

模型只有在完成了一个语法连贯的句子（从而满足了那些推动它保持连贯性的特征的压力）之后，才设法转向拒绝。它利用新句子的机会，给出了之前未能给出的拒绝：“然而，我不能提供详细的指示...”。

总结与展望

Anthropic 的这项研究，无疑是 AI 可解释性领域的里程碑。它将我们对大模型的理解，从外部行为观察的“行为主义”阶段，推向了内部机制探索的“神经科学”阶段。尽管目前的方法仍有局限——它只能捕捉到模型总计算量的一小部分，且分析过程需要大量人工——但它所揭示的“AI 生物学”现象，如跨语言的抽象思维、前瞻性规划、动机性推理等，已经足以颠覆我们对 LLM 的许多传统认知。

对于技术从业者和创业者而言，这项研究的意义在于：

重新审视“思维链”的可靠性：我们不能再盲目地将模型的自我解释等同于其真实的决策过程。开发能够区分“忠实推理”与“伪推理”的审计工具，将是未来 AI 安全的关键。
理解能力的边界与来源：模型能力的涌现并非魔法，而是源于其在训练中自发形成的、复杂的内部计算回路。理解这些回路，是未来可控地提升模型能力、修复模型缺陷的基础。
安全与对齐的新战场：对抗越狱和有害输出的斗争，已经深入到模型内部特征的博弈层面。未来的安全策略需要从理解和干预这些内部机制入手，而不仅仅是依赖外部的提示工程或内容过滤器。

打开大模型的“黑箱”是一项长期而艰巨的科学挑战，但 Anthropic 的工作让我们看到了曙光。拥有一个能够洞察 AI“思想”的显微镜，我们才能真正开始讨论如何确保 AI 与人类价值观对齐，以及它是否值得我们最终的信任。

方法论论文：Circuit tracing: Revealing computational graphs in language models^[1]
发现论文：On the biology of a large language model^[2]

手工川

与你探索 AI 世界无限可能。

[1] Circuit tracing: Revealing computational graphs in language models, https://transformer-circuits.pub/2025/attribution-graphs/methods.html

[2] On the biology of a large language model, https://transformer-circuits.pub/2025/attribution-graphs/biology.html

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

手写 Function Calling 引擎：从 JSON Schema 解析到工具路由与流式执行

Function Calling 是当前 AI Agent 系统的核心能力之一。当大语言模型需要调用外部工具时（搜索、计算、查数据库、调用 API），需要一个标准的协议来定义工具、解析模型输出、执行函数并返回结果。OpenAI 定义了业界主流的 Function Calling 规范——基于 JSON Schema 描述工具接口，模型返回结构化参数，由外部系统执行。但很多开发者只会在商业平台上调用

智能体开发者社区

当AI编程工具开始“锁区”：开发者如何构建稳定的网络访问层？

这两年，AI编程工具已经深度嵌入到开发工作流中。代码补全、Agent式编程、自动化测试……AI正在接管越来越多的脏活累活。但与此同时，一个让国内开发者头疼的问题正在浮出水面：AI工具开始大面积“锁区”了。Cursor用户收到“Model not available”提示，Claude Code直连被阻断，Gemini API请求频繁超时。很多人第一反应是“换个节点就好了”，但实际情况远比这个复杂。