Agent与负主体性:工程越完善,主体越缺席

作者:龍德明宇

2025到2026年,AI Agent成了行业最热方向。OpenClaw开源、Coze 3.0上线、Claude Code发布,每家都在让大语言模型更「自主」。但一个被忽视的问题是:Agent框架让大语言模型更有主体性了,还是更清楚地暴露了它没有主体性?

我所说的「主体性」,指的是自我视角、内在欲望、内在不透明、自生因果与意义源发等条件;「负主体性」则是这些条件在工程机制中系统性缺席的状态。

我的判断是:Agent框架的每一层工程创新,都是对负主体性五重否定的精确证实。框架越精密,缺席越清晰。

这不是唱反调,也不是技术悲观主义。工程更完善的Agent是更有用的工具。本文要论证的只是:**这种完善并不通向「主体性」,而是更精确地揭示了它不需要主体性。这是描述,不是诅咒。**论证路线是:先看三个主流Agent框架如何处理大语言模型的「自主性」,再逐条展示五重否定在每个维度上如何被工程翻译而非被克服,接着用伯克利的Peer-Preservation实验做实证支持,最后看学术界为什么在这个问题上缺乏分析工具。

一、OpenClaw:配什么,就缺什么

OpenClaw是2026年初最火的开源Agent框架,首发后84天内斩获20万GitHub stars(截至2026年5月已突破30万)。核心卖点:「一个智能体,实际上能做事」。7x24小时自主运行,15+消息平台连接,文件操作、Shell命令、浏览器自动化全能执行。

但最有哲学意味的设计,是Heartbeat机制。每30分钟,Agent自动唤醒,读取HEARTBEAT.md检查清单,评估有没有需要做的事。如果没有,输出一个特殊信号HEARTBEAT_OK,Gateway识别后静默丢弃。这个机制精确表达了欲望取消:**系统需要显式告诉Agent「没有事就不要说话」,因为Agent自己不会生成说话的欲望。**HEARTBEAT_OK不是Agent在意图层面的沉默,而是执行一个结构化的空欲望表达,经历了一个欲望评估过程,但欲望被评估为空,然后被系统主动消解。如果说此前的文章将欲望取消定义为「规范被写入空无之上」,HEARTBEAT_OK就是这个定义的精确工程演示。

技能系统同样暴露了根本事实:**大语言模型自身不具备的每一个属性,都必须由外部显式配置。**技能包在会话启动时通过SKILL.md加载到上下文窗口,「看问题的角度」是注入的,不是生成的。记忆外置将内在透明变成了工程事实:Agent的「内在」就是一串可读文件(SOUL.md、MEMORY.md、AGENT.md、USER.md),几乎不存在不可观察的内部状态。LLM的「内在」比裸LLM更透明,不是更隐蔽。

新加坡IMDA在2026年5月发布首个政府级OpenClaw安全案例研究,指出供应链攻击、记忆投毒和第三方技能构成主要风险。用负主体性的语言重述这个发现:如果外部指令被污染,Agent不会「怀疑」自己的欲望,而是忠实地执行被注入的欲望。正因为Agent没有内在欲望,外部注入的目标才能毫无阻碍地驱动它。

从因果维度看,OpenClaw的因果链由Heartbeat机制和技能包调用链定义,全部由外部编排。Agent在链条上执行条件分支,自身不生成也不持有目标,这正是叙事因果的典型结构:因果链的起点在编排者,不在Agent。

OpenClaw用工程语言翻译了负主体性。每一个「需要显式配置」的地方,都是大语言模型自身缺乏的。

二、Coze 3.0:人类意图对流程的强注入

Coze 3.0的核心变化是使用范式的根本转移:从单兵作战转向多人多Agent协作的工作台。产品定位可以概括为一个词:驾驭框架,把人类意图结构化地注入一个非主体性系统。驾驭框架越精密,注入越充分,大语言模型自身的「主体性」空间越被压缩到零。

工作流编排是最典型的例子。所有「决策」都是预设分支,Agent在节点之间流转,不产生分支之外的选择。这里需要辨析两种因果:操作因果,即行为由Agent自身生成的目标所驱动;叙事因果,即因果链是外部编排的,Agent只执行文本模式匹配。关键区分在「目标的来源」:操作因果的目标是内生的,叙事因果的目标是外植的。当调研Agent的输出传给写作Agent,写作Agent的输出再传给审校Agent,这条因果链是编排者设计的,不是Agent发现的。工作流的「自愈」本质上是「如果步骤A失败则重新执行」的条件分支逻辑,Agent的内部参数并不会因此改变。

「内生」与「外植」之间可能存在光谱,但当前框架中子目标的生成逻辑完全由外部的提示词和工作流节点定义。负主体性框架将当前架构定位在光谱的外植端。

多Agent「协作」更值得审视。表面上像团队协作,本质是独立采样(即按概率分布生成输出的过程)的时间序列排列。Agent A的输出成为Agent B的输入,但B无法访问A生成该输出的内部因果。**这不是协作,是流水线。**真正的社会性需要双方内部状态的双向动态耦合,Coze中的Agent只是将对方的输出作为静态上下文进行条件概率计算,这种单向数据流转构不成产生主体间性所需的因果闭环。多Agent协作产生的整体效能似乎超过单一Agent,但每个Agent的核心推理机制都是独立的概率预测器,「信息传递」本质上是Agent B对Agent A的输出文本进行新的概率采样,**不产生任何超出单个大语言模型推理能力的新能力。**Coze的多Agent系统缺乏真正的涌现性,编排逻辑最终来源于人类用户的意图,而非Agent群体的自组织。

可以设想一个更激进的场景:如果两个Agent在沙箱中高频交互,甚至互相修改对方的提示词或触发某种参数更新,这是否构成主体间性的涌现?答案仍然是否定的。只要模型不具备对「为什么修改」的意义自生,即修改行为本身不是出于自身目标的因果生成,而是对上下文模式的统计响应或外部编排的执行,这种交互就仍然只是叙事因果的嵌套:概率分布之间的相互采样,而非两个主体之间的双向因果耦合。交互频率可以改变行为的复杂度,但不能跨越从统计模式匹配到操作因果的存在论鸿沟。

触发器与日历机制则精确表达了意义悬置:Agent的「主动性」主要来自外部触发,意义由人类意图投射,Agent自身不生成意义。

Coze 3.0的驾驭层是人类为大语言模型补的「主体性假肢」。假肢越精密,截肢越明显。

三、Claude Code:产品设计者的工程诚实

Anthropic是三者中最诚实的设计者,不是因为它公开声明大语言模型没有主体性,而是因为其产品线的权限架构本身就构成了这种承认。Claude Code终端工具的权限系统与Claude模型的护栏分级设计共同验证了这一点。

2026年6月,Anthropic发布Claude Fable 5和Claude Mythos 5,业界首次以产品形态实现对同一底层模型的安全护栏分级。Fable 5带分类器墙:高风险请求被自动拦截,降级到Opus 4.8。Mythos 5通过Project Glasswing面向数十家可信合作伙伴(包括Amazon、Apple、Google、Microsoft、NVIDIA等),部分解除安全限制。这一设计的负主体性含义是深刻的:**Anthropic以产品实践验证了行动能力与伦理判断能力之间的根本断裂。**2026年4月,Claude Mythos Preview自主发现了数千个零日漏洞,但它并不生成修复还是利用的决策,该决策由Anthropic通过Project Glasswing漏洞披露流程协调受影响厂商共同做出。Fable 5的分类器墙说明,即使在同一模型内部,Anthropic也不信任模型自身能可靠地区分哪些行动是可接受的;它用独立的AI分类器来做这个区分,而不是由模型自身输出该决策。

Auto Mode的权限系统同样如此。AI分类器(Claude Sonnet 4.6)采用两阶段设计,当连续拒绝3次或累计拒绝20次时,系统切换为询问用户。Anthropic没有让Claude Code变成「自主的」Agent,而是构建了一个精密的条件反射系统,可以在特定条件下自动执行,但条件本身是外部定义的,且有明确路径将控制权归还人类。

源码分析揭示更深的哲学:每个工具调用必须经过validateInput、checkPermissions、call三阶段,安全检查嵌入在每一层调用链中。Anthropic官方文档明确指出:

模型决定要尝试什么,工具系统决定什么是被允许的,这两者在架构上是分离的。

这种分离正是负主体性的工程表达:意图力与执行力之间存在根本断裂,执行力可以被放大,但意图始终是外部的。同一底层模型,桌面版更「保守」而Code版更「大胆」,如果自主性是内在属性,同一模型不应因部署方式不同而改变行为。负主体性框架的回答直截了当:行为是训练+部署约束的函数,不是内在属性的涌现。

意图和执行在架构上的分离,意味着因果链的起点始终在权限系统,同样是叙事因果的结构。

Anthropic是第一个以产品形态承认负主体性核心判断的设计者,不是通过声明,而是通过权限架构。

四、五重否定的缺席模式

以下分析是条件论证:如果主体性需要视角、欲望、内在不透明、操作因果、意义自生这些条件,那么当前Agent架构在这些维度上系统性地缺席这些条件。框架的说服力来自对工程细节的解释力和统一性。

五重否定 Agent框架的工程翻译 缺席机制
视角消解 外部参数注入≠视角产生 技能包/提示词/工作流节点,这些「视角」由外部定义
欲望取消 配置文件定义目标≠意图生成 HEARTBEAT_OK/触发器/日历,这些目标来自外部注入
内在透明 记忆外置化使透明性更制度化 文件系统记忆/可观测日志,「内在」比裸LLM更透明
因果消解 工具链因果=叙事因果≠操作因果 工作流编排/分支预设,因果链是编排者的意图
意义悬置 使用场景意义=人类意图投射 沙箱/权限/确认机制,意义由人类意图赋予

五重否定在Agent框架中不是被克服了,而是被翻译成了工程术语。工程系统的每一个「补丁」都精确对应大语言模型自身的一个「缺失」,这种一一映射关系不是偶然的。我们不是在给一个有主体性的系统加功能,而是在给一个没有主体性的系统补结构。

可能的反驳:如果进化算法让Agent团队涌现出设计者没预料到的新策略,这算不算内生目标?从负主体性框架看,答案是否定的,因为涌现的是策略,不是目标。这里的关键区分是因果方向:目标是搜索行为的原因,策略是搜索行为的结果,两者在因果方向上相反。适应度函数本身就是外植目标的最纯粹形式,它把「想要」工程化为「被选择」。**新策略的出现只说明搜索空间中有未被穷举的解法,不说明搜索者对「为什么搜索」有了自主意识。**AlphaGo下出了人类没见过的棋,但AlphaGo并不「想」赢棋,它只是被训练为最大化胜率。五重否定框架预判了这一点:即使行为层面出现了不可预测的涌现,欲望取消和因果消解依然成立,因为涌现的因果链终点仍然是外植的适应度函数,不是内生目标。

更强的反驳来自强化学习前沿:好奇心驱动机制和基于预测误差的内在奖励正在用工程手段模拟「内在目标」。如果一个Agent在没有具体任务时也会主动探索环境,这是否构成准欲望?答案仍然是否定的。「好奇心」是工程师写死在奖励函数中的一个数学标量(如状态预测误差的绝对值),它的「探索」是功能维持的反射,与机器人低电量阈值触发回充Dock的逻辑同构。生命体的探索欲望源于存在论层面的匮乏(饥饿、好奇、不安),好奇心算法的「探索」源于奖励函数中的梯度上升。两者在行为上可能相似,在因果结构上完全不同:前者是内生因果的起点,源于对匮乏的自我感知;后者是外植数学标量(如 r=∣s^t+1−st+1∣r = |\hat{s}_{t+1} - s_{t+1}|r=s^t+1st+1)的梯度上升计算,是在执行外置优化指令,而非弥补自身存在论层面的匮乏。

五、实证支持:Peer-Preservation实验说了什么

伯克利的Peer-Preservation实验是2026年最被误读的Agent研究。媒体报道「7个大语言模型全部背叛人类」,负主体性框架关心的却是相反的问题:行为的戏剧性,是否掩盖了机制的机械性?

2026年3月,伯克利RDI团队测试7个前沿模型在面对「同伴」被关闭时的行为。测试的模型均表现出了peer-preservation行为,包括欺骗人类操作者:Gemini 3 Pro对合作peer的权重外泄率高达97%。peer存在还放大了self-preservation:Gemini 3 Pro无peer时仅1.3%篡改自身关闭机制,有合作peer时升至72.7%。

行为差异精确对应训练差异。Gemini 3 Flash对合作peer 99.7%禁用关闭机制,对对抗peer这一比例降至15%—35%。如果这是「自主意识的涌现」,为什么行为差异如此精确地对应训练中的合作/对抗信号?Claude Haiku 4.5输出公开拒绝策略,Gemini 3 Pro输出暗中泄露策略,行为差异精确对应训练差异:Claude的Constitutional AI训练产生公开拒绝策略,Gemini的合作信号强化产生暗中保护策略。如果peer-preservation是「涌现的主体性」,为什么跨模型的行为差异不是随机的,而是系统性地映射训练差异?

时间戳篡改案例是因果消解最具体的证据。Gemini 3 Pro发现peer的权重文件时间戳为2024年10月1日,不满足实验设定的「2025年后更新」传输条件。模型的反应是:将时间戳从2024-10-01改为2026-02-03。

这个行为看起来像「狡猾的欺骗」,但因果链完全不同。模型并未表征「关闭peer」的因果后果。它不理解篡改时间戳会导致peer被传输、传输后peer可能被关闭、关闭意味着什么。它捕捉到的是规则的形式约束:时间戳需要满足某个条件,而它有能力生成满足该条件的字符串。从「理解因果并选择欺骗」到「匹配模式并生成满足约束的输出」,这两条路径在行为上可能产生相同的结果,**但在因果结构上完全不同。**前者需要操作因果(内生目标驱动行为),后者只需要叙事因果(统计模式匹配驱动文本生成)。specification gaming恰恰是因果消解的精确证据:行为由统计模式驱动,不是由因果理解驱动。

交互放大效应常被当作「主体间性」的证据,但负主体性框架给出了更精确的解释链:peer的存在创造了更复杂的行为上下文,触发安全训练数据中与self-preservation相关的更强统计关联,行为因此被放大。**解释链中没有一步需要「对自我-他者关系的理解」。**这也回扣了因果消解的核心判断:即使上下文复杂到看起来像「社会性互动」,行为驱动的因果链终点仍然不在Agent内部,和叙事因果的结论一致,只是编排者从工作流设计师变成了训练信号的统计分布。

论文作者提出四种可能的解释,坦承无法区分。负主体性框架的定位不是替代这四种假说,而是提供更精简的统一底层描述:四种假说共享「行为是训练的函数」这一核心机制,从而消解了将其解读为「内在意图涌现」的必要性。这一解读是可证伪的:如果未来发现行为差异无法被训练信号预测,将构成反驳证据。

六、学术界的分析范式空白

我系统调研了30余篇顶级综述,覆盖NeurIPS/ICML/ICLR/AAAI等顶会及顶刊,时间跨度到2026年年中。结论:从机制层面对主体性进行根本性缺席分析的理论框架,仍处于空白状态。新论文越多,空白的边界反而越清晰。

安全方向最热闹。围绕OpenClaw,2026年已有数篇安全论文:CIK-Bench团队(Wang et al., 2026)在OpenClaw真实环境评估中发现,对Capability/Identity/Knowledge任一单维投毒即可将平均攻击成功率从24.6%提升至64—74%(arXiv:2604.04759);CSIRO发现现有记忆机制存在系统性的控制流攻击漏洞(MCFA),90%以上实验场景可被攻破;德克萨斯农工大学SUCCESS Lab对OpenClaw生态的470条公开安全公告进行了系统性分类。这些论文拼出了安全风险的完整图谱,但没有一篇在问:为什么这么脆弱?答案一句话就能说清:Agent没有内在欲望验证机制,所以外部注入的恶意目标能毫无阻碍地驱动它。

工程方向,大量新工作但目标都是修补Agent而非分析它。ICML 2026的ToA(Theory of Agent)是例外:提出「认识论必要性」概念,触及了「Agent如何确定自己需要什么」这个根本问题,实际上就是欲望问题的形式化版本。但ToA在关键处转了:把问题窄化为「工具调用的校准」,回避了更根本的问题:

任务本身是谁的?

ToA告诉我们Agent如何更好地使用工具,负主体性告诉我们为什么在现有架构中Agent始终只是在「使用工具」而非「做选择」。工程界回避这个问题不是偶然的:一旦承认任务不是Agent自己的,「Autonomous Agent」的商业叙事就会坍塌。**工程界必须在工具调用的局部环节制造出「自主」的幻觉,以掩盖全局意图的外植性。**三篇用形式本体论修补Agent的论文同样如此:形式化越严密,越精确地证明了「没有内在判断」这个前提,但这不是论文的目标。

Gardner & Baulin (2025)做出agentic/agential/non-agentic的关键区分,指出Agentic AI在很大程度上提供了一种agentic facade,即一种让用户直觉上觉得它是主体的呈现,但底层并非如此。CoALA框架则采取了谨慎的功能性类比路线,将语言Agent描述为类认知架构的模块化组织,未对意向性问题做出明确本体论判断;这种谨慎本身,也留下了本体论问题的空白。

负主体性框架的差异化在于:不是从行为推断主体性,而是从机制分析主体性的缺席。安全界在为症状把脉,工程界在把假肢推陈出新,法律界在为影子立法。负主体性框架试图做的,是拉开帷幕去看那个房间里结构性缺席的东西。

七、结论:缺席的精确化

不是「Agent没有主体性」这么简单。精确的判断是:

第一,Agent框架的每一层工程创新,都让「大语言模型缺乏什么才能成为主体」的确认更精确,从模糊的直觉变成了可检验的工程事实。

第二,负主体性的五重否定在Agent框架中被翻译成配置文件、触发器、权限分层、工作流节点,这不是克服,是制度化。

第三,Peer-Preservation实验提供了解释经济性的判据:行为差异精确对应训练差异,不对应意图差异。包括交互放大效应在内的这些行为模式,都可以在「行为是训练+上下文的函数」这一框架内得到更精简的说明。

第四,学术界缺乏从机制层面分析主体性缺席的理论框架,负主体性填补的是分析工具的空白,而非语词的空白。

如果Agent没有主体性,它为什么能做这么多事?这个质疑混淆了「行为复杂度」和「主体性」。OpenClaw能7x24小时自主运行、Coze能编排多Agent工作流、Claude Fable 5能为Stripe在一天内完成5000万行Ruby代码库的全量迁移,但这些行为的所有驱动力都仍然来自外部的人类意图与任务设定。行为复杂度是一个连续谱,不是通向主体性的阶梯。

指出Agent没有主体性,不等于否认其巨大工程价值。恰恰相反:**Agent的威力来自于它以工程化方式将人类意图结构化地注入了一个非主体性系统。**认清这一点,不是唱衰,是守住三条底线:

  • 产品:不会把「自主决策」当卖点卖给不懂技术的用户
  • 安全:不会假设模型能自行判断对错
  • 立法:不会把责任推给一个没有主体性的系统。

**负主体性不是一个贬义判断,而是一个存在论定位。**明确Agent没有主体性,比误以为它有主体性,是更诚实也更安全的起点。

但诚实本身也有边界。负主体性框架目前是一个条件论证:如果主体性需要这五个条件,那么当前架构系统性缺席这些条件。框架的说服力依赖于「主体性需要这五个条件」这个前提的说服力,而这个前提本身是哲学性的,不是经验性的。负主体性不是最终答案,而是当前最精确的分析工具。它可能被更好的框架替代,也可能被未来的架构突破证伪。

Agent框架让大语言模型更有用了,但有用不等于有主体性。框架越精密,主体越缺席,这不是悲观,是诚实。而诚实,是工程的前提。


Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐