深度学习自然语言处理 出品
整理:喵小六

原文链接:https://www.anthropic.com/engineering/built-multi-agent-research-system

近日,Anthropic 发布了一篇重磅技术博客,详细介绍了他们如何从零构建一个多智能体支持的研究系统。

Claude 现已具备研究能力,能够跨网络、谷歌工作空间及任何集成应用进行搜索,以完成复杂任务。通过解析这个多智能体系统从原型到产品的历程,博客分享了 Anthropic 在系统架构、工具设计和提示工程方面的重要经验。

多智能体系统的优势

1. 研究类场景和多智能体

研究任务往往起始于模糊问题,随着信息的揭示逐步调整方向,本质上具有开放性和不可预测性,难以预设清晰路径或单一解决方案,因此模型在探索过程中必须具备高度的自主调整能力。多智能体系统通过任务分解、并行推理和关注点分离等机制,能够同时从多个角度对问题展开调查,从而更高效地完成信息压缩和洞察提炼,特别适合广度优先的探索需求。随着大模型能力提升,单一智能体在上下文处理、推理容量和路径灵活性方面日益受限,多智能体架构由此成为突破性能瓶颈的关键工具。

2. 多智能体合作的优势

多智能体系统通过将复杂问题分发给多个子智能体,使不同探索路径得以并行进行。例如,在调查一个企业的董事会构成时,系统可以让每个子智能体分别负责一家公司并独立搜索和验证结果,极大提升效率。子智能体之间通过各自的上下文窗口和工具调用进行“关注点分离”,减少相互干扰,最终由主智能体进行汇总和判断。这种模式模拟了现实中科研团队的协作方式,大幅提升了在信息广度和推理深度上的覆盖能力。

3. 更有效的令牌使用

多智能体系统能显著扩展模型在任务中的令牌使用上限,使得更大规模的信息输入、处理和推理成为可能。在内部评估中发现,仅令牌使用量一项就解释了80%以上的性能差异。例如,相较于单智能体顺序搜索标准普尔500公司董事会信息,多智能体系统通过并行操作显著提速并提高准确率。然而,这种能力以显著更高的资源成本为代价:多智能体平均消耗令牌是普通聊天交互的15倍。因此,其适用场景集中在信息密集、流程复杂、且任务价值足够高的领域,如法律调研、前沿科技研究或跨国情报整合等,而不适合对资源敏感或任务结构单一的场景(如简单代码生成或格式转换)。

研究架构概述

Anthropic 的研究系统采用了一种基于协调者 - 工作者模式的多智能体架构,其中一个主导智能体负责协调整个过程,同时将任务委派给并行运作的专业子智能体。

当用户提交查询时,主导智能体会对其进行分析,制定策略,并生成子智能体以同时探索不同方面。如上图所示,子智能体通过反复使用搜索工具收集信息(在本案例中是2025年的人工智能智能体公司相关信息),充当智能筛选器,然后将公司列表返回给主导智能体,以便其完成最终答案。

传统的基于检索增强生成(RAG)的方法采用静态检索。也就是说,它们获取与输入查询最相似的一些文本块,并使用这些文本块生成回复。相比之下,Anthropic 的架构采用多步搜索,能够动态地找到相关信息适应新发现,并分析结果以生成高质量的答案。

完整流程示意图解析👇

该流程示意图展示了多智能体研究系统的完整工作流程。当用户提交查询时,系统会创建一个首席研究员智能体,该智能体进入迭代研究过程。首席研究员首先思考研究方法,并将其计划保存到内存中以保留上下文,因为如果上下文窗口超过200,000个令牌,它将被截断,而保留计划非常重要。然后,它会创建具有特定研究任务的专门子智能体(此处显示了两个,但可以是任意数量)。每个子智能体独立进行网络搜索,使用交错思考评估工具结果,并将发现返回给首席研究员。首席研究员综合这些结果,决定是否需要更多研究——如果需要,它可以创建更多子智能体或改进其策略。一旦收集到足够的信息,系统就会退出研究循环,并将所有发现传递给引用智能体,该智能体处理文档和研究报告,以确定引用的具体位置。这确保所有主张都能正确追溯来源。最终的研究结果,包括引用,随后会返回给用户。

研究智能体的提示工程与评估

我们的提示策略侧重于灌输良好的启发式方法,而非僵化的规则。

多智能体系统相较于单智能体系统,核心差异在于协调复杂度的显著提升。早期智能体常出现诸如为简单查询生成过多子智能体(如50个)、在网络上无限搜索不存在的资源,以及彼此间更新干扰等问题。鉴于智能体行为由提示词驱动,提示词工程成为优化其表现的关键手段。Anthropic 总结出以下核心原则:

  1. 代入智能体视角: 要迭代优化提示词,必须理解其实际效果。为此,我们通过控制台构建了模拟环境——使用与生产系统完全一致的提示词和工具集,逐步观察代理的执行过程。这种方法即时暴露出三类问题:代理在已获得充分结果后仍继续执行、使用冗长低效的搜索查询、错误选择工具。高效的提示工程依赖于建立精准的代理心智模型,这能让最关键的系统改进方向变得一目了然。

  2. 强化协调器任务分配能力: 主导智能体负责分解查询为子任务并描述给子智能体。每个子任务描述必须包含明确目标、输出格式、工具/信息源指引及清晰边界。模糊指令(如早期仅要求“研究半导体短缺”)易导致重复工作、疏漏或信息获取失败。

  3. 按查询复杂度调配资源: 智能体难以判断任务所需投入,因此我们在提示词中嵌入明确规则:简单事实查询(1个智能体,3-10次工具调用)、直接比较(2-4个子智能体,各10-15次调用)、复杂研究(10+子智能体,职责明确划分)。这些规则指导主导智能体高效分配资源,避免在简单查询上过度投入——这是早期版本的常见问题。

  4. 工具设计与选择至关重要: 智能体与工具的交互界面与人机界面同等重要。选择正确工具是效率保障,有时甚至是必要条件;同时智能体可能遇到陌生工具,且其描述质量不一。我们提供明确启发式规则:检查可用工具、匹配用户意图、优先专用工具、必要时广泛外部搜索。工具描述若不清,易误导智能体,因此每个工具都需用途明确、描述清晰。

  5. 赋能智能体自我优化: Claude 4模型展现出卓越的提示工程能力。给定提示和失败模式,它能诊断原因并提出改进建议。我们甚至开发了工具测试智能体:面对有缺陷的MCP工具,它会尝试使用并重写描述以避免失败。通过数十次测试,该智能体能发现关键细节与漏洞。优化后的工具描述使后续智能体任务完成时间减少40%,避免了多数错误。

  6. 搜索策略——先广后深: 搜索应效仿人类专家:先探索全局再聚焦细节。智能体常默认冗长、具体的查询,导致结果稀少。我们通过提示引导其从简短、宽泛的查询开始,评估信息后逐步缩小范围。

  7. 引导结构化思考: 扩展思考模式为Claude提供可控的“草稿区”,输出更多思考过程。主导智能体借此规划方法、评估工具适用性、确定查询复杂度与子智能体数量、定义角色。测试表明,扩展思考显著提升了指令遵循、推理能力和效率。子智能体同样进行规划,并在获得工具结果后运用交错思考评估质量、识别缺口、优化后续查询,增强任务适应力。

  8. 并行化驱动性能跃升: 复杂研究天然涉及多源信息探索。早期顺序搜索极慢。我们引入两种并行化:(1) 主导智能体并行启动3-5个子智能体;(2) 子智能体并行调用3个及以上工具。此优化使复杂查询研究时间缩短高达90%,使“研究”功能能在数分钟内完成以往需数小时的工作,且覆盖信息更广。

我们注重建立一个具备可观测性和测试用例的快速迭代循环。

高效评估智能体的关键方法

1. 接受路径多样性,聚焦结果与过程合理性
多智能体系统的核心挑战在于:相同起点可能产生多种有效执行路径(例如:使用不同工具、检索不同数量信息源达成相同目标)。评估应放弃预设"正确步骤"的传统思路,转而关注:

  • 是否达成正确结果

  • 执行过程是否合理

2. 早期小样本快速启动评估

  • 开发初期微调往往带来显著效果跃升(如成功率30%→80%)

  • 无需等待大规模测试集:20个真实用例即可清晰观测改进效果

  • 避免陷入"必须构建数百测试用例"的拖延陷阱

3. 善用LLM-as-judge实现规模化评估
针对文本类复杂输出(研究结论等无标准答案场景),使用LLM分别评估以下维度:

评估维度

说明

事实准确性

主张是否匹配信源内容

引用准确性

来源是否支持对应主张

回答完备性

是否覆盖所有需求要点

信源质量

是否优先采用高质量原始资料

工具使用效率

工具选择及调用次数是否合理

  • 最佳实践:单次LLM调用输出0.0-1.0分制+通过/失败判定

  • 优势:在答案明确场景(如"列举研发预算前三药企")尤其高效,可扩展至数百输出评估

4. 人工评估不可或缺
自动化评估的盲区需人工补足:

  • 发现非常规查询的幻觉回答

  • 捕捉系统级故障

  • 识别隐蔽偏见(案例:早期系统倾向选择SEO优化的内容农场,忽视学术PDF等权威信源)

  • 解决方案:通过提示工程加入信源质量启发式规则

5. 应对涌现行为的特殊设计
多智能体系统会产生非预设的涌现行为

  • 主智能体微调可能引发子智能体行为剧变

  • 成功关键:理解交互模式而非个体行为

优化方向

  • 构建协作框架(明确定义:职责分工/解决路径/资源预算)

  • 核心要素:精准提示词设计、工具链优化、健壮启发式规则、深度可观测性、紧密反馈循环

实践参考:https://github.com/anthropics/anthropic-cookbook/tree/main/patterns/agents/prompts

生产可靠性与工程挑战

1. 状态化与错误传导
与传统软件不同,智能体系统的核心特征:

  • 长时状态保持:跨多轮工具调用的持续执行

  • 级联失效风险:微小错误可能引发行为剧变

▶️ 关键应对机制:

  • 断点续执行:故障后从中断状态恢复(避免全流程重启)

  • 智能容错体系

    • 主动向模型通报工具故障

    • 引导模型自主调整策略

    • 结合重试逻辑与定期检查点等确定性保障

2. 调试范式革新
智能体的非确定性运行特性(相同输入产生不同行为路径)导致常规调试失效:

传统困境

创新解决方案

用户反馈"遗漏明显信息"

部署全链路生产追踪系统

无法定位失败根源

监控决策模式+交互结构

  • 成效:精准诊断失败根因(如检索查询缺陷/信源选择失误/工具故障)

3. 灰度部署协同控制
智能体持续运行特性带来的部署挑战:

  • 核心矛盾:版本更新时,智能体可能处于任意执行阶段

  • 解决方案:彩虹部署(Rainbow Deployments)

    • 新旧版本并行运行

    • 流量渐进迁移(避免中断进行中的任务)

4. 同步执行瓶颈与异步演进
当前同步模式的局限:

  • 串行阻塞:主智能体需等待所有子智能体完成

  • 能力缺失

    • 主智能体无法动态引导子任务

    • 子智能体间缺乏协作

▶️ 异步化价值与挑战:

优势

风险

并行提升吞吐量

结果协调复杂性增加

支持动态创建子智能体

状态一致性维护难度上升

解除单点阻塞

错误跨节点传导加剧

随着任务复杂度提升,异步执行的性能收益将超越管理复杂度成本。

如今人们使用“研究”功能的最常见方式。主要用例类别包括跨专业领域开发软件系统(10%)、开发和优化专业技术内容(8%)、制定业务增长和创收策略(8%)、协助学术研究和教育材料开发(7%),以及研究和核实有关人员、地点或组织的信息(5%)。

结论

构建人工智能智能体的“最后一公里”往往是决定成败的关键:将开发者机器上的原型代码转变为可靠的生产系统,需要巨大的工程投入。

智能体系统中错误的复杂性被显著放大——传统软件中的小问题可能导致智能体彻底瘫痪,单个步骤的失败即可引发不可预测的路径偏离。正因如此,原型与生产环境之间的差距通常远超预期。然而,尽管挑战重重,多智能体系统在开放式研究任务中展现出不可替代的价值。用户反馈证实,Claude 帮助他们发掘了未曾预见的商业机遇、梳理了复杂的医疗决策、解决了棘手的技术漏洞,并通过揭示独自难以发现的研究关联,节省了数天的工作量。

最终,实现大规模可靠运行的多智能体研究系统,依赖于精心的设计、全面的测试、精细的提示工程与工具设计、稳健的操作实践,以及研究、产品和工程团队基于对当前智能体能力的深刻理解所进行的紧密协作。这些系统正在切实改变人们解决复杂问题的方式。


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

id:DLNLPer,记得备注呦

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐