李乔木
计算与软件工程学院
肯尼索州立大学
玛丽埃塔,GA 30060,美国
qli12@students.kennesaw.edu

谢颖
计算与软件工程学院
肯尼索州立大学
玛丽埃塔,GA 30060,美国
yxie2@kennesaw.edu

摘要

人工智能正在迅速向多代理系统发展,其中众多AI代理相互协作并与外部工具互动。两个关键的开放标准——谷歌的代理到代理(A2A)协议用于代理间通信,以及Anthropic的模型上下文协议(MCP)用于标准化工具访问——有望克服碎片化、自定义集成方法的局限性。尽管它们的潜在协同效应显著,但本文认为,有效集成A2A和MCP在它们的交集处带来了独特的、新兴的挑战,特别是在代理任务与工具能力之间的语义互操作性、因发现和执行结合而产生的复合安全风险,以及设想中的“代理经济”所需的实用治理方面。本研究提供了一项批判性分析,超越了调查,评估了结合这些水平和垂直集成标准的实际影响和固有困难。我们考察了其好处(例如,专业化、可扩展性),同时批判性地评估了它们在集成背景下的依赖关系和权衡。我们确定了由集成增加的关键挑战,包括新的安全漏洞、隐私复杂性、跨协议调试困难以及对强大语义协商机制的需求。总之,A2A+MCP提供了一个重要的架构基础,但要充分实现其潜力,需要实质性的进展来管理它们联合运行的复杂性。

1. 引言与动机

人工智能(AI)的发展轨迹越来越指向复杂的交互式、专业化的代理生态系统[24, 33]。这些多代理系统(MAS)承诺增强能力,但在协调、通信、与多样化外部工具和数据源的互动、知识组织和整合专业知识方面面临根本性挑战[15, 27]。历史上,集成异构代理和工具需要定制的、脆弱的“胶合代码”,阻碍了可扩展和稳健系统的开发[10]。
为了解决这些瓶颈,出现了两个突出的开放标准:Anthropic的模型上下文协议(MCP)标准化了代理与其环境(工具、数据)之间的“垂直”交互,而谷歌的代理到代理(A2A)协议则标准化了代理之间的“水平”通信和协作[1, 2, 5, 6]。MCP提供了一个通用的工具访问接口,减少了工具的M×N\mathrm{M} \times \mathrm{N}M×N集成问题[42]。A2A提供了一个框架,用于代理发现、任务委派和安全的代理间通信,提供了现代替代传统通常语义僵硬的代理通信语言(ACLs)[16]。利用专门代理和协调机制的多代理架构被提议作为解决独立LLMs局限性的解决方案[17, 43]。

虽然这些协议明确设计为互补,但它们的有效集成并非自动。本文提供了一项批判性分析,专注于A2A和MCP组合所带来的协同效应和困难。我们的核心论点是,尽管集成这些标准提供了巨大的潜在利益,但也引入了必须解决的独特、新兴挑战,以实现无缝、可扩展的代理系统。我们贡献的新颖性在于超越了对个别协议的调查,批判性地评估了水平(A2A)和垂直(MCP)集成交叉点的实际效果、架构权衡和具体风险。

我们分析了像专业化这样的好处如何受到A2A任务与MCP工具之间需要语义对齐的影响。我们检查了当A2A的代理发现与MCP的工具执行能力结合时,安全风险如何增长。我们评估了“A2A/MCP互动的代理经济”的可行性。

本分析按以下顺序进行:第2节回顾了A2A和MCP的核心组件。第3节提出了一个集成效益分类法,并在集成背景下批判性地评估了其实现。第4节讨论了架构集成模式,突出了接口处的潜在困难。第5节从批判的角度分析了经济影响和“代理经济”概念。第6节深入探讨了由集成特定增加或创建的风险和挑战。第7节概述了未来的研究方向,以克服这些集成特定的障碍。图1提供了概念性概述。
img-0.jpeg

图1. 多代理工作流与A2A+MCPA 2 A+M C PA2A+MCP

2. 背景:协议组件

基于LLM的代理的出现推动了对标准化交互机制如A2A和MCP的需求。为LLM配备外部工具现在是一个关键范例 [34, 40,41]40,41]40,41]

2.1 谷歌的A2A协议:实现代理协作

Agent-to-Agent(A2A)协议是由谷歌引入的一个开放标准,旨在使不同框架和供应商的AI代理能够直接通信和互操作[1]。其核心目的是让代理以结构化的方式协调行动和共享信息,而不是仅仅将其他代理视为工具或静态API端点。A2A定义了代理之间的客户端-服务器风格交互:客户端代理制定任务和请求,远程代理根据这些任务采取行动并返回结果或执行操作。重要的是,任何代理都可以根据上下文扮演客户端或服务器的角色。A2A的关键组件和功能包括:

  • 核心设计原则:A2A基于接受代理能力(识别代理为自主实体)、利用现有网络标准(HTTP、JSON-RPC 2.0、SSE)以简化采用、默认安全(企业级身份验证/授权)、支持长时间运行的异步任务以及模态无关(处理文本、文件、流、JSON等)的原则构建。"不透明执行"的概念允许代理基于公开的能力进行协作,而无需内部实现细节。
    • 代理发现(Agent Cards):A2A提供了一种机制,让代理以标准化格式(称为Agent Card)发布其能力。通常托管在/.well-known/agent.json URL上,此JSON文档描述了代理的名称、描述、端点URL、提供商信息、版本、认证要求(类似于OpenAPI方案)、支持的模态(MIME类型)和特定技能[1, 6]。每个技能包括ID、名称、描述、标签、可选示例和技能特定的输入/输出模式。这使得客户端代理可以发现哪个远程代理最适合给定任务,可能查询注册表或市场。确保此发现过程的安全性和可靠性本身就是一个挑战[21,28][21,28][21,28]
  • 任务和任务生命周期:基本的工作单位是一个Task对象,由客户端(例如通过tasks/send)发起[1, 6]。每个任务都有一个唯一ID,并封装了一个请求(包括参数、所需技能等)。它通过由远程代理管理的定义生命周期进行状态转换,具有提交、进行中、需要输入、完成、失败、取消和未知等状态。任务促进消息的交换和工件的生成。Task对象包含字段如id、skillId、state、可选sessionId、初始消息和可选通知配置。
    • 消息和部件:任务内的通信通过Message对象进行。每条消息都有一个角色(用户或代理),并包含一个或多个Part对象代表内容[1,6][1,6][1,6]。部件是基本的内容单元,可以有不同的MIME类型,支持丰富的多模态通信(例如TextPart、FilePart用于二进制数据/URIs、DataPart用于结构化的JSON)。
    • 工件:远程代理在任务执行期间生成的不可变输出或结果表示为Artifact对象[1, 6]。一个任务可以产生多个工件(例如代码和文档)。工件包含Part对象,并包括字段如name、description、parts、metadata和用于排序的index。可选的append和lastChunk标志支持流式更新。
    • 通信协议(JSON-RPC & SSE):A2A使用HTTP(S)上的JSON-RPC 2.0进行远程过程调用。关键方法包括tasks/send(启动任务)、tasks/sendSubscribe(通过SSE启动并订阅)、tasks/get(检索任务状态)、tasks/cancel(请求取消)以及用于管理推送通知的方法(tasks/pushNotification/set、tasks/pushNotification/get)。
    • 长时间运行的任务和流式更新:A2A显式支持通过异步处理长时间运行的过程。客户端通常使用tasks/sendSubscribe。服务器立即响应并建立持久的Server-Sent Events(SSE)连接(Content-Type: text/event-stream),以推送事件发生时的更新(例如TaskStatusUpdateEvent、TaskArtifactUpdateEvent)。对于断开连接的客户端,也支持基于Webhook的推送通知。
    • UX协商:代理可以在其Agent Card中宣传支持的输入/输出模式,并使用多部分消息以各种格式提供内容,允许客户端选择最适合其UI或能力的最佳表示形式。
  • img-1.jpeg
    图2. A2A的工作流程
    A2A 示例:考虑一个招聘场景。“招聘经理代理”需要填补一个软件工程师职位。使用A2A,它通过“招聘代理”的Agent Card发现该代理,该Card列出了诸如“候选人来源”和受支持的输入/输出模式等技能。招聘经理代理发送任务:“找到具有X技能且位于Y地的候选人。” 招聘代理接受任务。它可能会使用其内部能力(可能是通过MCP)查询LinkedIn。随着它找到候选人,它通过A2A连接上的SSE流回部分结果(包含候选人档案的工件)。然后,招聘经理代理可以将后续任务——安排面试、背景调查——委托给其他专门代理(日历代理、HR代理)通过单独的A2A任务。在整个工作流程中,A2A管理安全通信、任务状态跟踪和多模态数据交换。

2.2 Anthropic的MCP:标准化代理上下文和工具使用

模型上下文协议(MCP)是由Anthropic引入的一个开放标准,解决了AI模型或代理如何以统一方式访问外部数据、工具和上下文的问题[2]。MCP定义了一个客户端-服务器架构,用于增强AI模型,将模型逻辑与数据源或API的具体细节分离。它充当“通用端口”[3]。

  • 核心设计原则:MCP旨在实现通用连接(解决“MxN”集成问题)、通过定义的基本元素(资源、工具)进行结构化上下文管理、强调用户控制的安全性(本地优先默认值、行动同意)以及支持双向通信[2,3,8][2,3,8][2,3,8]
    • 架构(主机/客户端/服务器):
    • 主机:用户交互的主要AI应用程序(例如Claude桌面、IDE插件)。管理连接和安全性。
    • 客户端:主机内的中介,管理与特定MCP服务器的连接。帮助沙盒化连接。
    • 服务器:通过MCP规范暴露与外部系统(数据库、API、文件系统)相关的能力(工具、资源、提示)的程序。
    • 传输与通信:MCP使用JSON-RPC 2.0通过两种主要传输方式:
    • 标准I/O (stdio):用于本地客户端-服务器通信。
    • HTTP + Server-Sent Events (SSE):用于远程连接。客户端通过HTTP POST发送请求;服务器可以通过HTTP响应或通过SSE推送异步通知/响应。
    • 发现:客户端通过调用协议定义的JSON-RPC方法(如tools/list、resources/list、prompts/list)发现服务器功能。服务器可以通知客户端更改(例如notifications/tools/list_changed)。
    • MCP原语:MCP使用核心消息类型标准化交互[3]:
    • 工具:服务器暴露的可执行函数(例如发送邮件、查询数据库)。由名称、描述、inputSchema(JSON Schema)和可选注释(例如destructiveHint)定义。通过tools/ca11调用。
    • 资源:服务器提供的结构化数据/内容以提供上下文(例如文件内容、查询结果)。由URI标识,具有名称、描述、mimeType和内容(文本或base64 blob)。通过resources/read读取,通过resources/subscribe和notifications/resources/updated更新。
    • 提示:服务器提供的预定义提示模板或工作流脚本,通常由用户选择。由名称、描述、参数定义。通过prompts/get检索供LLM使用的消息,可能嵌入资源上下文或定义多步骤工作流。
    • 根节点:客户端端表示主机环境入口点(例如目录)的服务器可能访问的原始数据。
    • 抽样:高级服务器端原始数据,允许服务器请求主机AI根据提示生成文本。由于安全原因,需要谨慎处理,通常需要人工批准。
    • 安全性:演变为支持OAuth 2.1,强调沙盒化、用户对工具调用的同意,并旨在防止从检索数据中注入提示[12]。
      MCP 示例:一个AI写作助手需要草拟一封包含日程可用性的电子邮件回复。使用MCP:
  1. 助手(主机/客户端)连接到日历MCP服务器和电子邮件MCP服务器。
    1. 为了查找可用性,它在日历服务器上调用resources/read,使用URI表示下周的日程安排(资源交互)。
    1. 为了找到收件人的地址,它可能在电子邮件服务器上调用resources/read以获取最新的邮件线程(资源交互)。
    1. 为了发送电子邮件,它在电子邮件服务器上调用tools/ca11,使用方法名“sendEmail”和由工具inputSchema定义的参数(工具交互)。助手通过标准化的MCP接口进行交互,无论底层日历/电子邮件提供者是什么。
  2. 2.3 A2A和MCP的互补性

A2A和MCP满足不同的需求:A2A实现了水平代理间的协作,而MCP实现了垂直代理到环境的交互。它们本质上是互补的[7]。一个代理可能使用MCP获取数据或执行工具,然后通过A2A与其他代理共享结果或将后续动作委派给另一个代理。理解这种区别是构建有效的集成系统和分析它们组合的新兴属性的关键。
img-2.jpeg

图3. 带与不带A2A+MCPA 2 A+M C PA2A+MCP的工作流

比较总结突出了它们各自的作用:

特征 谷歌A2A协议 Anthropic MCP协议
主要关注点 代理到代理的通信与协作 代理到工具/数据源的连接与上下文管理
集成类型 水平(代理间) 垂直(代理内到环境)
核心架构 客户端代理 / 远程代理 主机 / 客户端 / 服务器
关键组件 Agent Card, Task, Message, Part, Artifact Host, Client, Server, Tool, Resource, Prompt, (Root, Sampling)
通信协议 JSON-RPC 2.0 over HTTP(S), SSE, 推送通知 JSON-RPC 2.0 over stdio, HTTP(S)+SSE
范围 多个代理之间的交互与协调 单个代理对外部信息与能力的访问
意图使用案例 多代理工作流,任务委派,跨系统协作 数据检索,工具调用,代理的上下文丰富
安全重点 安全代理身份,认证,授权,加密 用户同意,沙盒化,受控的工具/资源访问
模态支持 文本,文件,结构化数据(JSON),表单,音频,视频 主要是文本,文件(通过blob实现二进制),结构化数据
异步性 对长时间运行任务的原生支持(SSE,推送) 主机管理异步工具调用;服务器可以推送更新(SSE)
状态管理 明确的任务生命周期状态(已提交,进行中…) 主要是工具的请求-响应;主机管理工作流状态
发现机制 Agent Card (/well-known/agent.json),注册表 协议方法(tools/list,resources/list等)
关键优势 实现复杂的动态多代理协作 标准化工具/数据集成与上下文提供
初始限制 生态系统成熟度,需要更高层次的编排 较少关注代理间通信,初始认证差距

表1. A2AA 2 AA2AMCPM C PMCP 的不同焦点和互补性

3. 整合A2A和MCP带来的好处分类:批判性评估

整合A2A和MCP带来了引人注目的好处,但在实践中获得这些好处需要仔细管理结合这两层所引发的复杂性。

3.1 互操作性和标准化

  • 跨厂商/框架协作:使使用不同工具或厂商构建的代理能够通信(A2A)并访问标准化工具/数据(MCP),解决了MAS互操作性中的一个关键挑战[14]。评估:虽然这改善了连接可能性,但实现真正的语义理解——确保代理一致解释交换信息和能力的含义——仍然是一个重大障碍,尤其是在A2A-MCP接口处[22]。这种语义差距可能会限制即使存在标准协议的有效协作。
    • 即插即用模块化架构:允许将代理和数据连接器视为可互换组件[11]。评估:这种模块化是有用的,但需要可靠的发现方法和可能复杂的协调逻辑来处理依赖关系。简单的“即插即用”理想可能难以实现,特别是对于需要深层次理解的部分之间的复杂交互。
    • 一致的治理和合规性:标准协议可以简化政策执行。评估:在两个协议中一致应用规则需要理解代理到代理对话(A2A)和代理到工具行为(MCP)的集成系统。这种组合治理层不是协议本身的一部分,增加了复杂性。

3.2 通过协同作用增强能力

  • 专业化和委派:为专家代理团队创造了潜力。中央代理(使用A2A)可以将任务委派给使用MCP访问工具的专业代理。这种方法在许多多代理系统中可见。评估:这种强大的设置很大程度上取决于主代理准确匹配高水平A2A任务与由其他代理广告的特定MCP工具能力的能力。模糊的技能描述可能导致错误。良好的多代理规划至关重要[17,26][17,26][17,26]
    • 使用实时数据的情境推理:使用MCP的代理可以获得当前信息,然后通过A2A共享以提高群体理解力[15]。评估:这一好处取决于高效的上下文共享。通过A2A从MCP发送大量原始数据可能很慢。代理需要良好的方法来总结、检查并将来自不同MCP来源的上下文合并到他们的A2A协作中,增加了复杂性。
  • 3.3 效率、可扩展性和鲁棒性

  • 并行性和吞吐量:使任务能够在代理之间分布(A2A)以同时工作(使用MCP)。评估:要获得显著的速度提升,需要真正能并行运行的任务和智能协调来管理依赖关系并组合结果,这确实增加了自身的开销[14, 26]。
    • 在领域和负载方面的可扩展性:通过添加更多代理(A2A)或工具服务器(MCP)使扩展更容易。评估:现实世界的可扩展性不仅取决于协议,还取决于发现服务速度、网络延迟、协调复杂性以及底层AI模型的性能等因素。A2A-MCP接口本身可能会成为瓶颈。
    • 容错和优雅失败:提供备份选项的潜力[4]。评估:构建强大的容错能力需要能够可靠检测A2A任务和MCP调用中的故障、评估替代方案并动态重新规划的代理。这使得代理比简单的错误处理要复杂得多。
    • 通过委派提高资源效率:允许使用更便宜/更小的代理来执行简单任务。评估:这需要一个智能协调代理,能够准确判断任务难度和代理能力(包括A2A技能和MCP工具访问)以高效委派——这是一个棘手的规划问题。

3.4 生态系统和创新收益

  • 网络效应和代理生态系统:通用协议可以鼓励市场[8]。MCP生态系统正在增长。评估:成功取决于广泛的采用、清晰的标准、良好的发现工具和可靠的信任/声誉系统,以确保第三方组件的质量和安全性——这是开放系统的主要挑战。
    • 减少开发复杂性:标准接口减少集成代码。评估:这将难度转向理解协议、设计跨协议的代理交互、构建有效的协调和调试分布式系统,需要新技能。
    • 跨域适用性:协议是通用的[23]。评估:虽然协议是通用的,但实际应用需要特定领域的知识、工具和上下文。集成本身并不自动使解决方案在不同领域之间可转移。

3.5 质量、安全性和一致性改进

  • 从反馈中持续学习:标准化日志提供数据。评估:有效使用这些数据需要先进的多代理学习方法和弄清楚如何将交互日志转化为真实改进的方法。
    • 通过结构化控制提高安全性:协议提供了插入控制点的机会。评估:在动态A2A交互和MCP工具调用中定义和强制执行有效的安全规则非常复杂。防止滥用、确保隐私和在
  • 集成系统中调整代理行为是重大的未解研究难题 [39]。

4. 架构模式:集成点和困难

集成A2A和MCP需要在它们不同的范围内做出架构选择。

  1. 模式1:A2A代理内部使用MCP(主要模式):A2A服务器代理内部使用MCP。
  • 集成洞察:此模式保持了明确的分离,但如果许多A2A代理需要相同的MCP工具,则可能导致重复努力。此外,A2A客户端无法直接看到远程代理使用的MCP工具,只能依赖于A2A技能描述,而该描述可能模糊不清。
  1. 模式2:通过A2A代理卡暴露MCP工具:A2A技能直接代表MCP工具。
  • 集成洞察:这使得通过A2A更容易发现工具,但会引发语义不匹配。A2A的技能格式不如MCP的工具格式详细(inputSchema)。尝试基于可能不清楚的文本描述可靠地匹配A2A任务细节与MCP工具输入是一个主要的难点和潜在错误点[1, 22]。
  1. 模式3:使用A2A进行工具编排(替代/边缘情况):直接使用A2A进行复杂的“工具”。
  • 集成洞察:这利用了A2A在长任务中的优势,但绕过了MCP对标准工具交互的关注,可能导致系统中的工具处理不够一致。
    编排层:无论采用哪种模式,有效的集成通常需要一个编排层[14, 17, 26]。该层作为关键枢纽,将目标转化为A2A任务,匹配任务与代理及其MCP能力,管理通信,处理跨协议的错误并组合结果。设计这种协调逻辑,可能使用专用的协调代理,对于实际的A2A+MCP系统至关重要且具有挑战性。

5. 经济影响: “代理经济”

A2A+MCP集成所推动的“代理经济”愿景[9]需要对其潜力进行批判性审视。这一概念与基于代理的计算经济学(ACE)领域相关,后者将经济建模为交互代理的动态系统[29, 30]。

5.1 “代理经济”的出现

  • 自动化交易:协议提供了技术基础。关键评估:真实的经济需要的不仅仅是技术;它还需要可靠、可扩展的方式来建立信任、管理声誉、处理自动化合同、安全地交换价值并
  • 解决自主代理之间的纠纷。当前使用密码经济学的想法仍在发展中,并有自己的挑战。
  • 转型市场:潜在的代理驱动服务/数据。关键评估:这取决于解决语义发现(代理可靠地找到并理解服务)、质量保证(检查代理/工具质量)和明确自动化交易失败的责任规则。

5.2 降低壁垒和竞争格局

  • 减少锁定:开放协议可能减少对供应商的依赖。关键评估:大型平台可能仍然通过更好的协调服务、独特的代理能力、对关键数据源的控制(通过MCP)或通过创建流行扩展主导市场,可能导致新的锁定形式。真正的开放性需要积极的社区参与。
    • 增加买家选择:灵活性更大。关键评估:这种选择带来了管理来自不同供应商的部分的复杂性,确保超出基本协议规则的兼容性,并可能因使用较少审查的组件而增加更高的安全风险。

5.3 新角色和商业模式

  • 代理经纪人/编排者、MCP服务器提供商、代理审计师:这些角色似乎可能[5, 13, 20]。关键评估:它们的成功取决于证明其相对于集成解决方案的价值。审计同时使用A2A和MCP的复杂AI代理需要新方法。

5.4 生产力和成本影响

  • 生产力提升:自动化潜力显而易见[23, 24]。关键评估:实际收益必须超过构建、保护、管理和调试这些复杂系统的显著成本。自动化的好处最初可能仅限于特定、明确定义的领域。
    • 劳动力转型:工作变化是可能的。关键评估:社会需要主动适应。如果收益主要流向所有者或专业AI开发者,存在加剧不平等的风险。
    • 效率悖论:自动化可能会增加整体资源使用。关键评估:优化大型代理系统的能源和计算效率对于可持续性至关重要。

5.5 战略控制和数据价值

  • 协议管理:影响力跟随标准。关键评估:保持协议真正开放需要积极的社区参与,以防止少数主导公司控制。
    • 数据价值与许可:MCP使数据更具可用性。关键评估:通过MCP标准化
  • 访问引发了围绕数据隐私、所有权、公平支付数据使用费以及拥有特殊数据访问权限的代理可能获得的信息优势的复杂问题,尤其是如果这些数据影响A2A交互时[18]。

6. A2A-MCP交集处的风险和挑战

整合A2A和MCP带来了超出每个协议自身固有挑战的独特挑战。

6.1 主要风险和挑战

  1. 安全 - 复合漏洞:组合产生了新的攻击向量。
  • 集成特定威胁:一个关键风险涉及攻击者使用A2A发现代理,然后利用这些代理通过MCP工具连接暴露的漏洞[19, 21]。例如,通过A2A发现使用不安全MCP服务器的代理是一种间接攻击路径。像“工具抢注”(恶意注册虚假工具)这样的威胁在与A2A的发现潜力结合时更加危险[32]。恶意指令也可以通过A2A在代理之间传播,可能触发不安全的MCP工具操作[28, 35, 37]。
    • 身份和信任管理:建立信任更加困难。一个代理必须信任其A2A伙伴,并间接信任该伙伴通过MCP使用的工具。跨A2A对话和随后的MCP调用管理安全需要复杂的解决方案,而这并未内置在基本协议中。可靠的信任和声誉模型至关重要但难以实施[20, 36]。
  1. 语义互操作性差距:确保代理互相理解并理解其所访问的工具是至关重要的,但也很困难。
  • 集成特定挑战:一个主要困难是将高层次的A2A任务翻译成具体的、正确的MCP工具命令。一个A2A客户端可能要求摘要,但远程代理需要弄清楚确切的MCP查询和工具参数。A2A的技能描述往往缺乏MCP工具要求的细节,导致在集成点可能出现错误[1, 22]。这需要更好的方法让代理协商意义或使用共享知识库。
  1. 调试和可观测性复杂性:诊断集成系统的故障显著更难。
  • 集成特定挑战:如果使用多个代理和工具的工作流中断,诊断问题需要跟踪跨越A2A任务、代理通信和MCP工具交互的活动。为了精确定位错误(例如A2A误解、故障的MCP工具或映射不当),我们需要涵盖两个协议的集成监控工具,但目前此类工具尚不存在。正式验证方法显示出希望,但在这些组合系统的大规模上挣扎[25, 31]。
    1. 编排复杂性:设计管理A2A和MCP之间流动的协调逻辑具有挑战性。协调器必须处理跨两个协议的规划、委派、监控、错误处理和结果组合[14, 17, 26]。
    1. 治理和政策执行:在代理到代理(A2A)和代理到工具(MCP)交互中定义和强制执行一致的安全性、隐私和伦理规则需要统一的方法。

6.2 未来方向

解决集成挑战需要有针对性的研究和开发:

  1. 语义协商和共享本体:开发代理澄清任务含义、能力超越简单Agent Cards的方法,并可靠地将A2A请求映射到MCP工具细节[22]。共享知识结构(本体)可能有所帮助。
    1. 集成安全框架:设计处理组合A2A+MCP风险的安全系统,包括身份管理、跨协议权限和针对工具抢注等威胁的防御措施[21, 28, 32, 38]。改进MCP内置的安全功能也是必要的。
    1. 跨协议可观测性和调试工具:创建工具进行统一记录、追踪和可视化跨越A2A和MCP的活动,以简化调试。
    1. 健壮的多代理编排和规划:改进特别适用于协调使用MCP外部工具的代理的多代理规划技术[14, 17, 26]。
    1. 集成系统的形式验证:适应形式方法以验证组合A2A+MCP系统的正确性和安全性[25, 31]。
    1. 信任和声誉基础设施:构建开放生态系统中涉及A2A通信和MCP工具使用的可靠信任和声誉系统。
    1. 标准化治理机制:开发方法以在集成A2A+MCP系统中一致地定义和执行运营、安全和伦理规则,特别是针对未来的“代理经济”[13]。

6.3 展望

A2A和MCP的整合提供了一个强大、标准化的基础。然而,近期成功取决于社区构建良好工具、建立管理集成复杂性(特别是安全性和语义)的最佳实践,并创造值得信赖的生态系统。长期采用需要解决编排、治理和验证这些复杂系统的深层挑战。

7. 结论

谷歌的A2A协议和Anthropic的MCP协议的结合标志着迈向更复杂、互操作性和可扩展多代理系统的重要一步。通过分别标准化水平(代理到代理)和垂直(代理到环境)交互,它们提供了一条超越脆弱、自定义集成的途径。本文对这一集成进行了批判性分析,承认了巨大好处的同时,重点关注了这两个标准交叉点上出现的独特挑战和复杂性。

我们的分析表明,尽管增强能力、效率和生态系统增长的潜力相当大,但要实现这些好处需要应对重大障碍。关键挑战包括确保A2A任务与MCP工具之间的语义对齐、管理代理发现和工具执行带来的复合安全风险、跨两个协议调试的困难以及为复杂交互(特别是“代理经济”)建立治理。还需特别关注与MCP服务器生命周期相关的特定安全风险。

最终,A2A和MCP提供了关键的架构构建块。然而,它们并非完整的解决方案。解锁协作、使用工具的AI代理的全部潜力需要在多代理规划和编排、健壮的信任和声誉机制、为集成系统量身定制的先进安全架构、语义协商的实际解决方案以及有效的治理模型方面持续创新。解决这些集成特定挑战将是成功开发和部署下一代真正有能力且可靠的多代理AI系统的关键。

参考文献

[1] Google Cloud (2025). Announcing the Agent2Agent Protocol (A2A).
[2] Anthropic (2024). Introducing the Model Context Protocol.
[3] Narajala, V. et al. (2025). Enterprise-Grade Security for the Model Context Protocol (MCP): Frameworks and Mitigation Strategies. arXiv:2504.08623.
[4] Ramel, D. (2025). Protocols for Agentic AI: Google’s New A2A Joins Viral MCP. Virtualization Review, April 9, 2025.
[5] WorkOS (2025). MCP, ACP, A2A, Oh my! WorkOS Blog.
[6] Yang, Y. et al. (2025). A Survey of AI Agent Protocols. arXiv:2504.16736
[7] Blott Studio (2025). MCP vs A2A: Which Protocol is Better for AI Agents? Blott.studio Blog.
[8] Keywords AI (2025). A Complete Guide to the Model Context Protocol (MCP) in 2025.
[9] John S. Kim (2025). Rise of the A2A economy: How AI agent-to-agent interactions will reshape the world. Sendbird Blog.
[10] Shen, Y. et al. (2023). HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace. arXiv:2303.17580.
[11] Google Cloud (2025). Vertex AI offers new ways to build and manage multi-agent systems. Google Cloud Blog/Documentation.
[12] Sarig, Dor. (2025). The Security Risks of Model Context Protocol (MCP). Pillar Security.
[13] Chaffer, Tomer Jordi. (2025). Can We Govern the Agent-to-Agent Economy? arXiv:2501.16606.
[14] De Weerdt, M., et al. (2009). Introduction to planning in multiagent systems. Multiagent and Grid Systems, Volume 5, Issue 4.
[15] Du, H., et al. (2024). A Survey on Context-Aware Multi-Agent Systems: Techniques, Challenges and Future Directions. arXiv:2402.01968.
[16] Labrou, Y., & Finin, T. (1997). Semantics and Conversations for an Agent communication language. arXiv:cs/9809034.
[17] Li, A., et al. (2024). Agent-Oriented Planning in Multi-Agent Systems. arXiv:2410.02189.
[18] Such, J. M., et al. (2014). A Survey of Privacy in Multi-agent Systems. The Knowledge Engineering Review, 29(3), 312-343.
[19] He, F., et al. (2024). The Emerged Security and Privacy of LLM Agent: A Survey with Case Studies. arXiv:2407.19354.
[20] Granatyr, J., et al. (2015). Trust and Reputation Models for Multiagent Systems. ACM Computing Surveys (CSUR), Vol. 48, Issue 2.
[21] Cloud Security Alliance (CSA). (2025). Agentic AI Threat Modeling Framework: MAESTRO. CSA Blog.
[22] SmythOS. (2025). What is an Agent Communication Language? SmythOS Blog.
[23] Krishnan, Naveen. (2025). AI Agents: Evolution, Architecture, and Real-World Applications. arXiv:2503.12687.
[24] Xu, L., et al. (2021). Will bots take over the supply chain? Revisiting Agent-based supply chain automation. arXiv:2109.01703.
[25] Mendez, J. A., et al. (2025). Can Proof Assistants Verify Multi-Agent Systems? arXiv:2503.06812.
[26] Sun, L., et al. (2025). Multi-Agent Coordination across Diverse Applications: A Survey. arXiv:2502.14743.
[27] Peigné, P., et al. (2025). Multi-Agent Security Tax: Trading Off Security and Collaboration Capabilities in Multi-Agent Systems. arXiv:2502.19145.
[28] Narajala, V., et al. (2025). Securing GenAI Multi-Agent Systems Against Tool Squatting: A Zero Trust Registry-Based Approach. arXiv:2504.19951.
[29] Tesfatsion, L. (2023). Agent-Based Computational Economics: Overview and Brief History. In: Venkatachalam, R. (eds) Artificial Intelligence, Learning and Computation in Economics和金融。理解复杂系统。Springer,Cham。https://doi.org/10.1007/978-3-031-15294-8_4
[30] Tesfatsion, L. (2016). “Review of Agent-Based Computational Economics: How the Idea Originated and Where It Is Going,” ISU General Staff Papers 201612010800001695, 爱荷华州立大学,经济系。
[31] Parker, D. (2023). 多代理验证与控制的概率模型检查。arXiv:2308.02829
[32] Xi, Z., et al. (2023). 大型语言模型基础代理的兴起与潜力:一项调查。arXiv:2309.07864.
[33] Shen, Z. (2024). 具有工具的LLM:一项调查。arXiv:2409.18807.
[34] Deng, Z., et al. (2024). 受威胁的AI代理:关键安全挑战和未来路径的调查。arXiv:2406.02630.
[35] Gan, Y., et al. (2024). 导航风险:大型语言模型基础代理中的安全、隐私和伦理威胁调查。arXiv:2411.09523.
[36] Fu, X., et al. (2024). Imprompter:诱使LLM代理不当使用工具。arXiv:2410.14923.
[37] Milev, I., et al. (2025). ToolFuzz — 自动化代理工具测试。arXiv:2503.04479.
[38] Chen, Z. Y., et al. (2024). 面向工具使用的大型语言模型对齐。2024年经验方法自然语言处理会议论文集。
[39] Lu, J., et al. (2024). ToolSandbox:评估LLM工具使用能力的状态化、对话式、交互基准。arXiv:2408.04682.
[40] Wölflein, G., et al. (2025). 制作代理工具的LLM代理。arXiv:2502.11705.
[41] Shi, Z., et al. (2025). 野外工具学习:赋予语言模型作为自动工具代理的能力。2025年网络大会。
[42] Hou, X., et al. (2025). 模型上下文协议(MCP):景观、安全威胁和未来研究方向。arXiv:2503.23278v2.
[43] Li, Q., et al. (2024). EduMAS:一种新型的基于LLM的多代理教育支持框架。2024年IEEE国际大数据会议(Big Data)。

参考论文:https://arxiv.org/pdf/2505.03864

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐