AgentInit: Initializing LLM-based Multi-Agent Systems via Diversity and Expertise Orchestration for Effective and Efficient Collaboration

  • ArXiv URL: http://arxiv.org/abs/2509.19236v1

  • 发布机构: Harbin Institute of Technology; The University of Sydney

  • 文本转载自公众号【AI研究】。
    在这里插入图片描述

TL;DR

本文提出了一种名为 AgentInit 的多智能体系统(Multi-Agent System, MAS)初始化方法,该方法通过生成一组多样化的候选智能体,并利用以任务相关性和团队多样性为目标的帕累托最优原则进行团队选择,来优化智能体团队的构成,从而提升协作效率与任务表现。

相关工作

当前,基于大语言模型的多智能体系统已成为解决复杂任务的重要范式。许多现有框架(如AutoGen、CAMEL)仍依赖人工设计的角色和交互模式。虽然一些自动化方法(如Agent-Verse、AutoAgents、EvoAgent)尝试自动生成智能体,但它们通常直接通过大语言模型的交互来完成初始化,缺乏对后续协作效果的充分考虑。

这个过程存在以下关键瓶瓶颈:

  1. 团队冗余与无关性:直接生成的智能体团队可能包含与任务无关或功能重叠的成员,导致任务偏离、效率低下。
  2. LLM内在偏见:大语言模型在评估和筛选自身生成内容时存在自偏好(self-preference bias)等问题,难以有效剔除低质量或冗余的智能体。

因此,本文旨在解决的问题是:如何设计一个更鲁棒的自动化初始化机制,以构建一个既高效又协作良好的智能体团队,从根源上避免因初始化不当导致系统性能下降的问题。

本文方法

本文提出的 AgentInit 框架旨在通过优化初始团队结构来提升多智能体系统的效率和效果。其核心思想源于现实世界中高效团队的组建原则:成员不仅需要具备专业能力(任务相关性),团队整体也需要具备多样性以应对复杂挑战。AgentInit 通过“标准化智能体生成”和“平衡的团队选择”两个阶段来实现这一目标。

标准化智能体生成 (Standardized Agent Generation)

此阶段的目标是生成一个高质量且格式统一的候选智能体池 Acandidate\mathcal{A}_{\text{candidate}}Acandidate。该过程通过规划器(Planner Agent, GpG_pGp)、观察者(Observer Agent, GoG_oGo)和格式化(Formatter Agent, GfG_fGf)三个智能体的协作,经过多轮迭代完成。

  1. 任务分解与智能体构建:规划器 GpG_pGp 首先将用户查询分解为多个子任务 {τit}\{\tau_i^t\}{τit},然后为每个子任务设计一个相应的智能体 AitA_i^tAit。这个过程可以表示为:
    Gp=(Gp2∘Gp1) G_p = (G_{p_2} \circ G_{p_1}) Gp=(Gp2Gp1)
    其中 Gp1G_{p_1}Gp1 负责任务分解, Gp2G_{p_2}Gp2 负责智能体构建。

  2. NL-to-Format 标准化:为了便于后续的公平评估和选择,格式化智能体 GfG_fGf 会将以自然语言描述的智能体 AitA_i^tAit 转换为统一的标准化格式(如JSON),得到 A^it\hat{A}_i^tA^it。这种“先生成后格式化”的策略避免了在生成阶段因严格格式限制而影响智能体质量的问题。
    {A^it}i=1nt=Gf({Ait}i=1nt) \left\{\hat{A}_{i}^{t}\right\}_{i=1}^{n_{t}} = G_{f}\left(\left\{A_{i}^{t}\right\}_{i=1}^{n_{t}}\right) {A^it}i=1nt=Gf({Ait}i=1nt)

  3. 评估与反馈:观察者 GoG_oGo 在每轮结束时评估子任务分解和智能体分配的合理性,并提供反馈 ϕt\phi^tϕt 用于下一轮的优化。
    ϕt=Go({A^it}i=1nt,{τit}i=1nt) \phi^{t} = G_{o}\left(\left\{\hat{A}_{i}^{t}\right\}_{i=1}^{n_{t}}, \left\{\tau_{i}^{t}\right\}_{i=1}^{n_{t}}\right) ϕt=Go({A^it}i=1nt,{τit}i=1nt)

  4. 多轮迭代:上述过程重复进行 KKK 轮,最终生成一个精炼的候选智能体集合 Acandidate\mathcal{A}_{\text{candidate}}Acandidate

平衡的团队选择 (Balanced Team Selection)

这是 AgentInit 的核心创新所在。该模块将团队选择问题建模为一个多目标优化问题,旨在同时优化任务相关性团队多样性

  1. 候选团队构建:首先,从候选智能体池 Acandidate\mathcal{A}_{\text{candidate}}Acandidate 中,生成所有规模在预设范围 [Nmin⁡,Nmax⁡][N_{\min}, N_{\max}][Nmin,Nmax] 内的可能团队组合,构成候选团队集合 T\mathcal{T}T

  2. 多目标优化与帕累托前沿:接着,通过寻找帕累托最优集(Pareto optimal set)T∗\mathcal{T}^*T 来筛选团队。帕累托最优集包含所有“非支配”的团队方案,即不存在任何一个其他团队方案能同时在两个目标上都更优。
    T∗={A∈T|∄A′∈T,Rel⁡(A′,q)≥Rel⁡(A,q)∧Div⁡(A′)≥Div⁡(A)} \mathcal{T}^{*} = \left\{ \mathcal{A} \in \mathcal{T} \middle| \begin{array}{l} \nexists \mathcal{A}' \in \mathcal{T}, \\ \operatorname{Rel}(\mathcal{A}', q) \ge \operatorname{Rel}(\mathcal{A}, q) \land \\ \operatorname{Div}(\mathcal{A}') \ge \operatorname{Div}(\mathcal{A}) \end{array} \right\} T= AT AT,Rel(A,q)Rel(A,q)Div(A)Div(A)

  3. 目标定义

    • 任务相关性 (Relevance):使用预训练的文本编码器 E\mathcal{E}E 将智能体描述和用户查询编码为向量。相关性定义为团队中所有智能体与查询之间余弦相似度的平均值。
      Rel⁡(A′,q)=1∣A′∣∑A^∈A′E(A)⋅E(q)∥E(A^)∥∥E(q)∥ \operatorname{Rel}(\mathcal{A}',q) = \frac{1}{|\mathcal{A}'|} \sum_{\hat{A} \in \mathcal{A}'} \frac{\mathcal{E}(A) \cdot \mathcal{E}(q)}{\|\mathcal{E}(\hat{A})\| \|\mathcal{E}(q)\|} Rel(A,q)=A1A^AE(A^)∥∥E(q)E(A)E(q)
    • 团队多样性 (Diversity):采用 Vendi Score 来衡量。首先为每个候选团队 A′\mathcal{A}'A 构建一个成员间相似度矩阵 SSS,然后基于该矩阵的特征值 λi\lambda_iλi 计算分数。
      Div⁡(A′)=exp⁡(−∑i=1∣A′∣λilog⁡λi) \operatorname{Div}(\mathcal{A}') = \exp\left(-\sum_{i=1}^{|\mathcal{A}'|} \lambda_i \log \lambda_i\right) Div(A)=exp i=1Aλilogλi
  4. 最终团队选择:最后,一个选择器智能体(Selector Agent, GsG_sGs)会从帕累托最优集 T∗\mathcal{T}^*T 中,根据用户查询选出最合适的最终团队 A∗\mathcal{A}^*A
    A∗=Gs(T∗,q) \mathcal{A}^* = G_s(\mathcal{T}^*, q) A=Gs(T,q)
    通过这种方式,AgentInit 能够组建出一个专业能力强(高相关性)且成员互补(高多样性)的智能体团队。

实验结论

核心实验结果

实验结果表明,AgentInit 在性能和效率上均优于现有方法。

  • 性能优越:在多个基准测试(如MMLU、GSM8K、HumanEval)和不同的大语言模型(Qwen2.5、Deepseek-V3)上,AgentInit 的性能均稳定超过了 CoT、AutoAgents、EvoAgent 等SOTA初始化方法以及预定义策略。在 Qwen2.5 和 Deepseek-V3 上的平均性能分别高出SOTA方法1.2和0.9个点。

表1:AgentInit 与其他基线方法在完全图(Complete Graph)结构下的性能对比
基于 Qwen2.5-72B-Instruct 模型

方法 MMLU GSM8K AQUA MultiArith SVAMP HumanEval Avg.
Vanilla 81.1 90.4 82.1 97.8 92.7 84.7 88.1
CoT 81.4 92.2 84.2 100.0 93.4 84.6 89.3
AgentPrune 83.7 92.8 85.0 99.4 93.2 87.6 90.3
MAS none 82.4 92.8 83.4 100.0 93.2 83.5 89.2
Pre-defined 82.3 93.4 83.6 100.0 93.7 87.0 90.0
EvoAgent 83.7 93.4 84.6 100.0 92.9 83.9 89.8
AutoAgents 85.3 92.7 83.8 100.0 92.9 86.0 90.1
AgentInit 87.3 94.1 85.0 100.0 93.5 88.0 91.3

基于 Deepseek-V3-671B-Instruct 模型

方法 MMLU GSM8K AQUA MultiArith SVAMP HumanEval Avg.
Vanilla 85.6 94.5 84.6 100.0 93.9 88.4 91.2
CoT 84.3 95.0 85.2 100.0 93.6 89.3 91.2
AgentPrune 89.5 95.3 86.7 100.0 93.6 87.2 92.1
MAS none 87.6 95.2 86.7 100.0 92.0 87.6 91.5
Pre-defined 88.2 95.5 87.1 100.0 94.6 88.5 92.3
EvoAgent 92.2 94.9 87.5 99.4 92.5 88.4 92.5
AutoAgents 90.2 95.4 86.7 99.4 93.3 91.7 92.8
AgentInit 92.8 95.7 87.5 100.0 94.3 91.7 93.7

  • 效率提升:通过“平衡的团队选择”模块过滤掉冗余智能体,AgentInit 在推理过程中显著降低了Prompt Token和Completion Token的消耗(见表2)。
  • 框架适应性强:无论是在链式、星型、分层等图结构框架,还是在AutoGen这类松散耦合的框架中,AgentInit 都能取得稳定的最佳性能(见表3),展现了其强大的适应性。

核心机制验证

  • 消融研究

    • 迭代轮数:实验表明,生成阶段的迭代轮数设为 K=3 时效果最佳,更多的迭代带来的收益递减。
    • 标准化步骤:去除“NL-to-Format”标准化步骤会导致性能下降,证明了此步骤对于后续公平选择的重要性。
    • 选择目标:仅考虑单一目标(仅相关性或仅多样性)的策略均不如同时平衡两者的 AgentInit。这验证了多目标优化的有效性。
    • 选择策略:与不进行选择、随机选择等策略相比,AgentInit 的帕累托最优选择策略显著更优,证明了性能提升来源于其合理且有针对性的选择过程。
  • 其他关键发现

    • 可迁移性:由单个或少量查询生成的智能体团队能够有效迁移到相似任务上,大大降低了为每个任务重新初始化的计算开销。
    • 可扩展性:团队选择过程即使在候选智能体数量增加时也保持了较高的效率。对于更大规模的候选集,可以使用 NSGA-II 等启发式算法高效地近似帕累托最优解。
    • 团队冗余减少:实验数据显示,经过 AgentInit 优化的团队,其成员间的最大相似度显著降低,表明该方法能有效剔除功能重叠的智能体。

最终结论

AgentInit 作为一种新颖的多智能体系统初始化方法,通过在个体层面(标准化生成)和团队层面(平衡选择)进行联合优化,能够构建出任务对齐度高、分工明确、协作高效的智能体团队。实验证明,该方法不仅在多种任务和框架下显著提升了系统性能,还降低了资源消耗,为未来多智能体系统的初始化研究提供了有价值的实践方向。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐