论文名称:AFLOW: AUTOMATING AGENTIC WORKFLOW GENERATION
论文地址:https://openreview.net/pdf?id=z5uVAKwmjf

在人工智能飞速发展的今天,大语言模型(LLMs)已成为解决复杂任务的核心工具,在代码生成、数据分析、决策支持和问答系统等诸多领域大显身手。然而,这些强大模型的效能发挥,长期以来高度依赖人工设计的智能体工作流——也就是一系列结构化的LLM调用序列及详细指令。这种人工设计模式不仅耗费大量人力,更严重限制了LLMs在新领域的扩展性和跨任务的技能迁移能力。

为突破这一困境,来自DeepWisdom、香港科技大学(广州)、中国人民大学等机构的研究团队提出了AFLOW框架,一种基于蒙特卡洛树搜索(MCTS)的自动化工作流生成方法。这项发表于ICLR 2025的研究,将工作流优化重构为代码表示空间上的搜索问题,通过树结构经验积累和执行反馈迭代优化,实现了工作流的全自动生成。实验结果显示,AFLOW在六个基准数据集上平均超越现有最佳方法5.7%,更令人振奋的是,它能让小型模型以GPT-4o 4.55%的推理成本在特定任务上超越后者。接下来,我们将深入剖析AFLOW的技术原理、创新突破与实践价值。

智能体工作流的困境:人工设计的天花板

在LLM应用中,工作流扮演着至关重要的角色。以数学推理为例,“思维链”(Chain-of-Thought)工作流引导模型逐步推导;在代码生成任务中,“自我修正”(Self-Refine)工作流让模型反复检查优化代码;而在复杂问答场景,“多智能体辩论”(Multi-Agent Debate)工作流通过模拟多方讨论提升答案准确性。这些精心设计的工作流,本质上是人类专家将领域知识编码为LLM可执行的步骤序列。

然而,这种依赖人工的模式存在难以克服的局限。首先,设计高质量工作流需要领域专家与AI工程师的深度协作,成本高昂且耗时长。其次,不同任务对工作流的需求差异巨大——数学推理需要严谨的步骤验证,创意写作则需要灵活的灵感拓展,通用工作流难以适配所有场景。更重要的是,当面对全新任务时,现有工作流往往失效,必须重新设计,严重制约了LLM的快速部署能力。

近年来,研究界已意识到自动化工作流生成的重要性。早期方法如DSPy专注于固定工作流内的提示词优化,但仍需人工设定初始框架;ADAS尝试用代码表示工作流,但受限于线性启发式搜索算法,难以在庞大空间中找到最优解;GPTswarm采用图结构表示工作流,却无法有效处理条件逻辑等复杂关系。这些尝试都未能实现真正的端到端自动化,工作流生成的"自动化天花板"亟待突破。

AFLOW的核心突破:将工作流优化转化为搜索问题

AFLOW框架的革命性在于其问题建模方式——将工作流优化重构为代码表示空间上的搜索问题。这一思路源于研究团队的深刻洞察:工作流本质上是由LLM调用节点通过逻辑关系连接而成的结构,这种结构可以用代码精确描述,而寻找最优工作流的过程,本质上就是在所有可能的代码结构中搜索性能最佳解的过程。

工作流的形式化定义

在这里插入图片描述

在AFLOW中,一个完整的智能体工作流(W)被定义为由一系列LLM调用节点(N)和连接节点的边(E)组成的集合。每个节点包含四个核心参数:

  • 模型(M):调用的具体语言模型
  • 提示词(P):输入给模型的任务描述
  • 温度系数(T):控制输出随机性的参数(取值0-1)
  • 输出格式(F):如XML、JSON等结构化格式要求

而边则定义了节点间的执行逻辑关系,AFLOW创新性地采用代码表示边结构,这使得工作流能够自然表达顺序执行、条件分支、循环迭代等复杂逻辑,远超传统图结构的表达能力。例如,一个数学推理工作流可以用代码描述为:“生成多个候选解→验证每个解的正确性→集成最优解→格式化输出”,其中的条件判断和循环结构都通过代码天然实现。

搜索空间与优化目标

基于上述定义,工作流的搜索空间(S)涵盖了所有可能的节点参数配置和边结构组合,形式化表示为:
S={(N,E)∣E∈E} \mathcal{S}=\{(\mathcal{N}, E) | E \in \mathcal{E}\} S={(N,E)EE}
其中N\mathcal{N}N代表所有可能的节点配置,E\mathcal{E}E代表所有可能的代码边结构。AFLOW的目标是在这个空间中找到能最大化任务评价函数G(W,T)G(W, T)G(W,T)的最优工作流W∗W^*W
W∗=argmaxW∈SG(W,T) W^{*}=\underset{W \in \mathcal{S}}{arg max } G(W, T) W=WSargmaxG(W,T)

这个定义的精妙之处在于其普适性——无论是数学推理、代码生成还是问答系统,都可以纳入这一框架进行优化。评价函数GGG根据任务类型灵活定义,例如数学任务用解题率,代码任务用pass@1指标,问答任务则用F1分数。

技术架构:蒙特卡洛树搜索驱动的迭代优化

在这里插入图片描述

为在庞大的搜索空间中高效找到最优解,AFLOW创新性地将蒙特卡洛树搜索(MCTS)算法应用于工作流优化。MCTS在围棋AI等领域已证明其处理高维搜索空间的强大能力,而AFLOW针对工作流特点进行了三项关键改进,形成了独特的迭代优化循环:软混合概率选择→LLM驱动扩展→执行评价→经验回溯

初始化与搜索准备

AFLOW从一个基础模板工作流开始,该模板包含最基本的节点调用框架,但缺乏具体逻辑和提示词。为提高搜索效率,系统首先将数据集按4:1比例划分为测试集和验证集,并通过多次执行空白模板,筛选出分数波动大的样本组成最终验证集——这些样本对工作流变化更敏感,能更精准地反馈优化效果。

软混合概率选择机制

选择阶段决定了下一轮优化的基础工作流,AFLOW采用精心设计的软混合概率策略平衡探索与利用:
Pmixed(i)=λ⋅1n+(1−λ)⋅exp(α⋅(si−smax))∑j=1nexp(α⋅(sj−smax)) P_{mixed }(i)=\lambda \cdot \frac{1}{n}+(1-\lambda) \cdot \frac{exp \left(\alpha \cdot\left(s_{i}-s_{max }\right)\right)}{\sum_{j=1}^{n} exp \left(\alpha \cdot\left(s_{j}-s_{max }\right)\right)} Pmixed(i)=λn1+(1λ)j=1nexp(α(sjsmax))exp(α(sismax))
其中λ(0.2)控制均匀探索的比例,确保系统不会错过潜在的优化路径;(1-λ)部分则基于历史分数分配概率,优先选择表现好的工作流进行深化。这种策略既利用了已有经验,又保留了探索新方向的可能性,有效避免了局部最优陷阱。

LLM驱动的工作流扩展

扩展阶段是AFLOW的核心创新之一——利用LLM作为优化器生成新工作流。给定选中的基础工作流和历史经验,优化器(实验中使用Claude-3.5-sonnet)通过两种方式生成新候选:

  • 提示词优化:修改节点的提示词内容,增强任务导向性
  • 结构调整:通过代码修改节点间的连接关系,如添加验证节点、调整循环次数等

为提升扩展效率,AFLOW引入了算子(Operators) 概念,将常见的有效操作封装为可复用模块,如Ensemble(集成多个结果)、Review & Revise(审核修正)、Test(代码测试)等。这些算子相当于给LLM优化器提供了"积木块",大幅提高了生成有效工作流的概率。

执行评价与经验回溯

新生成的工作流会在验证集上执行5次以获取稳健的性能评估,评价指标根据任务类型确定。执行结果包括:

  • 工作流性能得分(如解题率、F1分数)
  • 与父工作流的性能差异
  • 修改内容与性能变化的关联

这些信息会被存储为树结构经验,并回溯到所有祖先节点,更新它们的选择概率。这种树结构经验记录了"哪些修改带来了性能提升",使得AFLOW能像人类设计师一样从成功和失败中学习,不断优化搜索方向。

终止条件

为避免无效迭代,AFLOW设置了早停机制:当连续n轮(实验中为5轮)的top-k工作流性能无提升时,搜索自动终止,返回当前最优解。这一机制在保证优化效果的同时,有效控制了计算成本。
在这里插入图片描述

实验验证:性能与成本的双重突破

研究团队在六个涵盖不同任务类型的基准数据集上对AFLOW进行了全面评估:

  • 数学推理:GSM8K(小学数学问题)、MATH(高中数学竞赛题)
  • 代码生成:HumanEval、MBPP
  • 问答系统:HotpotQA(多跳问答)、DROP(数值推理问答)
    在这里插入图片描述

全面超越现有方法

实验结果令人瞩目:AFLOW生成的工作流在所有数据集上均超越了人工设计方法和现有自动化方法。平均而言,它比最佳人工设计工作流(如CoT、Self-Refine)性能提升5.7%,比现有自动化方法(如ADAS)提升19.5%。
在这里插入图片描述

在最具挑战性的MATH数据集(难度等级5)上,AFLOW的优势尤为明显,相比ADAS提升了57%。这一结果证明,AFLOW不仅能优化简单任务,更能在复杂推理场景中发现有效的问题解决策略。在代码生成任务HumanEval上,AFLOW将pass@1指标提升至94.7%,远超传统方法的87-91%区间。

模型通用性与成本优势

在这里插入图片描述

AFLOW的另一重要发现是其生成的工作流具有模型通用性——为一种LLM优化的工作流,通常也能提升其他模型的性能。实验显示,为GPT-4o-mini优化的工作流能使DeepSeek-V2.5的性能提升5.3%,为DeepSeek优化的工作流也能让GPT-4o-mini提升3.1%。这表明AFLOW发现的是任务本质规律,而非特定模型的适配技巧。

更具颠覆性的是AFLOW在成本效益上的突破。通过优化工作流,小型模型能以极低成本达到甚至超越大型模型的性能。在HumanEval任务上,使用AFLOW优化工作流的GPT-4o-mini性能达到94.7%,仅为GPT-4o直接调用成本的8.05%;而DeepSeek-V2.5更以GPT-4o 4.55%的成本实现了94.66%的性能,在帕累托最优前沿上占据了显著优势。这一结果对AI应用的成本控制具有重大意义,使得资源有限的机构也能享受高性能AI服务。

消融实验:算子与搜索机制的价值

为验证各组件的作用,研究团队进行了消融实验:

  • 移除算子后,AFLOW的收敛速度明显减慢,但最终仍能达到93.1%的性能,超过所有人工设计方法。更令人惊讶的是,系统会自主发现类似集成(Ensemble)的结构,证明其具备独立设计有效工作流的能力。
  • 移除树结构经验后,性能下降12.3%,证明经验回溯对避免重复探索、加速收敛至关重要。
  • 改用随机选择策略替代软混合概率选择后,性能下降8.7%,验证了平衡探索与利用的重要性。

案例解析:AFLOW如何设计最优工作流?

通过具体案例,我们能更直观地理解AFLOW的工作原理和优化过程。在GSM8K数学推理任务中,AFLOW从空白模板开始,经过15轮迭代形成了最优工作流:

迭代优化轨迹

  • 第1轮:基础模板仅包含一个生成节点,得分85.91%
  • 第3轮:添加ScEnsemble算子(集成多个解),得分提升至91.60%
  • 第8轮:修改提示词,强调"分步检查计算过程",得分93.33%
  • 第10轮:添加Programmer算子(用代码验证结果),得分达93.52%

这一过程展示了AFLOW如何逐步发现有效组件:先通过集成提高稳健性,再通过提示词优化增强推理严谨性,最后添加程序验证确保结果正确。每一步修改都基于前序经验,体现了类似人类设计师的迭代优化思路。

任务适配的工作流设计

AFLOW能根据任务特性生成针对性工作流:

  • 代码生成(MBPP):最优工作流包含"生成3个候选解→集成最佳解→自动生成测试用例→执行测试→错误修正"的完整闭环,与专业开发者的工作流程高度相似。
  • 数学推理(MATH):工作流结合了"代数解法→可视化验证→估算校准"三种不同方法,通过集成机制选择最一致的结果,显著提升了复杂问题的求解率。
  • 问答系统(HotpotQA):除推理节点外,特别强化了格式优化步骤,通过精准格式化答案提升F1分数,展示了AFLOW对评价标准的敏锐适应能力。

在无算子的消融实验中,AFLOW甚至自主发明了一种简化集成结构:用三种不同策略(代数法、可视化法、估算法)生成解,再通过比较选择最优解。这种自发形成的有效结构,证明了AFLOW的创新能力。

扩展应用:从封闭任务到开放场景

虽然核心实验聚焦于有明确评价指标的任务,AFLOW的设计理念同样适用于开放-ended任务。研究团队通过修改评价机制,将其扩展到小说创作和学术idea生成等场景:

开放任务的适配方案

对于缺乏客观评价指标的任务,AFLOW采用"LLM作为裁判"的策略,设计了包含四个维度的评价体系:

  • 内容相关性:回答是否覆盖问题所有方面
  • 内容质量:深度、洞察力和原创性
  • 连贯性:结构组织和逻辑流畅度
  • 参考对比:与预期质量的匹配程度

每个维度1-5分,总分20分,由GPT-4o担任裁判进行评估。这一机制使AFLOW能在无标准答案的场景中仍能获得优化反馈。

实际效果

在20,000字小说创作任务中,AFLOW生成的工作流包含"大纲设计→人物塑造→章节写作"的结构化步骤,最终产出的小说在人类评价中得分19.3/20,远超直接调用LLM的结果(无法完成指定长度要求)。在学术idea生成任务中,经过6轮迭代,AFLOW提出的环境人类学研究方案在创新性和可行性上均获得专家高度评价,证明其在专业领域的价值。

结语:重新定义AI任务解决范式

AFLOW的出现标志着智能体工作流从"人工设计时代"迈向"自动优化时代"。它的核心价值不仅在于性能提升,更在于彻底改变了LLM应用的开发模式——从依赖专家经验的"手工业",转变为可自动化、可规模化的"工业化"流程。

这一突破带来多重影响:

  • 对开发者:大幅降低AI应用开发门槛,无需深厚的prompt工程经验也能构建高性能工作流
  • 对企业:显著降低推理成本,使小型模型发挥出接近大型模型的效能,推动AI技术的普惠应用
  • 对研究:提供了统一的工作流优化框架,为探索更复杂的智能体行为奠定基础

未来,AFLOW的思路可进一步扩展:结合强化学习提升优化效率、引入多模态节点处理更丰富的任务、设计跨任务迁移学习机制等。随着自动化工作流技术的成熟,我们有望看到LLM在更多领域实现真正的自主问题解决,推动人工智能应用进入新的发展阶段。

AFLOW的代码已开源(https://github.com/FoundationAgents/AFlow),任何开发者都能体验这一突破性技术,或将其应用于自己的任务场景。这一开源举措将加速自动化工作流技术的创新与落地,为AI生态系统注入新的活力。

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐