前言

Title:《AN AGENTIC FRAMEWORK WITH LLMS FOR SOLVING COMPLEX VEHICLE ROUTING PROBLEMS》

这篇文档核心是提出了一个叫AFL的多智能体框架,专门用大语言模型(LLMs)解决复杂的车辆路径规划问题(VRPs),不用人工干预和外部工具,就能从原始问题描述直接生成可执行代码和可行路线方案,在 60 种不同类型的 VRP 任务上都表现出色,代码可靠性和方案可行性接近 100%。

一、现有车辆路径规划的痛点

车辆路径规划(比如物流配送路线、电动车充电路线规划)是工业和商业里的基础难题,变体多且有各种现实约束(比如车辆载重、时间窗口、电动车续航)。传统方法要么需要专家手动设计算法,要么依赖外部工具或预设模块,不仅麻烦,还容易出现代码执行错误、方案不可行的问题;之前用大语言模型的尝试,要么只能解决简单问题,要么需要人工提取关键信息,没法实现全自动化。

二、AFL 的核心思路:让多个智能体分工协作

AFL 把复杂的路径规划流程拆成 3 个简单子任务,再让 4 个专门的智能体各司其职、互相配合,既保证全自动化,又提升可靠性:

  1. 3 个子任务:先明确问题描述(比如是普通配送还是电动车配送,有哪些约束)→ 生成对应的 Python 代码 → 执行代码得到最终路线方案;
  2. 4 个智能体:
  • 生成智能体(GA):负责写问题描述和代码;
  • 判断智能体(JA):检查描述和代码是否正确、符合约束;
  • 修订智能体(RA):根据判断结果修正错误;
  • 错误分析智能体(EAA):如果代码执行出错,找出原因并给出修改建议。

整个流程不用人工插手,还会把问题描述和对应的代码存起来,下次遇到类似问题能直接复用,提高效率。

三、实验效果:又快又靠谱,适用范围广

在 60 种 VRP 任务(包括 48 种标准任务、8 种实际电动车路径任务、4 种其他复杂任务)上测试后,结果很亮眼:

  1. 性能能打:和专门设计的算法比,多数任务的路线质量差距在 3% 以内,部分实际电动车路径任务甚至比传统算法更优;
  2. 可靠性拉满:代码执行错误率 0%,生成的方案 100% 可行,远超其他用大语言模型的方法(那些方法错误率常达 80% 以上);
  3. 适用场景广:不管是普通配送(有载重约束)、带时间窗口的配送、电动车充电路线,还是不对称路线(比如单行道)、有优先顺序的路线规划,都能搞定;
  4. 效率不低:生成代码和方案的速度很快,复杂任务也能在短时间内给出结果。

四、关键发现

  1. 分工协作很重要:去掉判断智能体和修订智能体后,问题描述错误率会大幅上升,代码也容易失效,证明多智能体互相校验、修正的必要性;
  2. 不用依赖外部工具:AFL 能自己生成完整代码,不用调用外部规划工具,避免了适配不当导致的错误;
  3. 通用性强:学到的规划能力能迁移到不同类型的 VRP 任务上,不用为每个任务单独调整。

五、总结

AFL 的核心价值是把大语言模型变成 “自动规划专家”,通过拆分任务、智能体协作,解决了复杂车辆路径规划的自动化、可靠性问题。不管是普通物流配送,还是有特殊约束的电动车路径规划,都能直接用,不用专家手动设计算法,对非专业用户也很友好。

===========================================

******------------------------华丽的分割线----------------------******

===========================================

以下是文章正文部分详细内容介绍:

摘要

复杂车辆路径规划问题(VRPs)仍是一项核心挑战,其需求解读与算法设计需投入大量专家精力。尽管大型语言模型(LLMs)为自动化解决该问题提供了可行路径,但现有方法仍依赖外部干预 —— 这不仅限制了自主性,还常导致代码执行错误与解决方案可行性低下。为应对这些挑战,本文提出一种基于大型语言模型的智能体框架(Agentic Framework with LLMs, AFL),用于解决复杂车辆路径规划问题,实现从 “问题实例” 到 “解决方案” 的全自动化流程。

AFL 可直接从原始输入中提取知识,无需人工设计模块或外部求解器,即可生成完整可独立运行的代码。为提升可靠性,AFL 将整个流程拆解为三个可管理的子任务,并部署四个专用智能体 —— 通过智能体间的协同交互,确保跨功能一致性与逻辑合理性。在 60 个复杂车辆路径规划问题(涵盖标准基准任务与实际场景变体任务)上的大量实验验证了该框架的有效性与通用性:其性能可与精心设计的专用算法媲美,且在代码可靠性与解决方案可行性上显著优于现有基于大型语言模型的基准方法,在评估基准任务上的表现接近 100%。

1 引言

车辆路径规划问题(VRPs)是物流(Bochtis & Sørensen, 2020;Konstantakopoulos 等,2022)、交通运输(Cattaruzza 等,2017;Zhang 等,2022)等工业与商业应用的核心问题。然而,由于该问题存在多种变体且包含复杂的现实约束,其求解难度极大。传统方法(Furnon & Perron;Helsgaun, 2017;Vidal, 2022;Wouda 等,2024)往往需要大量专家投入:要么将问题描述转化为数学公式,要么设计专用算法。尽管近年出现的神经求解器(Kool 等,2018;Kwon 等,2020)降低了对领域知识的依赖,但面对更复杂的车辆路径规划问题时,仍需一定程度的人工适配。

近年来,具备强大自然语言理解与代码生成能力的大型语言模型(LLMs)(Zhao 等,2023),为车辆路径规划的自动化提供了新可能 —— 不仅能减少人工依赖,还可针对不同变体的车辆路径规划问题开发灵活的求解器。早期研究中,部分方法(Yang 等,2024;Liu 等,2024b)直接通过提示词引导大型语言模型生成解决方案,但在解的最优性与可行性上表现欠佳;另一类方法(Romera-Paredes 等,2024)则探索用大型语言模型生成代码,以间接解决车辆路径规划优化问题,这类方法大致可分为两个方向:

  • 方向一:针对传统车辆路径规划问题,迭代优化基础启发式算法,典型代表包括 EoH(Liu 等,2024a)与 ReEvo(Ye 等,2024);
  • 方向二:开发可处理多种车辆路径规划变体问题的通用框架,更具实用性与应用导向性。

已有研究开始探索上述具有挑战性的第二个方向,其工作流程通常包含两个阶段:框架设计阶段(明确架构与生成策略,详见第 3 节)与框架执行阶段(部署设计好的框架以解决各类问题实例)。例如,ARS(Li 等,2025a)通过从预设约束库中检索并适配模板,构建约束检查函数;DRoC(Jiang 等,2025)则采用检索增强生成(RAG)策略生成代码,调用 OR-Tools(Furnon & Perron)进行问题求解。

尽管 ARS 与 DRoC 均能处理复杂车辆路径规划问题,但这类 “模块级生成方法” 存在明显局限:框架设计阶段依赖人工设计的代码模块或外部求解器,不具备独立性;框架执行阶段需人工提取实例特定信息,无法实现全自动化。这种依赖可能导致大型语言模型生成的代码与外部系统不兼容,进而引发执行错误并降低解决方案可行性。与之相比,SGE(Iklassov 等,2024)虽实现了代码独立性,但仅适用于旅行商问题(TSP)等简单任务 —— 因其缺乏处理复杂约束的有效机制,无法实现全自动化,也无法保证代码与解决方案的可靠性。

表 1:代表性基于大型语言模型的车辆路径规划方法对比

方法 ARS(Li 等,2025a) DRoC(Jiang 等,2025) SGE(Iklassov 等,2024) AFL(本文方法)
复杂车辆路径规划问题 ✔️ ✔️ ✔️
代码独立性 § ✔️ ✔️
全自动化† ✔️
高可靠性∗ ✔️

§ 代码独立性:框架设计阶段,大型语言模型无需依赖人工模块或外部求解器,即可生成完整代码;† 全自动化:框架执行阶段,无需人工干预,可从原始输入直接生成最终解决方案;∗ 高可靠性:实现高代码可靠性与解决方案可行性(例如,≥95%)。

如表 1 所示,为解决上述局限,本文提出一种基于大型语言模型的协同智能体通用框架,可实现 “代码独立、全自动化、高可靠性”,用于解决复杂车辆路径规划问题。

本文提出的基于大型语言模型的智能体框架(AFL),可端到端解决复杂车辆路径规划问题,覆盖从 “问题实例” 到 “解决方案” 的全流程。具体而言,该框架直接从实例输入中提取领域知识,并以此指导代码生成;为提升复杂约束下 “生成代码的可靠性” 与 “解决方案的可行性”,AFL 将流程拆解为三个可处理的子任务 —— 问题描述、代码生成、解决方案推导,每个子任务均由适配该任务的多个大型语言模型智能体负责。

本文共设计四个专用智能体:生成智能体(GA)、判断智能体(JA)、修订智能体(RA)与错误分析智能体(EAA)。通过智能体间的协同,确保跨功能一致性、逻辑合理性与约束满足性。AFL 的整体架构如图 1 所示。

本文的主要贡献如下:

  1. 概念层面

    :将大型语言模型定位为 “解决复杂车辆路径规划问题的独立框架开发者”,无需依赖人工模块或外部求解器,实现从问题实例到解决方案的全自动化;

  2. 方法层面

    :提出 AFL 智能体框架 —— 将本质上难以处理的完整流程拆解为三个可管理的子任务,并通过四个专用智能体的协同,提升代码与解决方案的可靠性;

  3. 实验层面

    :在 60 个车辆路径规划问题上评估 AFL(包括 48 个文献中的代表性问题、8 个实际场景中的复杂电动车辆路径规划问题、4 个更广泛场景下的经典问题)。大量实验结果表明,该框架不仅性能可与精心设计的专用算法竞争,且相比现有基于大型语言模型的方法,在代码可靠性与解决方案可行性上表现更优。

2 基础知识

车辆路径规划问题(VRP)是一项核心组合优化任务,目标是为车队规划一组 “最小成本路线”—— 在满足车辆载重、路线长度、客户时间窗口等现实约束的前提下,为地理上分散的客户提供服务。其经典变体包括:

  • 带容量约束的车辆路径规划问题(CVRP):每辆车有固定载重限制;
  • 带时间窗口的车辆路径规划问题(VRPTW):每个客户需在特定时间区间内得到服务;
  • 电动车辆路径规划问题(EVRP):需考虑车辆电池容量与充电需求。

这些问题形式可覆盖现实中的配送、网约车调度、服务派遣等多种应用场景。本文所涉及的各问题变体的详细介绍见附录 B。

为统一表示基准问题实例,本文采用 VRPLIB 格式(Uchoa 等,2017)—— 这是一种类 TSPLIB(Reinelt, 1991)的纯文本规范。VRPLIB 文件包含以下内容:

  1. 基础信息:问题实例名称、可选注释;
  2. 核心部分:问题类型、边权重类型、问题规模(节点数)、各位置坐标;
  3. 补充部分:车辆容量、客户需求(正向值表示送货,负向值表示取货)、路线长度限制、仓库 ID、时间窗口、服务时间,以及电动车辆相关参数(如电池容量、能耗率、充电速率、充电站位置)。

表 2 总结了 “约束类型” 与 “对应 VRPLIB 字段” 的映射关系,各字段的详细说明见附录表 9。本文提出的 AFL 框架直接以 VRPLIB 格式的问题实例作为输入。

表 2:约束描述及对应 VRPLIB 格式字段

约束类型 VRPLIB 字段 描述
容量约束(C) CAPACITYDEMAND SECTION 每辆车有最大载重限制,每个客户有需求,需在不超过载重的前提下满足客户需求。
路线长度限制(L) DISTANCE LIMIT 每辆车的路线有最大行驶距离限制,任何路线的总距离不得超过该限制。
时间窗口约束(TW) TIME WINDOW SECTIONSERVICE TIME SECTION 每个客户需在特定时间区间内得到服务,服务时间需纳入调度以保证可行性。
开放式路线(O) DEPOT SECTION 车辆服务完指定客户后,无需返回仓库,打破了传统 “封闭式路线” 的假设。
电动车辆约束(E) FUEL CAPACITYFUEL CONSUMPTION RATEREFUEL RATESTATION SECTION 电动车辆受电池容量限制,行驶过程中消耗能量,需在充电站充电。
多仓库约束(MD) DEPOT SECTION 定义多个仓库,车辆可从不同仓库出发或在不同仓库结束,实现跨区域灵活资源分配。
回程约束(B) DEMAND SECTION 每条路线需同时包含送货(正向运输)与取货(回程运输),且取货需在所有送货完成后进行。
混合回程约束(MB) DEMAND SECTION 同一条路线中,正向运输客户与回程运输客户可混合排序。

3 方法设计

本节详细介绍 AFL 框架 —— 这是一种基于大型语言模型的智能体框架,通过将 “复杂车辆路径规划流程” 拆解为 “问题描述”“代码生成”“解决方案推导” 三个子任务,实现复杂问题的求解。在这些子任务中,生成智能体(GA)、判断智能体(JA)、修订智能体(RA)、错误分析智能体(EAA)四类专用智能体各司其职、协同工作,最终提升 “生成代码的可靠性” 与 “解决方案的合理性”,确保满足问题实例的约束要求。

AFL 的整体流程如图 1 所示,具体步骤如下:

  1. 给定车辆路径规划问题实例 G,系统首先通过 GA、JA、RA 的协同生成问题描述 D (G);
  2. 利用该问题描述查询 “缓存库”(存储过往测试过的问题代码),检查是否存在相关代码:
  • 若存在,直接进入 “解决方案推导” 阶段;
  • 若不存在,GA 逐一生成所需函数,JA 与 RA 则迭代评估并优化代码,直至满足所有需求与约束;
  1. 生成完整代码后,执行代码以推导解决方案;若执行过程中出现错误,EAA 诊断错误原因并提供解释与修改建议,RA 与 JA 根据建议修订代码;
  2. 重复上述过程,直至代码通过验证并生成可行解决方案,最终将 “问题描述 D (G)” 与 “对应生成代码” 存入缓存库,供后续复用。

3.1 专用智能体

生成智能体(GA)负责生成描述与代码。在问题描述子任务中,它会为输入的 VRPLib 格式实例 G 生成描述 D (G);在代码生成子任务中,它会在实例、生成的描述以及与函数 f 相关的特定提示词 P (f) 的引导下,以端到端的方式生成函数代码 C (G, D (G), P (f))。生成后的描述与代码会被传递给判断智能体(JA)进行评估。

判断智能体(JA)负责评估生成的描述与代码的有效性。在问题描述子任务中,它会验证 D (G) 是否与实例背景相符;在代码生成与解决方案推导子任务中,它还会进一步评估生成或修订后的代码是否满足提示词要求,且不存在语法与逻辑错误。若评估结果为阳性(即符合要求),则描述或代码被认可,流程进入下一步;若评估结果为阴性,则 JA 会说明发现的问题,并为修订智能体(RA)提供解决建议。

修订智能体(RA)负责优化描述与代码。描述的修订会以 JA 的反馈和实例背景为指导,而代码的修订还会额外借助之前生成的描述。每次修订后,更新后的描述或代码会返回给 JA 重新评估,此过程不断重复,直至 JA 给出阳性评估结果。

错误分析智能体(EAA)仅在解决方案推导子任务中发挥作用,它会分析代码执行过程中出现错误的原因,并提供解决建议。随后,这些分析结果会被传递给 RA,用于代码修订。

3.2 子任务 1:问题描述

描述生成

给定一个 VRPLib 格式的实例 G,本框架无需人工干预,可自动从实例背景中提取领域知识,为问题设置提供用户友好的交互界面。VRPLib 格式是车辆路径规划问题(VRPs)中广泛采用的基准规范,定义了问题类型、节点数量、节点坐标、仓库 ID 以及各类约束相关参数等核心要素(如表 2 所示)。基于此,生成智能体(GA)会为给定实例生成问题描述 D (G) = {P, S, K, X, Y, Z},详细示例见附录 D.1。下面对 D (G) 的各组成部分进行定义:

  1. P 用于指定问题类型(如带容量约束的车辆路径规划问题 CVRP、带时间窗口的车辆路径规划问题 VRPTW、带时间窗口的电动车辆路径规划问题 ECVRPTW 等)。它由实例背景中定义的问题类型与约束相关参数推导得出,并决定生成的代码文件名(如 CVRP.py)。
  2. S 表示对实例问题类型的文本描述,会被提供给代码生成子任务,以便智能体了解问题定义。
  3. K 代表包含解释的约束集合,由实例背景中指定的约束相关参数与问题类型推导而来。此外,K 还包含访问约束与仓库约束 —— 这些是生成智能体(GA)自动分析推导得出的补充要求。在代码生成子任务中,K 会指导智能体将这些约束融入函数设计,从而提升解决方案的可行性。
  4. X 表示求解给定实例所需的输入信息。在代码生成子任务中,它明确了需从实例中读取的信息,并通过要求输入变量名与 X 中的名称保持一致来保证一致性,进而减少潜在错误。例如,在带容量约束的车辆路径规划问题(CVRP)中,X 包括节点坐标、仓库 ID、客户需求与车辆容量。
  5. Y 表示预期输出。以带容量约束的车辆路径规划问题(CVRP)为例,求解器应生成一组车辆路线,每条路线均从仓库出发并最终返回仓库,需恰好访问每个客户一次,且确保每条路线均不超过车辆容量限制,并满足所有客户需求。此外,返回的路线应是候选方案中最优的可行方案。
  6. Z 表示目标函数(如最小化总行驶距离),该函数还会用于构建成本函数代码。

描述判断与修订

生成智能体(GA)生成上述问题描述 D (G) 后,判断智能体(JA)会评估其正确性,评估内容包括:(1)D (G) 的任一组成部分是否与实例存在冲突;(2)各组成部分内部是否一致;(3)输入定义 X 在实例背景中是否明确指定。若检测到冲突,会以实例背景为基准;若未发现问题,则输出设为 “TRUE”,问题描述子任务终止,流程进入下一阶段的代码生成子任务;若发现问题,则输出设为 “FALSE”,同时附带阴性评估的解释以及供修订智能体(RA)修正的建议。随后,RA 会根据 JA 的反馈与实例背景修订 D (G),修订后的描述会返回给 JA 重新评估,此迭代过程持续进行,直至 JA 确认 D (G) 正确无误。如 4.5 节的消融实验所示,这种迭代流程可提升 D (G) 的准确性。问题描述子任务会为代码生成提供必要信息,并强制采用统一的命名规范与约束要求,且这些规范与要求在整个流程中必须保持一致。

3.3 子任务 2:代码生成

我们采用统一的 “破坏 - 插入” 启发式算法求解车辆路径规划问题(VRPs),该算法相比其他算法灵活性更高,能够处理复杂的实际问题变体。代码生成子任务包含多个相互依赖的函数:read_vrp(读取 VRP 实例)、distance(计算距离)、cost(计算成本)、initial(生成初始解)、destroy(破坏当前解)、insert(插入客户节点)、validate(验证解的可行性)以及 main(主函数),这些函数共同构成一个完整的 VRP 求解器。然而,生成完整的求解器代码具有挑战性,因为它需要在满足所有要求的同时,保证多个函数之间的一致性。

为解决这一问题,生成智能体(GA)会按顺序生成函数,每个函数均基于之前生成的代码构建,以确保正确性并减轻大型语言模型(LLM)的负担。此外,在每个函数生成后,判断智能体(JA)与修订智能体(RA)会通过修正未满足的要求、语法错误与逻辑不一致问题,对代码进行迭代优化。下面详细介绍每个步骤:

代码生成

问题求解流程的代码结构如图 2 所示。

我们明确了每个函数的作用,为引导生成智能体(GA)生成对应代码提供结构化基础。需注意的是,这些函数仅在解决方案推导子任务中执行,若出现运行时错误,会由错误分析智能体(EAA)进行修正。具体流程如下:

  1. 首先,read_vrp 函数会将 VRPLib 格式的实例文件解析为结构化字典,该字典包含输入 X ∈ D (G) 中指定的所有必填字段,确保 X 中的每个变量都能从实例背景 G 中准确提取。
  2. 接着,distance 函数会根据节点坐标计算距离矩阵。
  3. initial 函数会采用贪心策略生成一个满足约束 K 的初始解,该解的可行性由 validate 函数验证。
  4. cost 函数会根据目标函数 Z 评估给定解的目标值。
  5. 为实现迭代优化,destroy 函数会按照附录 C.2 与算法 1 中描述的策略,从当前解中移除部分客户节点。
  6. 随后,insert 函数会将移除的客户节点重新插入到可行位置,同时最小化额外成本。若不存在可行的插入位置,则会分配新车辆为这些客户提供服务,且需满足约束 K 的要求。
  7. 在每一步优化过程中,validate 函数都会验证所得解的可行性,确保满足约束 K 中的所有要求。若检测到约束违反,该函数会抛出错误,以协助 EAA 进行调试。
  8. 最后,main 函数会统筹整个工作流程,包括初始化解、迭代优化以及整体解的管理(如图 2 所示)。在初始化阶段,会生成一个初始可行解;在优化阶段(共 T 步),会通过 “破坏 - 插入 - 验证 - 成本评估” 的流程对解进行迭代优化,并根据模拟退火准则(见附录 C.3)决定是否接受新解。

代码判断与修订

对于生成智能体(GA)生成的每个函数,判断智能体(JA)都会评估当前代码的正确性,检查其是否符合要求,并检测是否存在语法或逻辑错误。若发现问题,修订智能体(RA)会根据 JA 的反馈与实例背景修订代码,修订后的代码会返回给 JA 重新评估,此过程不断重复,直至 JA 给出阳性评估结果。

通过在生成下一个函数前验证并修正每个代码片段,该机制可减轻后续代码生成与修订的负担,提高效率,并增强最终求解器实现的可靠性。此外,在整个代码生成过程中,会始终关注约束要求,反复检查生成的代码,确保约束 K 中的所有要求都被妥善融入。这种迭代式的约束强化,有助于最终的求解器生成满足实例约束的可行解。

3.4 子任务 3:解决方案推导

由于构建完整的车辆路径规划问题(VRP)求解器复杂度极高,代码生成子任务中生成的函数并非总能正常执行。错误的产生原因多样:部分源于语法错误,部分源于逻辑缺陷,还有部分源于未满足的要求(如未融入某些约束)。尽管我们已设计了诸如在代码生成过程中强化约束考量等策略,但确保大型语言模型(LLM)生成代码的正确性仍非易事。

为应对这一挑战并提升生成的 VRP 求解器的可靠性,我们借助错误分析智能体(EAA)识别错误原因,并提供解释与修正建议。与代码生成子任务类似,修订智能体(RA)会根据这些反馈修订代码,随后由判断智能体(JA)评估修订结果。若代码仍不满足要求,RA 会根据 JA 的反馈进一步调整,此过程持续重复,直至 JA 给出阳性评估结果。之后,会重新执行修订后的代码以获取可行解。

最终,模型会将问题描述 D (G) 与对应的生成代码存储在缓存库中。若后续遇到相同问题,框架可直接复用存储的代码,从而提高效率,避免重复计算。

4 实验

我们首先在 48 个标准基准任务上评估 AFL 的性能,这些任务包含容量约束(C)、路线长度限制(L)、时间窗口(TW)、开放式路线(O)、多仓库(MD)、回程运输(B)以及混合回程运输(MB)等常见约束,是评估传统算法的常用基准。随后,我们将评估范围扩展到 8 个实际的电动车辆路径规划问题(E-VRPs)—— 这些问题对传统求解器而言仍具有挑战性。接下来,我们将 AFL 与基于大型语言模型(LLM)的方法进行基准对比,评估维度包括代码可靠性、解决方案可行性与整体性能。我们还通过消融实验验证了智能体设计的有效性。最后,我们在旅行商问题(TSP)、非对称旅行商问题(ATSP)、非对称带容量约束车辆路径规划问题(ACVRP)以及顺序排序问题(SOP)这 4 个额外的开放基准任务上评估 AFL,以证明其广泛的适用性。

所有传统方法与基于 LLM 的方法均在 16 核 CPU 上运行,AFL 默认使用的大型语言模型为 GPT-4.1(OpenAI, 2024)。

4.1 标准基准任务对比

我们将 AFL 与传统求解器(基于 PyVRP 实现的 HGS(Vidal, 2022;Wouda 等,2024)、OR-Tools(Furnon & Perron))以及神经求解器 RF-POMO(Berto 等,2025b)进行对比。实验设置与测试数据遵循 Berto 等(2025b)的方案,每个问题包含 1000 个实例。需注意的是,我们的目标并非在传统 VRPs 上超越现有最优(SOTA)求解器 —— 这些求解器凝聚了数十年的专家心血,而是开发一个全自动化、可独立运行的框架,用于处理复杂的 VRPs。因此,在表 3 所示的对比中,我们将与 SOTA 求解器的相对差距在 3% 以内视为可接受标准。

我们报告了 AFL 在 500 次、2000 次与 10000 次解优化迭代后的结果。AFL 的运行时间为问题描述与解决方案推导阶段的时间之和,代码生成阶段未被计入 —— 这一阶段类似于神经求解器的训练阶段,一旦生成求解器代码,便可在多个实例中复用,无需重复生成。部分结果如表 3 所示,完整结果因篇幅限制放在附录的表 10 中。

AFL 可在无需任何人工干预的情况下,自动生成完整的 VRP 求解器。如表 3 所示,在大多数基准问题上,AFL 与 SOTA 求解器 HGS 的相对差距均在 3% 以内,展现出极具竞争力的性能。值得注意的是,报告的运行时间存在随机波动性:问题复杂度更高并不一定会导致运行时间更长。例如,在 OCVRPL 问题上的运行时间就短于 CVRPL 问题。这种波动性源于基于大型语言模型的代码生成过程 —— 模型偶尔可能生成算法复杂度更高的实现(如排序算法),进而导致运行时间延长。

4.2 实际基准任务对比

HGS(Vidal, 2022;Wouda 等,2024)、OR-Tools(Furnon & Perron)等传统求解器受限于其内部实现,若不对核心代码库进行大量修改,无法直接适配新的问题场景;而 AFL 则能自然地适配实际的车辆路径规划问题(VRPs)。为验证这一点,我们在带时间窗口的电动车辆路径规划问题(ECVRPTW)的常用基准数据集(Schneider 等,2014)上开展实验 —— 该问题是电动车辆路径规划问题(EVRP)的典型变体。该数据集包含 36 个小型实例(客户数量为 5、10、15)与 56 个大型实例(客户数量为 100)。

为进一步评估通用性,我们将该基准数据集扩展到另外 7 个 EVRP 变体,即 ECVRP(电动带容量约束车辆路径规划问题)、ECVRPL(电动带容量与路线长度约束车辆路径规划问题)、EOVRPL(电动开放式带路线长度约束车辆路径规划问题)、EOCVRP(电动开放式带容量约束车辆路径规划问题)、EOCVRPTW(电动开放式带容量与时间窗口约束车辆路径规划问题)、ECVRPLTW(电动带容量、路线长度与时间窗口约束车辆路径规划问题)以及 EOCVRPLTW(电动开放式带容量、路线长度与时间窗口约束车辆路径规划问题),从而在更多样化、更具挑战性的问题场景下进行全面评估。

鉴于这些问题本身的复杂性,且缺乏可直接应用的先进求解器,我们采用蚁群优化算法(ACO)与贪心算法(Greedy)作为基准方法 —— 这两种算法都是处理复杂 VRPs 的常用灵活启发式算法。其中,ACO 的优化步数固定为 500 步。表 4 中的结果表明 AFL 具有稳定的有效性:尽管 ACO 执行了 500 步优化,但 AFL 仍能以更短的运行时间获得更优的目标值。这些实验结果凸显了 AFL 在复杂实际 VRPs 上的优势 —— 传统求解器在这类问题上往往存在局限性。

4.3 与基于大型语言模型的求解器对比

我们从可靠性与性能两个维度,将 AFL 与处理多种 VRP 变体(16 种以上,外加旅行商问题 TSP)的代表性基于大型语言模型(LLM)的方法(即 SGE(Iklassov 等,2024)与 DRoC(Jiang 等,2025))进行对比;由于 ARS(Li 等,2025a)的源代码不可得,故未将其纳入对比。

在可靠性评估方面,我们报告了运行错误率(RER)与成功率(SR):运行错误率衡量生成代码中执行出错的比例;成功率衡量生成代码中能生成可行解的比例。如附录 C.5 与表 5 所示,SGE 仅能求解 TSP 问题,运行错误率高达 94.1%,成功率仅为 5.9%;DRoC 的适用范围扩展到 TSP、CVRP(带容量约束车辆路径规划问题)与 VRPL(带路线长度约束车辆路径规划问题),运行错误率为 82.4%,成功率为 17.6%。与之形成鲜明对比的是,AFL 成功处理了所有 17 种测试的 VRP 变体,运行错误率为 0%,成功率为 100%,充分体现了其在代码可靠性与解决方案可行性上的显著优势。

在性能评估方面,我们进一步在 SGE 与 DRoC 可求解的问题类别(即 TSP、CVRP 与 VRPL)上评估 AFL。具体而言,我们在 TSPLib(Reinelt, 1991)与 CVRPLib(Uchoa 等,2017)这两个真实世界基准数据集上开展实验:TSPLib 包含 50 个实例(客户数量范围为 50-1000),用于 TSP 问题;CVRPLib 包含 100 个实例(客户数量范围为 100-1000),用于 CVRP 问题。此外,由于 ReEvo(Ye 等,2024)的原始论文中同时求解了 TSP 与 CVRP 问题,我们还报告了 ReEvo 在这两个数据集上的结果,以提供更全面的评估。对于 VRPL 问题,我们采用与 4.1 节相同的基准设置。

表 6 展示了对比结果:TSPLib 与 CVRPLib 的差距是相对于其已知最优解计算的,而 VRPL 的差距是相对于 HGS 求解器计算的。在 10 小时时间限制内,DRoC 仅能求解客户数量少于 500 的 CVRPLib 实例。在所有评估基准上,AFL 的性能均持续优于 SGE、DRoC 与 ReEvo。

4.4 与提示词策略对比

为评估模型的有效性,我们将 AFL 与多种经典提示词策略进行对比,包括标准提示词(Brown 等,2020)、自优化(self-refine)(Madaan 等,2023)、自调试(self-debug)(Chen 等,2023)、自验证(self-verification)(Weng 等,2022)以及思维链(CoT)提示词(Wei 等,2022)。表 7 呈现了对比结果,其中差距是相对于 HGS-PyVRP 求解器计算的。为保证对比公平性,所有策略均采用相同的分步函数生成流程。结果显示,AFL 的运行错误率最低、成功率最高,且整体解决方案质量最优。

4.5 消融实验

为验证判断智能体(JA)与修订智能体(RA)的必要性,我们开展了消融实验 —— 将这两个智能体从 AFL 中移除。图 3 展示了实验结果:若移除 JA 与 RA,框架会频繁生成错误的问题描述与无效代码;若仅保留 RA,框架的稳健性会有所提升,能生成更准确的问题描述与可执行代码;若同时保留 JA 与 RA,问题描述的准确率接近 100%,且框架能生成可靠的代码与可行的解决方案。这种提升源于这些智能体确保了在代码生成过程中充分考虑所有操作要求。这些结果验证了我们的智能体设计的合理性,表明 JA 与 RA 对于维持准确的问题描述、确保生成代码与推导解决方案的可靠性至关重要。

4.6 广泛适用性

我们进一步在另外 4 个开放基准任务(TSP、ATSP、ACVRP 与 SOP)上评估 AFL。其中,TSP 的结果如表 6 所示;ATSP(非对称旅行商问题)与 ACVRP(非对称带容量约束车辆路径规划问题)涉及非对称路线规划,这在实际应用中较为常见;SOP(顺序排序问题)则引入了带优先约束的路径规划,是另一种具有实际意义且颇具挑战性的场景。

具体而言,ATSP 基准数据集(Johnson & McGeoch, 1997)包含 18 个实例(节点数量范围为 17-443);ACVRP 数据集(Helsgaun, 2017)包含 120 个带容量约束的实例(客户数量范围为 16-200),且距离矩阵具有非对称性;SOP 基准数据集(Renaud 等,1996)包含 39 个带优先约束的实例(节点数量范围为 9-380)。ATSP、ACVRP 与 SOP 的实验结果分别见附录的表 12、表 13 与表 14。AFL 在这些多样化数据集上均取得了极具竞争力的性能,证明其具有广泛的适用性,也表明我们的框架有望扩展到更多问题变体。

5 结论

本文提出了一种基于大型语言模型(LLM)的智能体框架 AFL,用于求解复杂的车辆路径规划问题(VRPs)。与依赖人工干预或预设模块的现有方法不同,AFL 通过直接从原始输入中提取领域知识,端到端生成可执行代码与可行解决方案,实现了代码的独立性与全自动化。

通过将求解流程拆解为三个可处理的子任务,并协调四个专用智能体的工作,AFL 显著提升了代码可靠性与解决方案可行性。在 60 个标准与实际 VRP 变体上的大量实验表明,AFL 具有有效性、适用性与可靠性。

AFL 的主要局限性在于性能 —— 在带容量约束的车辆路径规划问题(CVRP)等研究较为成熟的问题上,其性能尚未超越专门设计的现有最优(SOTA)求解器。但考虑到 AFL 的自动化与通用性,这种权衡是可接受的。未来,我们计划融入进化搜索等策略来指导代码生成,进一步提升代码质量与搜索效率。

总体而言,本文的研究凸显了基于智能体的大型语言模型(agentic LLMs)在求解复杂组合优化问题中的潜力 —— 只需极少的领域知识,就能构建通用且可靠的求解范式。这为开发更自主、更具适应性的优化框架奠定了基础,也让非专业用户更易获取先进的优化技术。

最后

为什么要学AI大模型

当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!

DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述
最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

AI大模型系统学习路线

在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

img

但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。

AI大模型入门到实战的视频教程+项目包

看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径

在这里插入图片描述
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

海量AI大模型必读的经典书籍(PDF)

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
在这里插入图片描述

600+AI大模型报告(实时更新)

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

AI大模型面试真题+答案解析

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐