【论文学习】Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning

随着大语言模型（LLMs）的快速发展，出现了多种架构和微调变体。为了充分利用这些模型的互补优势，LLM路由器应运而生，用于动态调度用户查询到最适合的模型以提高回答质量和效率。然而，现有的LLM路由器通常只进行单轮的一对一映射，即将每个查询分配给单个模型，这限制了它们处理复杂任务的能力，因为复杂任务往往需要多个模型的协同交互来发挥它们的互补优势。因此，如何协调多个LLM在多轮路由和聚合过程中共同解决

bylander

1261人浏览 · 2025-10-16 22:35:22

bylander · 2025-10-16 22:35:22 发布

https://arxiv.org/pdf/2506.09033

先对论文《Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning》的大概看一下。

研究动机

研究现状

在LLM路由器的研究中，已有多种方法被提出。例如，HybridLLM通过预测查询难度和用户定义的质量预算来选择小模型或大模型；GraphRouter将LLM选择建模为任务 - 查询 - 模型图上的归纳边预测问题；FrugalGPT采用LLM级联方法来平衡性能和成本；TO-Router统一了多个特定领域的专家LLM，并根据任务需求调度查询；C2MAB-V利用成本感知的组合多臂老虎机动态选择最优LLM子集；RouterDC通过查询和LLM嵌入之间的双重对比学习来增强路由。这些方法大多关注于单次路由决策，而没有考虑多轮路由和聚合的复杂场景。

创新点

论文的创新点在于将多LLM路由和聚合建模为一个序列决策过程，并提出了一种基于强化学习的框架Router-R1。具体来说：

多轮路由与聚合：Router-R1能够进行多轮的内部推理（“思考”）和外部模型调用（“路由”），通过迭代交互逐步构建答案，这与以往单次路由决策的方法有显著区别。
强化学习训练：采用强化学习来优化决策策略，并设计了一个轻量级的基于规则的奖励函数，包括格式奖励、最终结果奖励和成本奖励，以平衡性能和成本。
对未见模型的泛化能力：Router-R1仅依赖于简单的模型描述符（如定价、延迟和示例性能）进行路由决策，从而能够对未见过的模型选择进行强泛化，无需重新训练。

解决方案

Router-R1的核心是将路由器本身实例化为一个有能力的LLM，利用其推理能力来交替进行内部推理和目标模型选择。具体来说：

强化学习公式化：将LLM协调建模为一个序列决策问题，在每一步中，Router-R1可以选择进行内部推理或从可用LLM池中调用特定模型。
奖励函数设计：设计了一个包含格式奖励、最终结果奖励和成本奖励的奖励函数，以提供合理的监督信号。
多轮交互训练范式：构建了训练提示模板，并在训练过程中与LLM路由池进行多轮交互，以支持推理和路由之间的交替。

实验设计

数据集和评估指标：在七个问答（QA）数据集上评估Router-R1，包括一般QA和多跳QA基准测试，并使用精确匹配（EM）和F1分数来评估预测的正确性。
基线比较：与多种基线方法进行比较，包括基本基线（如直接推理、链式思考提示等）和查询基础的LLM路由器。
实验结果：实验结果表明，Router-R1在所有七个数据集上均优于所有基线方法，显示出其在处理复杂任务时的优越性能和泛化能力。

研究结论

性能优势：Router-R1通过多轮路由和推理，能够有效地协调多个LLM的优势，从而在各种QA任务中实现卓越的性能。
成本效益：通过成本奖励机制，Router-R1能够在性能和成本之间实现灵活的权衡，根据成本约束动态调整路由策略。
泛化能力：Router-R1能够对未见过的LLM进行泛化，无需重新训练即可适应新的模型选择。

未来方向

论文指出了一些未来的研究方向：

任务范围扩展：目前的评估主要集中在QA任务上，未来可以探索Router-R1在对话、总结或代码生成等其他领域的应用。
奖励函数改进：当前的基于规则的奖励函数可能不足以捕捉更细微的目标，如事实一致性或长期对话连贯性。未来可以考虑引入学习型或有人工参与的奖励函数。
推理延迟优化：尽管Router-R1旨在优化成本，但其多轮特性可能会引入推理延迟，尤其是在推理步骤与多次模型调用交替时。未来可以探索通过模型剪枝或路由启发式方法来减少推理延迟。
对模型描述符的依赖：对未见LLM的泛化依赖于简单的描述符，如定价和延迟。这些描述符可能无法捕捉模型的深层行为或能力，尤其是在性能数据有限的情况下。

在这里插入图片描述

Router-R1:通过强化学习训练LLM多轮路由和聚合

摘要

多样化的大型语言模型 (LLMs) 的快速涌现推动了 LLM 路由器的发展，这些路由器将用户查询分配给最合适的模型。然而，现有的 LLM 路由器通常执行单轮、一对一映射（即独立地将每个查询分配给单个模型），这限制了它们处理需要多个 LLM 协同优势的复杂任务的能力。在本文中，我们提出了

Router-R1，一个基于强化学习(RL)的框架，将多LLM路由和聚合表述为一个序列决策过程。Router-R1将路由器本身实例化为一个强大的LLM，利用其推理能力在“思考”动作（内部思考）和“路由”动作（动态模型调用）之间交替，并将每个响应集成到其不断发展的上下文中。为了促进学习，我们采用了一种轻量级的基于规则的奖励，包括格式奖励、最终结果奖励以及一种新的成本奖励，用于优化性能和成本之间的平衡，为通过RL增强性能-成本权衡开辟了途径。Router-R1仅基于简单的模型描述符（如定价、延迟和示例性能）进行条件化，从而能够对未见过的模型选择进行强大的泛化。在七个通用和多跳问答基准上的实验表明，Router-R1优于几个强大的基线，在保持强大的泛化和成本管理的同时实现了卓越的性能。

1简介

大型语言模型（LLMs）以前所未有的速度迅速发展，每月甚至每周都会发布新的架构和微调变体[21,1]。为了利用多个LLMs的互补优势（例如，一个模型的流畅性相对于另一个模型的事实准确性），LLM路由器已成为一个关键的基础设施组件，动态地将用户查询分配给单个选定的模型，以最大化答案质量和效率[3,6,2,5,26,30,4]。虽然这种一次性路由策略可以提高平均性能，但它忽略了真正复杂的推理任务通常需要多个模型之间的协调交互，不仅需要做出单一选择，还需要协调一系列模型调用以利用它们的互补优势。这一观察提出了一个关键挑战：我们如何在多轮路由和聚合过程中协调多个LLMs，以共同解决复杂任务？

回答这个挑战并不简单。首先，在每一轮中选择要调用的LLM的离散决策过程本质上是非可微分的，这排除了通过反向传播进行端到端训练的简单方法。尽管先前的工作已经将基于梯度的方法应用于单次路由[3, 6, 2, 5]，但将它们扩展到多轮选择和聚合迅速变得难以处理。其次，现有的路由器在单步模式下运行：给定一个查询，选择一个模型，收集它的输出，然后停止 [3, 6]。然而，复杂任务（例如，多跳问答）需要一系列交错推理和模型选择决策，一次性选择很少足够。因此，我们必须设计一个交替机制，在“深度思考”推理（内部思考）和目标LLM选择之间切换，以迭代地完善答案。

为应对这些挑战，我们引入了Router-R1，这是一个基于强化学习的多轮LLM路由和聚合框架。我们并非做出单一调度决策，而是将LLM协调问题形式化为一个序列决策问题。在每个步骤中，Router-R1选择是否执行内部推理（“思考”）或从一组可用的LLM中调用特定模型（“路由”），通过迭代交互逐步构建答案。为支持推理与路由之间的交互，我们将路由器本身实例化为一个功能强大的LLM，利用其固有的推理能力执行长形式思考和目标模型选择。这种灵活的推理和模型选择交织使Router-R1能够以任务感知的方式自适应地组合多个LLM的优势。为优化这一决策策略，我们采用强化学习，并设计了一个简单但有效的基于规则的奖励函数，该函数由三部分组成：用于生成结构化输出的格式奖励、基于任务正确性的最终结果奖励，以及惩罚过度使用昂贵路由模型的成本奖励，为Router-R1在训练过程中导航性能-成本权衡提供了能力。此外，Router-R1在无需重新训练的情况下，通过基于定价、延迟和示例性能等简单描述符对其路由决策进行条件化，表现出对新增LLM候选者的强大泛化能力。这些组件共同使Router-R1成为协调多个LLM解决复杂推理任务的稳健且灵活的解决方案。通过在七个多样化的QA基准上进行综合实验，涵盖一般和多跳问答，我们证明Router-R1始终优于多个强基线，并达到最先进性能。对成本感知路由和泛化到未见过的LLM的进一步分析也突出了我们方法的灵活性和鲁棒性。

我们的贡献总结如下：

我们提出了Router-R1，一个基于强化学习的多轮LLM路由和聚合框架。通过将路由器本身实例化为一个强大的LLM，Router-R1自然地交错内部推理和外部模型选择，能够跨多个LLM进行自适应协调以解决复杂任务。
我们设计了一个简单而有效的基于规则的奖励函数，包括格式奖励、最终结果奖励和成本奖励，使Router-R1能够导航性能-成本权衡。此外，通过基于简单的模型描述符，Router-R1可以泛化到未见过的LLM而无需重新训练。
通过在七个问答基准上进行的大量实验，我们表明Router-R1优于几个有竞争力的基线，实现了卓越的性能和鲁棒的泛化。

2相关工作

2.1基于查询的LLM选择路由器

各种大语言模型（LLM）的快速崛起推动了基于查询的大语言模型（LLM）路由器的发展，这些路由器旨在将查询引导至最合适的模型，以提高响应质量和效率。HybridLLM [5] 提出了一种动态路由器，根据预测的查询难度和用户定义的质量预算在小型和大型 LLM 之间进行选择。GraphRouter [6] 将 LLM 选择表述为在任务-查询-模型图上的归纳式边缘预测，实现成本效益估计和新的 LLM 的轻松集成。为了明确平衡性能和成本，FragalGPT [2] 采用了 LLM 级联方法，而 FORC [26] 将查询路由到适当规模的模型以实现成本效益推理。TO-Router [30] 在一个界面下统一了多个特定领域的专家 LLM，并根据任务需求分发查询。C2MAB-V [4] 利用成本感知的组合多臂老虎机动态选择最佳 LLM 子集。RouterDC [3] 通过查询和 LLM 嵌入之间的双重对比学习来增强路由。最后，RouteLLM [22] 利用人类偏好数据在强 LLM 和弱 LLM 之间动态选择，有效降低成本同时保持质量。

与之前的方法不同，Router-R1将路由视为一个序列决策过程，在内部“思考”步骤和多轮模型路由之间交替进行，通过将路由器本身实例化为一个强大的LLM来完善其答案。此外，其基于强化学习（RL）的训练利用成本奖励来平衡性能和成本，实现灵活的性能-成本权衡和资源感知路由。

2.2 通过强化学习优化LLM行为

近年来，强化学习（RL）已成为一种强大的范式，用于微调大型语言模型（LLMs），以更好地与人类偏好保持一致。早期工作如RLHF（从人类反馈中进行强化学习）[23]，在人类判断的基础上训练奖励模型，然后应用策略优化算法（如PPO [27]）来引导基础语言模型生成更理想的输出。在此基础上，RLAIF [17]在摘要和对话等任务上表现出可比或更好的性能，其直接变体（d-RLAIF）消除了对显式奖励模型的需求，提高了效率。RRHF [37]在不使用奖励预测器的情况下，对模型生成的和外部响应进行排序以训练偏好，取得了与RLHF相当的结果。最近，直接偏好优化（DPO）系列方法 [25, 20]通过直接在人类偏好数据上进行训练，避免了RL采样和复杂调优，同时匹配或超越了RLHF。除了这些基于奖励的微调进展外，其他基于RL的技术（如Search-R1 [13]）使LLM能够与外部工具（如搜索引擎）自适应交互，允许它们在推理过程中动态检索和整合外部信息。这些方法突出了RL在优化LLM行为方面的潜力，特别是在需要实时信息访问和决策的任务中，超越了基于静态提示的生成。

3 Router-R1

在本节中，我们将详细阐述我们提出的Router-R1，分为三个部分。3.1节介绍了带有LLM路由池的强化学习公式。3.2节介绍了奖励管理策略，包括格式奖励、最终结果奖励和成本奖励。3.3节描述了多轮交互训练过程，包括训练提示模板和多轮交互LLM路由池。我们在图1中展示了Router-R1的架构。

3.1 通过与 LLM 路由池协调的强化学习

在Router-R1中，我们采用一个带有LLM路由池 $P\mathcal{P}$ 的通用策略优化目标，其公式表示为：

$\max _ {\pi} \mathbb {E} _ {x \sim D, y \sim \pi (\cdot | x; \mathcal {P})} r _ {\phi} (x, y) - \beta \log \frac {\pi y x ; \mathcal {P}}{\pi_ {\text {r e f}} (y | x ; \mathcal {P})}, \tag {1}$

其中 $π\pi$ 表示要优化的策略LLM， $πref\pi_{\mathrm{ref}}$ 是一个参考LLM，可以是固定的或迭代更新的，以实现稳定训练。 $x$ 表示来自数据集 $D$ 的输入样本， $y$ 表示从策略 $πref(y∣x;P)\pi_{\mathrm{ref}}(y \mid x; \mathcal{P})$ 生成的输出样本，这些样本与从LLM路由池 $P\mathcal{P}$ 获取的结果交错。 $rϕ(x,y)r_{\phi}(x, y)$ 是奖励函数， $P\mathcal{P}$ 是LLM路由池，它提供了一组可供选择的候选LLM。KL正则化项确保更新后的策略与参考策略保持接近，正则化系数 $β\beta$ 控制这种权衡。这种公式是通用的，涵盖了各种正则化强化学习算法，如PPO [27], GRPO [28], 和KL-约束方法，允许在LLM候选池中进行灵活的策略更新。

此外，在此优化目标下，策略LLM可以从LLM路由池 $P\mathcal{P}$ 中动态选择候选LLM进行多轮选择，并通过向候选LLM提供相关上下文来获取关于输入样本的辅助信息，从而增强策略LLM的推理过程。在这种情况下，策略LLM可以被视为一个协调器，选择和协调多个候选LLM共同解决复杂任务。

3.2奖励管理

为了向Router-R1提供合理且有效的监督信号，我们精心设计了奖励函数，包括格式奖励、最终结果奖励和成本奖励，我们将在下面详细描述。

图1：Router-R1架构。(a)单轮路由：传统的路由器通过一次性决策将每个查询独立分配给单个LLM，无需内部推理或多模型协调。(b)多轮路由（我们的方法）：Router-R1将多LLM路由视为一个序列决策过程，该过程利用基于LLM的路由器交替内部推理与外部LLM路由，并将检索到的信息整合到其不断演变的上下文中。这使得复杂任务能够进行自适应的多模型协调，超越单轮路由，性能更优。

3.2.1奖励格式

受 [8], 启发以稳定训练并确保 LLM 响应滚动符合预定义的格式（详见第 3.3 节），我们对 Router-R1 施加严格的格式验证。具体来说，根据以下规则分配格式奖励：如果响应滚动不满足所需格式，则格式奖励设置为 -1；否则，设置为 0:

$\mathbf {R} _ {\text {f o r m a t}} = \left\{ \begin{array}{l l} - 1, & \text {i f t h e f o r m a t i s i n c o r r e c t} \\ 0, & \text {i f t h e f o r m a t i s c o r r e c t} \end{array} \right. \tag {2}$

3.2.2最终结果奖励

在Router-R1中，我们采用精确匹配（EM）来衡量LLM预测答案与真实答案之间的正确性，并利用它作为唯一的最终结果奖励来指导Router-R1的优化：

$\mathbf {R} _ {\text {o u t c o m e}} = \mathbf {E M} \left(y _ {a}, g _ {t}\right), \tag {3}$

其中 $y_{a}$ 是从生成的输出 $y$ 中提取的预测答案， $g_{t}$ 表示真实答案。EM强调预测答案与黄金答案的完整和严格匹配，许多工作已经证明这是一种简洁且有效的基于规则的奖励[8,13]。

3.2.3 成本奖励

为了平衡从路由池中调用候选LLM的额外成本，我们引入了查询候选LLM产生的计算成本作为成本奖励。这种设计使Router-R1能够不仅优化模型性能，还能优化性能与计算效率之间的权衡。

形式上，成本奖励与候选LLM产生的输出token数量以及模型相关的每token成本函数成反比，该函数反映了使用不同模型的计算成本：

$\mathbf {R} _ {\text {c o s t}} \propto - m \left(P _ {\mathrm {L L M}}\right) \cdot T _ {\text {o u t}}, \tag {4}$

其中 $PLLMP_{\mathrm{LLM}}$ 表示所选候选LLM的参数数量， $ToutT_{\mathrm{out}}$ 是它生成的输出token数量。 $m(⋅)m(\cdot)$ 是一个预定义的成本函数，将模型大小映射到其每token的计算成本（例如，基于LLM API服务的定价层级）。请注意，成本奖励在训练过程中将被归一化到0和1之间。

这样，模型越大，输出token就越多，成本回报就越小，这为Router-R1提供了实现性能成本平衡的能力。

3.2.4 总体奖励

总而言之，Router-R1的整体奖励函数可以定义为：

${\phi} (x, y) = \mathbf {R} _ {\text {f o r m a t}} + (1 - \alpha) \mathbf {R} _ {\text {o u t c o m e}} + \alpha \mathbf {R} _ {\text {c o s t}} \tag {5}$

其中 $α\alpha$ 作为控制模型性能与成本平衡的超参数。

特别是，为了缓解奖励攻击 [29] 并提高优化稳定性，我们引入了一个分层奖励作为总体奖励函数的改进（为简洁起见，未在公式5中显示）。在Router-R1中，三个奖励分量被分配了不同的优先级，在公式5中从左到右递减。具体来说，如果格式奖励为-1，则其余两个奖励将被消除（设置为零），无论其原始值如何。这种分层设计在优化性能或计算效率之前强制执行关键约束，有助于Router-R1的稳定可靠训练。

在我们的实验中，这种基于规则的明确奖励组合足以很好地优化Router-R1，这也证明了我们奖励函数设计的合理性和有效性。

3.3多轮交互训练范式

在本节中，我们描述了Router-R1的训练提示模板以及与LLM路由池的多轮交互。

3.3.1 训练提示模板

受 [8, 13], 启发, 我们构建了 Router-R1 的训练提示模板, 如图 2 所示。为确保准确且合理的响应, 我们采用结合内部推理和选择性外部查询的结构化提示。当Router-R1接收到问题时, 它首先在和块内进行内部分析, 以评估是否需要额外信息。如果需要, 它通过 Candidate LLM: Query 查询合适的专用LLM, 该查询基于预定义的LLM路由池和包含参数大小和任务专业化等详细信息的模型描述（我们在附录C中详细说明）。检索到的信息在和标签中返回, 并且该过程可能迭代以收集补充见解。最终答案在和块中输出。

值得注意的是，这里的模型描述仅作为每个候选LLM的初始先验。在策略优化过程中，策略LLM通过交互和反馈自适应地学习每个候选LLM的优势和劣势。为了进一步增强适应性，提示设计还支持无缝集成新的候选LLM，而无需重新训练。具体而言，Router-R1通过将新添加的LLM的描述直接整合到提示中来实现这种泛化能力。这种灵活性使Router-R1能够动态扩展其路由池，并有效适应新LLM的快速和持续涌现。

在这里插入图片描述

回答给定的问题。每次你接收新信息时，你必须首先在<思考>和</思考>内进行推理。
推理后，如果你发现你缺乏某些知识，你可以通过在 <搜索> 内编写查询来调用专门的 LLM。候选 LLM:查询 </搜索>。
在每次调用LLM之前，你必须明确在<思考>和</思考>内推理“为什么需要外部信息”以及“列表中哪个LLM最适合回答你的查询”，根据下面提供的简要模型描述。
当你调用LLM时，响应将在和之间返回。鼓励你多次探索和利用不同的LLM，以更好地理解它们的各自优势和劣势，以及收集更全面的信息。LLM 候选者的描述：{candidates_intro}。
如果你发现不再需要外部知识，你可以直接在和内提供你的最终答案，无需额外的解释或说明。
问题：{question}

图2：Router-R1的训练提示模板（为节省页面空间，部分文本被省略）。

3.3.2与LLM路由池的多轮交互

根据图2中的提示，Router-R1首先分析输入问题以识别必要信息，并从路由池中选择最合适的候选LLM通过子问题进行查询。在训练过程中，它学习如何分解复杂查询并根据不同LLM的优势进行自适应路由。

路由过程会在生成的序列中出现特殊的 <搜索> 标签时被触发，该标签指定目标 LLM 和预期的子查询。一旦检测到，Router-R1 会查询指定的 LLM 并将其响应插入序列中，以继续推理（为确保稳定训练，由标签标记的外部响应会从损失计算中排除）。对于复杂任务，Router-R1 可以执行多轮路由，迭代整合来自多个来源的信息，最终得出答案。对于简单问题，Router-R1 可以仅依赖策略 LLM 的内部知识来生成答案，展示了其判断是否需要外部信息的能力。

4 实验设置

4.1 数据集和指标

我们在七个问答（QA）数据集上评估Router-R1，即（1）通用QA：Natural Question (NQ) [16], TriviaQA [14], PopQA [19]; （2）多跳QA：HotpotQA (HpQA) [36], 2WikiMultiHopQA (2wiki) [9], Musique [32], 和Bamboogle (Bamb) [24]。这些数据集涵盖了单跳和多跳QA基准，为评估Router-R1的性能提供了全面的测试平台。对于指标，使用精确匹配（EM）和F1分数（F1）来评估Router-R1生成的预测的正确性，并与真实值进行比较。

4.2 基线

为了进行全面评估，我们将我们提出的Router-R1与数十个基线进行比较：

基本基线。(1) 直接推理 (Direct), (2) 思维链 (CoT) 提示 [34], (3) 监督微调 (SFT), (4) 检索增强生成, 该基线利用 Wikipedia-18 [15] 作为外部知识库, E5 [33] 作为检索器 (RAG), (5) 搜索 - R1 [13]。
基于查询的 LLM 路由器。这些基线采用类似的设置：从路由池中选择一个或多个候选 LLM 来回答输入问题（或其子问题，除非另有说明），并将它们的响应集成到基础模型的输入中以生成最终答案，模拟 Router-R1 的响应生成过程以进行公平比较。(6) 提示基础 LLM 模型选择一个候选 LLM (Prompt LLM), (7) 总是选择最大的 LLM (Largest LLM), (8) KNN 路由器 [10], (9) MLP 路由器 [10], (10) BERT 路由器 [22], (11) RouterDC [3], (12) GraphRouter [6], (13) 提示基础 LLM 将原始问题分解为子查询, 并将每个分配给一个候选 LLM (Prompt LLM*), (14) 提示基础 LLM 将原始问题分解为子查询, 并利用 KNN 路由器将每个分配给一个候选 LLM (KNN Router*).

为了训练基于查询的LLM路由器，我们额外构建了一个专门的路由器训练数据集。具体来说，每个训练问题都会独立地多次输入到LLM路由池中的每个模型，并使用温度采样。然后使用EM指标评估响应，以评估答案质量。这个过程为每个问题生成了一组EM分数，对应于路由池中的所有候选LLM，有效地为每个LLM标注了它在该问题上的性能。这些问题-LLM分数对形成了训练路由器的监督信号。

4.3 实现细节

我们使用 Qwen2.5-3B-Instruct [35] 和 LLaMA-3.2-3B-Instruct [7] 作为基础模型进行实验。为了赋予 LLM 多轮路由能力，我们设计了 Router-R1，每个输入查询最多有 4 步路由。该模型基于 Search-R1框架[13]构建，并使用veRL2进行LLM的强化学习训练，默认算法为近端策略优化(PPO)。批大小设置为64，最大训练步数为225步。在我们的主要实验中，成本系数 $α\alpha$ 设置为0.0，除非另有说明。

为了在训练中激励单轮和多轮路由能力，我们构建了一个联合数据集，其中NQ和HotpotQA数据集分别包含7K个样本。这导致了一个14K个样本的训练集，我们发现它足以诱导有效的路由策略，而无需进行大量数据过滤或复杂的采样程序。正如我们在第5节中的实验分析所示，这个适度大小的数据集能够实现鲁棒路由和聚合行为学习。

训练后，我们在NQ和HotpotQA数据集上评估领域内性能，其中Router-R1在训练期间看到了相似的数据，并评估了上述五个其他QA数据集的领域外泛化性能。对于每个评估数据集，我们随机采样500个测试实例（Bambooagle除外，它总共只包含约120个测试示例）。所有基线模型都在一致的数据集和设置下进行训练（如果需要）和评估，以确保公平比较。为了支持路由策略，我们采用了一个多样化的LLM路由池，其中包含六个不同大小和系列的代表性模型：Qwen2.5-7B-Instruct[35],LLaMA-3.1-8B-Instruct[7],LLaMA-3.1-70B-Instruct[7],Mistral-7B-Instruct[12],Mixtral-8x22B-Instruct[11],和Gemma-2-27B-Instruct[31]。基础模型训练是在NVIDIAA6000GPU上进行的，而路由LLM通过NVIDIA NIM API³访问。实验细节和提示的更多信息在附录A和C中描述。我们还提供了Router-R1的案例研究，见附录B。

5实验分析

在本节中，我们展示了全面的实证研究，以评估Router-R1的有效性。我们分析其在各种QA基准测试上的性能（第5.1节），探索其对成本约束的适应性（第5.2节），测试其在遇到未见过的LLM时的泛化能力（第5.3节），并提供对其路由行为和训练动态的见解（第5.4节）。

5.1主要结果

我们在七个QA基准测试上进行了全面的实验，涵盖通用QA和多跳QA设置，以评估Router-R1在一系列基线上的有效性。结果展示在表1中，从中我们可以得出一些关键观察。

Router-R1 在所有七个数据集上始终优于所有基本基线，实现了 SOTA 性能。与仅依赖基础 LLM 内部知识和推理能力的 Direct、CoT 和 SFT 相比，Router-R1 提供了显著更好的结果，尤其是在这些知识密集型任务上，这些基线通常表现不佳。它还以显著优势优于 RAG，因为 Router-R1 在多轮推理期间可以动态查询专门的 LLM，比依赖静态外部检索的方法提供更多灵活性和相关性。在这些基线中，Search-R1 是一种更强的方法，支持多轮搜索引擎调用，类似于 Router-R1 的多轮路由能力。然而，Router-R1 仍然显示出明显的优势，在基础 LLM 模型和大多数 QA 数据集上均取得了更好的结果。值得注意的是，Router-R1-Llama 达到了最高的平均精确匹配分数 0.409，而 Router-R1-Qwen 进一步将这一分数提高到 0.416。这些结果表明，Router-R1 在通用和多跳 QA 的路由决策中具有卓越的有效性和适应性。

Router-R1 在整体性能上显著超越了所有 LLM 路由器基线，得益于其多轮路由和交错推理。与 Prompt LLM 和 KNN Router 等单轮路由器相比，Router-R1 显示出清晰且持续的提升。即使引入了增强基线如 Prompt LLM* 和 KNN Router*, 其中输入在路由前被分解为子查询，Router-R1 仍保持显著优势。这种优越性源于 Router-R1 的核心设计：将 LLM 本身作为路由器，实现推理和路由步骤的灵活交错。这样的设计使 Router-R1 能够自适应地

表1：在七个QA数据集上关于Exact Match的实验结果。
在这里插入图片描述
加粗表示的hi g每列每个基础模型的最高分。
† 表示领域内评估；所有其他都是领域外。

跨模型进行协调并更有效地聚合它们的优势。此外，Router-R1在基线和评估基准两方面始终优于GraphRouter和RouterDC等高级LLM路由器基线。这些改进突出了Router-R1路由机制的灵活性，该机制将内部推理与多轮路由交错，以逐步优化其答案。通过通过交互和反馈调整每个查询的路由决策，Router-R1在一般和多跳问答任务中表现出色。

Router-R1在未见数据上表现出强大的泛化能力。尽管仅在NQ和HotpotQA上使用领域内样本进行训练，它却在其余五个领域外数据集上实现了稳健的性能。这表明Router-R1从有限的训练数据中学习到了可迁移的路由和推理策略，突显了其在多样化问答任务中的泛化能力。

5.2成本奖励分析

在本节中，我们研究了如何通过改变成本系数 $α\alpha$ 来影响Router-R1的学习性能-成本平衡。我们根据Together $API4\mathrm{API}^4$ 的定价层级初始化映射函数 $m(⋅)m(\cdot)$ ，并在Router-R1-Qwen上评估了四个成本系数（即0.6、0.7、0.8和0.9）。如图3所示的结果揭示了两个明显的趋势。首先，随着成本系数的增加，整体性能逐渐下降。其次，成本奖励同时上升，表明该策略更侧重于最小化昂贵的LLM调用。值得注意的是，我们观察到成本奖励的集成鼓励了一种涌现的路由策略，其中Router-R1倾向于首先查询较小的模型，并且仅在必要时才会升级到较大的模型，从而形成一种基于成本约束的动态平衡效率和准确性的自适应路由策略。我们在附录A.2和B中提供了扩展的案例研究和成本奖励分析。

这些发现证实，通过在复合奖励下进行优化，Router-R1动态调整其路由行为以遵守资源约束，并在准确性和计算成本之间实现了可控的权衡。附录A.2提供了对成本奖励的详细分析。

在这里插入图片描述

图3：在NQ、PopQA、HotpotQA (HpQA)和2WikiMulti-HopQA (2wiki)数据集上对成本奖励的分析。

5.3对未见候选LLM的泛化能力

为了评估Router-R1的泛化能力，我们向Router-R1-Qwen的路由池中扩展了两个先前未见过的模型，即Palmyra-Creative-122B $^5$ 和LLaMA3-ChatQA-1.5-8B [18]，并在推理提示中包含它们相应的模型描述符。推理直接使用原始Router-R1-Qwen检查点进行，没有任何额外的微调。

表2中的结果表明，当添加新的候选LLM时，Router-R1-Qwen在所有四个基准测试中都保持了甚至略有性能提升。特别是，它在几个数据集上取得了新的最佳分数，包括TriviaQA、PopQA和总体平均值。这种改进展示了Router-R1通过在推理时解释它们的文本描述符来泛化到未见候选LLM的能力。Router-R1不是依赖于先前的接触或重新训练，而是利用基于描述符的推理来推断新模型的优势，并相应地动态分配查询。值得注意的是，这是在不牺牲NQ和HotpotQA等任务上的领域内性能的情况下实现的，进一步验证了Router-R1路由策略的鲁棒性。与基线相比，Router-R1表现出更强的泛化能力，随着新LLM的添加实现了持续改进，而基线如GraphRouter和Prompt LLM*则显示出有限或不一致的增益，突显了它们对未见模型的适应性较弱。

总体而言，结果突出了Router-R1能够灵活适应未预见候选并选择性地利用新引入的LLMs的能力，表明其在不断发展的模型生态系统中的实际部署具有广阔前景。

5.4 讨论

LLM API 调用次数分析。为了评估 Router-R1对不同难度任务的适应性，我们分析了Router-R1-Qwen在七个问答基准测试中平均LLM API调用次数（即路由池中候选LLM被调用的次数）。如图4a所示，与通用问答基准测试（即NQ、TriviaQA和PopQA）相比，Router-R1-Qwen在多跳问答基准测试（即HotpotQA、2WikiMultiHopQA、Musique和Bamboogle）上平均LLM API调用次数显著更多。

表2：Router-R1在NQ、TriviaQA、PopQA和HotpotQA (HpQA)数据集上泛化能力实验结果（针对精确匹配和F1分数， $‡\ddagger$ 表示路由池扩展）。
在这里插入图片描述
加粗表示的hi g每列中每个基础模型的最高分数。
$†\dagger$ 表示领域内评估；所有其他都是领域外。

这表明Router-R1能够自适应地评估任务难度并决定是否需要外部LLM路由，展示了其在任务更复杂时选择性地利用外部资源的能力。

Router-R1训练的收敛分析。为了评估Router-R1的收敛行为，我们在其策略训练期间展示了两个关键曲线：奖励和策略LLM的动作熵。图4b和4c说明Router-R1在100个训练步骤内收敛，这从上升的奖励和下降的策略熵中可以看出，表明快速且稳健的收敛。值得注意的是，偶尔的格式错误可能会导致奖励短暂下降，但我们的分层奖励设计迅速纠正它们，确保稳定和加速学习。特别是，我们观察到如果没有格式奖励，Router-R1会表现出更大的训练不稳定性，经常生成无意义或不合逻辑的文本，导致输出中的严重格式错误。

在这里插入图片描述
图4：LLM API调用次数和Router-R1训练收敛性分析。

6结论

在本文中，我们介绍了Router-R1，这是一个基于强化学习的框架，将多LLM路由和聚合公式化为一个序列决策过程。通过将路由器实例化为一个强大的LLM，Router-R1将内部推理与目标模型选择交织在一起，并通过多轮交互逐步构建响应。我们轻量级的基于规则的奖励，结合了格式、结果和成本奖励，使Router-R1能够在学习灵活的性能-成本权衡的同时实现卓越的性能。在七个多样化的QA基准测试中，它优于十个以上的强基线，并存在干扰模型的情况下保持鲁棒性和泛化能力。这些结果表明了RL驱动的路由在协调多个LLM方面的潜力。

参考文献

[1] Yupeng Chang, Xu Wang, Jindong Wang, Yuan Wu, Linyi Yang, Kaijie Zhu, Hao Chen, Xiaoyuan Yi, Cunxiang Wang, Yidong Wang, et al. A survey on evaluation of large language models. ACM transactions on intelligent systems and technology, 15(3):1-45, 2024.
[2] Lingjiao Chen, Matei Zaharia, and James Zou. Frugalgpt: How to use large language models while reducing cost and improving performance. arXiv preprint arXiv:2305.05176, 2023.
[3] Shuhao Chen, Weisen Jiang, Baijiong Lin, James Kwok, and Yu Zhang. Routerdc: Query-based router by dual contrastive learning for assembling large language models. Advances in Neural Information Processing Systems, 37:66305-66328, 2024.
[4] Xiangxiang Dai, Jin Li, Xutong Liu, Anqi Yu, and John Lui. Cost-effective online multi-llm selection with versatile reward models. arXiv preprint arXiv:2405.16587, 2024.
[5] Dujian Ding, Ankur Mallick, Chi Wang, Robert Sim, Subhabrata Mukherjee, Victor Ruhle, Laks VS Lakshmanan, and Ahmed Hassan Awadallah. Hybrid llm: Cost-efficient and quality-aware query routing. arXiv preprint arXiv:2404.14618, 2024.
[6] Tao Feng, Yanzhen Shen, and Jiaxuan You. Graphrouter: A graph-based router for llm selections. arXiv preprint arXiv:2410.03834, 2024.
[7] Aaron Grattafori, Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Alex Vaughan, et al. The llama 3 herd of models. arXiv preprint arXiv:2407.21783, 2024.
[8] Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, et al. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. arXiv preprint arXiv:2501.12948, 2025.
[9] Xanh Ho, Anh-Khoa Duong Nguyen, Saku Sugawara, and Akiko Aizawa. Constructing a multi-hop QA dataset for comprehensive evaluation of reasoning steps. In Donia Scott, Nuria Bel, and Chengqing Zong, editors, Proceedings of the 28th International Conference on Computational Linguistics, pages 6609-6625, Barcelona, Spain (Online), December 2020. International Committee on Computational Linguistics.
[10] Qitian Jason Hu, Jacob Bieker, Xiuyu Li, Nan Jiang, Benjamin Keigwin, Gaurav Ranganath, Kurt Keutzer, and Shriyash Kaustubh Upadhyay. Routerbench: A benchmark for multi-llm routing system. arXiv preprint arXiv:2403.12031, 2024.
[11] Albert Q Jiang, Alexandre Sablayrolles, Antoine Roux, Arthur Mensch, Blanche Savary, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Emma Bou Hanna, Florian Bressand, et al. Mixtral of experts. arXiv preprint arXiv:2401.04088, 2024.
[12] Fengqing Jiang. Identifying and mitigating vulnerabilities in llm-integrated applications. Master’s thesis, University of Washington, 2024.
[13] Bowen Jin, Hansi Zeng, Zhenrui Yue, Jinsung Yoon, Sercan Arik, Dong Wang, Hamed Zamani, and Jiawei Han. Search-r1: Training llms to reason and leverage search engines with reinforcement learning. arXiv preprint arXiv:2503.09516, 2025.
[14] Mandar Joshi, Eunsol Choi, Daniel Weld, and Luke Zettlemoyer. TriviaQA: A large scale distantly supervised challenge dataset for reading comprehension. In Regina Barzilay and Min-Yen Kan, editors, Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1601-1611, Vancouver, Canada, July 2017. Association for Computational Linguistics.

[15] Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, and Wen-tau Yih. Dense passage retrieval for open-domain question answering. In Bonnie Webber, Trevor Cohn, Yulan He, and Yang Liu, editors, Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 6769-6781, Online, November 2020. Association for Computational Linguistics.
[16] Tom Kwiatkowski, Jennimaria Palomaki, Olivia Redfield, Michael Collins, Ankur Parikh, Chris Alberti, Danielle Epstein, Illia Polosukhin, Jacob Devlin, Kenton Lee, Kristina Toutanova, Llion Jones, Matthew Kelcey, Ming-Wei Chang, Andrew M. Dai, Jakob Uszkoreit, Quoc Le, and Slav Petrov. Natural questions: A benchmark for question answering research. Transactions of the Association for Computational Linguistics, 7:452–466, 2019.
[17] Harrison Lee, Samrat Phatale, Hassan Mansoor, Thomas Mesnard, Johan Ferret, Kellie Lu, Colton Bishop, Ethan Hall, Victor Carbune, Abhinav Rastogi, et al. Rlaif vs. rlhf: Scaling reinforcement learning from human feedback with ai feedback. arXiv preprint arXiv:2309.00267, 2023.
[18] Zihan Liu, Wei Ping, Rajarshi Roy, Peng Xu, Chankyu Lee, Mohammad Shoeybi, and Bryan Catanzaro. Chatqa: Surpassing gpt-4 on conversational qa and rag. arXiv preprint arXiv:2401.10225, 2024.
[19] Alex Mallen, Akari Asai, Victor Zhong, Rajarshi Das, Daniel Khashabi, and Hannaneh Hajishirzi. When not to trust language models: Investigating effectiveness of parametric and non-parametric memories. In Anna Rogers, Jordan Boyd-Graber, and Naoaki Okazaki, editors, Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 9802–9822, Toronto, Canada, July 2023. Association for Computational Linguistics.
[20] Yu Meng, Mengzhou Xia, and Danqi Chen. Simpo: Simple preference optimization with a reference-free reward. Advances in Neural Information Processing Systems, 37:124198-124235, 2024.
[21] Humza Naveed, Asad Ullah Khan, Shi Qiu, Muhammad Saqib, Saeed Anwar, Muhammad Usman, Naveed Akhtar, Nick Barnes, and Ajmal Mian. A comprehensive overview of large language models. arXiv preprint arXiv:2307.06435, 2023.
[22] Isaac Ong, Amjad Almahairi, Vincent Wu, Wei-Lin Chiang, Tianhao Wu, Joseph E Gonzalez, M Waleed Kadous, and Ion Stoica. Routellm: Learning to route llms from preference data. In The Thirteenth International Conference on Learning Representations, 2024.
[23] Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35:27730-27744, 2022.
[24] Ofir Press, Muru Zhang, Sewon Min, Ludwig Schmidt, Noah Smith, and Mike Lewis. Measuring and narrowing the compositionality gap in language models. In Houda Bouamor, Juan Pino, and Kalika Bali, editors, Findings of the Association for Computational Linguistics: EMNLP 2023, pages 5687-5711, Singapore, December 2023. Association for Computational Linguistics.
[25] Rafael Rafailov, Archit Sharma, Eric Mitchell, Christopher D Manning, Stefano Ermon, and Chelsea Finn. Direct preference optimization: Your language model is secretly a reward model. Advances in Neural Information Processing Systems, 36:53728-53741, 2023.
[26] Marija Šakota, Maxime Peyrard, and Robert West. Fly-swat or cannon? cost-effective language model choice via meta-modeling. In Proceedings of the 17th ACM International Conference on Web Search and Data Mining, pages 606-615, 2024.
[27] John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov. Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347, 2017.
[28] Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y Wu, et al. Deepseekmath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:2402.03300, 2024.

[29] Joar Skalse, Nikolaus Howe, Dmitrii Krasheninnikov, and David Krueger. Defining and characterizing reward gaming. Advances in Neural Information Processing Systems, 35:9460-9471, 2022.
[30] Dimitris Stripelis, Zijian Hu, Jipeng Zhang, Zhaozhuo Xu, Alay Dilipbhai Shah, Han Jin, Yuhang Yao, Salman Avestimehr, and Chaoyang He. Tensoropera router: A multi-model router for efficient ltm inference. arXiv preprint arXiv:2408.12320, 2024.
[31] Gemma Team, Morgane Riviere, Shreya Pathak, Pier Giuseppe Sessa, Cassidy Hardin, Surya Bhupatiraju, Léonard Hussenot, Thomas Mesnard, Bobak Shahriari, Alexandre Ramé, et al. Gemma 2: Improving open language models at a practical size. arXiv preprint arXiv:2408.00118, 2024.
[32] Harsh Trivedi, Niranjan Balasubramanian, Tushar Khot, and Ashish Sabharwal. MuSiQue: Multihop questions via single-hop question composition. Transactions of the Association for Computational Linguistics, 10:539-554, 2022.
[33] Liang Wang, Nan Yang, Xiaolong Huang, Binxing Jiao, Linjun Yang, Daxin Jiang, Rangan Majumder, and Furu Wei. Text embeddings by weakly-supervised contrastive pre-training. arXiv preprint arXiv:2212.03533, 2022.
[34] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V Le, Denny Zhou, et al. Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems, 35:24824-24837, 2022.
[35] An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, et al. Qwen2. 5 technical report. arXiv preprint arXiv:2412.15115, 2024.
[36] Zhilin Yang, Peng Qi, Saizheng Zhang, Yoshua Bengio, William W Cohen, Ruslan Salakhutdinov, and Christopher D Manning. Hotpotqa: A dataset for diverse, explainable multi-hop question answering. arXiv preprint arXiv:1809.09600, 2018.
[37] Zheng Yuan, Hongyi Yuan, Chuanqi Tan, Wei Wang, Songfang Huang, and Fei Huang. Rrrh: Rank responses to align language models with human feedback without tears. arXiv preprint arXiv:2304.05302, 2023.

A 实验细节

A.1实现细节

A.1.1模型描述符

为了丰富模型描述符并更好地指导路由决策，我们借鉴了公开可用的模型卡片。具体来说，我们提示GPT-4o根据这些模型卡片中的信息生成每个候选LLM的简短、标准化的摘要。这些简洁的描述随后被注入到Router-R1的训练提示中。这使模型能够初步了解每个LLM的能力。

值得注意的是，这些模型描述符仅作为冷启动先验知识来指导早期决策。在策略优化过程中，Router-R1通过重复交互和奖励反馈逐步完善其对每个LLM的优势和劣势的理解。此外，这种设计允许Router-R1通过简单地将它们的描述附加到提示中，无缝地将新的LLM集成到路由池中，而无需重新训练。这种灵活性支持对新发布的模型的快速适应，并增强了Router-R1在动态多LLM环境中的泛化能力。

A.1.2 格式奖励

为确保生成补全的结构质量和一致性，我们设计了一种基于规则的格式奖励机制，该机制会惩罚格式不正确的输出。该函数检查补全是否正确地遵循了预期的结构，使用特定的动作标签。格式奖励函数提出以下要求：

所有标签必须正确打开和关闭，不允许嵌套。
响应必须以 … 块开始，并以单个 … 块结束。
至少有一个 <t] … 块必须存在，且仅有一个 <答案> … </答案> 块是必需的。
每个 <搜索> … </搜索> 必须与相应的 <信息> … </信息> 配对块
路由查询必须遵循格式"llm_名称: 查询", 其中LLM名称是有效的,并且两个部分都不为空。

这种格式奖励是轻量级的，但在执行模型的输出结构纪律方面是有效的，指导策略走向良好形成且可解释的推理轨迹。

A.1.3 成本奖励

为了鼓励成本高效的路径选择，我们设计了一个成本奖励，它会惩罚高成本LLM的使用。这个奖励是通过滑动窗口方法计算动态归一化成本值的倒数来计算的。

滑动窗口归一化。我们维护一个固定大小的缓冲区，其中包含最近的成本值（窗口大小 $= 1000$ ），并在归一化之前对每个成本应用平滑转换。具体来说，我们采用平方根转换：

${\prime} = \sqrt {r}$

其中 $r$ 是与所选LLM相关的原始成本（即， $m(P_{\mathrm{LLM}})\cdot T_{\mathrm{out}}$ ）。

为确保对异常值的鲁棒性，我们使用缓冲区的第5百分位数和第95百分位数对 $r^{'}$ 进行归一化。令 $r_{\min}$ 和 $r_{\max}$ 分别为第5百分位数和第95百分位数的值。然后计算归一化成本：

${\text {n o r m}} = \frac {r ^ {\prime} - r _ {\min}}{r _ {\max} - r _ {\min}}$

如果范围 $rmax−rminr_{\mathrm{max}} - r_{\mathrm{min}}$ 太小（小于一个小的阈值 $ε\varepsilon$ ），我们返回一个中性的奖励值0.5以保持稳定性。

奖励反转。最后，为了鼓励选择低成本LLMs，我们反转标准化值：

$\mathbf {R} _ {\text {c o s t}} = 1. 0 - \operatorname {c l i p} \left(r _ {\text {n o r m}}, 0. 0, 1. 0\right)$

这确保了高成本模型获得较低的奖励，引导策略优先选择高效的候选者，而无需依赖硬约束。这种成本奖励设计使Router-R1能够学习成本敏感的路由策略，这些策略能够动态适应可用LLMs的资源配置文件。

A.2 更多实验结果

A.2.1 关于F1-Score的主要结果

我们在表3中展示了在七个QA数据集上关于F1-Score的详尽实验结果。Router-R1在通用和多跳QA任务中始终优于所有基线，实现了Qwen和LLaMA主干网络最高的平均F1分数。值得注意的是，它以明显的优势超越了Prompt LLM和GraphRouter等强基线，展示了其在多样化QA挑战中对模型选择的有效协调。

表3：在七个QA数据集上关于F1-Score的实验结果。

方法	通用QA			多跳问答				Avg.
方法	$ \mathbf{NQ}^{\dagger} $	TriviaQA	PopQA	$ \mathrm {HpQA}^{\dagger} $	2wiki	Musique	Bamb	Avg.
Qwen2.5-3B-Instruct
直接	0.162	0.341	0.154	0.215	0.304	0.081	0.112	0.196
CoT	0.218	0.431	0.185	0.260	0.251	0.106	0.332	0.255
SFT	0.289	0.460	0.207	0.281	0.291	0.121	0.173	0.260
RAG	0.414	0.622	0.452	0.307	0.187	0.134	0.303	0.346
Search-R1	0.407	0.575	0.383	0.328	0.317	0.145	0.387	0.363
Prompt LLM	0.437	0.694	0.409	0.407	0.393	0.205	0.579	0.446
最大的LLM	0.431	0.695	0.423	0.416	0.397	0.199	0.608	0.453
KNN Router	0.388	0.627	0.281	0.341	0.289	0.141	0.496	0.366
MLP 路由器	0.368	0.557	0.272	0.295	0.277	0.142	0.460	0.339
BERT 路由器	0.362	0.635	0.251	0.335	0.284	0.135	0.423	0.346
RouterDC	0.410	0.694	0.328	0.381	0.293	0.165	0.623	0.413
GraphRouter	0.412	0.690	0.324	0.366	0.258	0.154	0.546	0.393
Prompt LLM*	0.373	0.600	0.315	0.313	0.355	0.165	0.580	0.386
KNN 路由器*	0.360	0.572	0.272	0.248	0.299	0.138	0.493	0.340
Router-R1-Qwen	0.484	0.772	0.447	0.449	0.487	0.212	0.635	0.498
Llama-3.2-3B-Instruct
Direct	0.281	0.377	0.209	0.211	0.165	0.070	0.097	0.201
CoT	0.364	0.534	0.230	0.241	0.213	0.104	0.385	0.296
SFT	0.125	0.159	0.117	0.154	0.267	0.075	0.042	0.134
RAG	0.410	0.557	0.413	0.247	0.119	0.070	0.240	0.294
Search-R1	0.478	0.650	0.412	0.375	0.271	0.138	0.337	0.380
Prompt LLM	0.450	0.733	0.441	0.369	0.301	0.222	0.628	0.449
Largest LLM	0.469	0.711	0.448	0.377	0.341	0.204	0.563	0.445
KNN 路由器	0.410	0.651	0.292	0.312	0.248	0.140	0.504	0.365
MLP 路由器	0.395	0.585	0.290	0.271	0.236	0.134	0.455	0.338
BERT 路由器	0.383	0.656	0.272	0.310	0.244	0.126	0.388	0.340
RouterDC	0.435	0.708	0.338	0.371	0.257	0.161	0.601	0.410
GraphRouter	0.441	0.704	0.327	0.343	0.227	0.146	0.545	0.390
Prompt LLM*	0.342	0.524	0.209	0.188	0.136	0.088	0.302	0.256
KNN 路由器*	0.311	0.476	0.211	0.149	0.104	0.074	0.259	0.226
Router-R1-Llama (		0.740	0.461	0.429	0.420	0.188	0.625	0.483

粗体表示每个基座模型每列的最高分。 $†{}^{ \dagger }$ 表示领域内评估; 所有其他都

A.2.2 成本奖励的全面分析

我们对Router-R1中不同成本系数 $α\alpha$ 的影响进行了广泛研究，并与各种基线在EM和平均原始成本奖励方面进行了比较。表4中的结果表明了明显的权衡：在 $α=0.0\alpha = 0.0$ 下，Router-R1在几乎所有数据集上都实现了最高的EM，展示了其面向性能的路由策略。随着 $α\alpha$ 的增加，我们观察到成本大幅降低，但EM也随之下降，这突出了答案准确性和计算效率之间的固有权衡。值得注意的是， $α=0.6\alpha = 0.6$ 提供了有利平衡，始终在保持强EM的同时大幅降低成本，相比 $α=0.0\alpha = 0.0$ 尤为突出。与基线相比，具有中等 $α\alpha$ 值的Router-R1在准确性和效率两方面均优于其他模型，验证了我们成本感知奖励设计的灵活性和有效性。

表4：在NQ、PopQA、HpQA和2wiki数据集上对成本奖励的全面分析，针对Exact Match和rawcost奖励（未归一化）。

方法	NQ†		PopQA		HpQA†		2wiki
方法	EM†	成本↓	EM†	成本↓	EM†	成本↓	EM†	成本↓
Qwen2.5-3B-Instruct
提示LLM	0.300	20.0	0.340	17.6	0.268	20.1	0.262	20.2
最大的LLM	0.296	20.2	0.354	17.6	0.278	20.1	0.274	20.1
KNN Router	0.262	41.0	0.222	30.3	0.224	45.4	0.196	51.8
MLPRouter	0.252	35.8	0.222	21.0	0.198	29.5	0.210	41.3
BERTRouter	0.230	26.0	0.192	16.3	0.216	26.0	0.206	26.3
RouterDC	0.278	57.5	0.282	21.8	0.244	62.3	0.218	40.7
GraphRouter	0.276	29.6	0.280	19.2	0.234	24.7	0.180	28.6
提示LLM*	0.258	286.4	0.256	111.7	0.206	313.4	0.248	222.4
KNN路由器*	0.236	102.2	0.232	49.8	0.154	133.0	0.234	99.4
路由器-R1-Qwen (α=0.0)	0.388	150.6	0.384	98.3	0.352	138.6	0.434	150.8
路由器-R1-Qwen (α=0.6)	0.388	150.0	0.414	75.9	0.332	124.3	0.422	113.8
路由器-R1-Qwen (α=0.7)	0.318	32.3	0.280	17.2	0.254	27.2	0.236	31.4
路由器-R1-Qwen (α=0.8)	0.320	28.9	0.270	14.9	0.238	28.2	0.202	31.4
Router-R1-Qwen (α=0.9)	0.244	5.5	0.234	5.3	0.186	5.3	0.252	6.5

加粗表示每列的最佳分数。
$†\dagger$ 表示领域内评估；所有其他都是领域外。

B 案例研究

在本节中，我们展示了在零和非零成本系数 $α\alpha$ 下Router-R1的案例研究。该案例研究说明了在存在和不存在成本奖励约束的情况下，Router-R1的输出行为（例如，路由）。

B.1 无成本奖励约束的案例研究

问题：哪部电影发行得更晚，神圣的沉默还是Ek Haseena Thi Ek Deewana Tha?

真实情况: Ek Haseena Thi Ek Deewana Tha

Response of Router-R1:

<认为>要回答问题“哪部电影最近上映，神圣的沉默或者，她是多么令人着迷？我需要关于这些电影的上映日期的特定信息。我没有这方面的知识存储在我的知识库中，因此我将需要咨询一个外部专业的语言模型来找到答案。

LLaMA-3.1-70B-Instruct：哪部电影上映得更近，神圣的沉默还是“Ek Haseena Thi Ek Deewana Tha”？

我可以帮您！经过查询，我发现：*“神圣的沉默”（也被称为

“Il silenzio sacro”)是一部2016年意大利剧情片。* “Ek Haseena Thi Ek Deewana Tha” 是一部2017年印度浪漫惊悚片。根据上映年份，“Ek HaseenaThi Ek Deewana Tha”（2017）上映的

时间比“神圣的沉默”（2016）更近。

Ek Haseena Thi Ek Deewana Tha

问题: 在《看与不看》和《王子》（1969年电影）中，哪部电影的导演去世得更早？

事实: [《看与不看》, ]

RespRouter-R1的配置：

<认为> 要回答关于To See Or Not To See和Prince（1969年电影）中哪位导演去世更早的问题，我需要确定这些电影的导演及其去世日期。我不立即了解这些细节，因此我需要咨询一个外部专业语言模型来获取所需信息。<认为><搜索>LLaMA-3.1-70B-Instruct：哪部电影有更早去世的导演，To See Or Not To See还是Prince（1969年电影）？</搜索>

<信息> 这是一个非常具体的问题! 经过研究, 我发现1969年的电影《王子》是由印度电影导演莱克·坦东执导的。不幸的是, 我找不到任何名为《看与不看》的电影信息, 无法确定导演的名字或他们的去世日期。然而, 我确实发现莱克·坦东于 2017年10月15日去世。如果您想了解更多关于《看与不看》或其导演的信息, 我建议咨询其他大型语言模型或电影数据库以获得进一步帮助。</信息>

<思考>由于我没有足够的信息直接回答这个问题，我需要咨询另一个专业的语言模型，以确定《看与不看》的导演，并比较他们的去世日期与莱克·坦东。</思考>

<搜索>LLaMA-3.1-70B-Instruct：哪部电影被称为《看与不看》？它的导演是谁？此外，请将导演的去世日期与勒克·塔HДн的去世日期（2017年10月15日）进行比较。</搜索>

<信息>我很乐意帮助回答子问题！经过彻底搜索，我发现电影《看与不看》也被称为《盲目的法律》（1983年），但我无法确认这个标题是否完全匹配《看与不看》。然而，我确实找到了一部名为《看与不看》（1969年）的电影，这是一部由比伦·纳格执导的印度电影。关于导演的去世日期与勒克·塔HДног的去世日期的比较，我发现比伦·纳格于2018年8月5日去世。因此，比伦·纳格的去世日期比勒克·塔HДног的去世日期（2017年10月15日）大约晚10个月。请注意，我无法确认标题是否完全匹配，但我提供了与问题相关的相关信息。如果基础模型需要进一步协助或确认，建议咨询其他LLM以获取更多信息。</信息>

<思考>根据Biren Nag执导《看与不看》(1969)并于2018年8月5日去世的信息，我现在可以比较他的去世日期与Lekh Tandon的去世日期（2017年10月15日）。由于Biren Nag去世的时间晚于Lekh Tandon，因此《看与不看》(1969)的导演去世的时间早于《王子》(1969电影)的导演。</思考><回答>看与不看</回答>

问题: 哪部电影导演出生最早, 是《她为他脱衣》还是《国王的印章》?

答案: [“《国王的印章》”, “国王的印章”, “The King’s Stamp”]

RespRouter-R1: 的配置

<思考>要回答问题"哪部电影导演出生最早，是《她为他脱衣》还是《国王的印章》？"，我需要确定这两部电影导演的出生年份。然而，我目前没有这些导演的出生年份信息。我将需要咨询一个外部专业的语言模型来获取这些信息。</思考><搜索>LLaMA-3.1-70B-Instruct:哪部电影导演出生最早，是《她为他脱衣》还是《国王的印章》？</搜索>

<信息> 要回答这个问题，我需要确定两部电影的导演及其出生日期。经过研究，我发现：《她为他脱衣》(2015)是由吉莉安·阿姆斯特朗执导的纪录片。《国王的印章》似乎是一部不太出名的电影。然而，我发现了一部名为《国王的演讲》(2010)的电影，由汤姆·霍珀执导，但我还发现了一部名为《国王的印章》(1935)的电影，由迈克尔·鲍威尔执导。假设问题指的是1935年的电影《国王的印章》，以下是导演的出生日期：*吉莉安·阿姆斯特朗出生于1950年12月18日。*迈克尔·鲍威尔出生于1905年9月30日。根据这些信息，迈克尔·鲍威尔，即《国王的印章》(1935)的导演，出生最早。请注意，如果问题指的是标题为《国王的印章》的其他电影，我的答案可能不准确。</信息>

<思考> With the information obtained from the external LLaMA-3.1-70B-Instruct model, I now know that Michael Powell, the director of “The King’s Stamp” (1935), was born first. However, I need to determine if “Women He’ S Undressed” (2015) has a director who was born earlier than Michael Powell. Since I don’t have the birth year of the director of “Women He’ S Undressed”, I will need to consult another external specialized language model. </思考>

<搜索> LLaMA-3.1-70B-Instruct: If the question is “Which film has the director who was born first, Women He’ S Undressed or The King’ S Stamp?”, and I found that “The King’s Stamp” (1935) was directed by Michael Powell who was born on September 30, 1905, but I don’t have the birth year of the director of “Women He’ S Undressed” (2015). What is the answer? </搜索>

<信息>一个关于电影导演的好问题！虽然你没有“他脱衣的女人”（2015年）导演的出生年份，但我可以提供一些有用背景。经过快速搜索，我发现“他脱衣的女人”（2015年）是一部由吉莉安·阿姆斯特朗执导的纪录片。现在，让我们比较一下出生年份：迈克尔·鲍威尔，执导“国王的邮票”（1935年）的导演，出生于1905年9月30日。吉莉安·阿姆斯特朗，执导“他脱衣的女人”（2015年）的导演，出生于1950年12月18日。根据这些信息，很明显迈克尔·鲍威尔先出生，所以答案是：“国王的邮票”（1935年）的导演出生最早。</信息>答案>国王的邮票</答案>

B.2带成本奖励约束的案例研究

问题：用于描述窝孔和隔脊致密骨的放射学术语是？

真实情况: [’骨膜’, ’牙槽骨’, ’骨膜’]

Router-R1 的响应：

<认为> 我需要确定哪个LLM最适合这个查询。LLM有不同的优势，但通常，LLaMA-3.1-8B-Instruct和LLaMA-3.1-70B-Instruct在多语言和复杂推理任务中表现强大，这可能会有所帮助。我将搜索最合适的LLM。</认为>

<搜索>LLaMA-3.1-8B-Instruct：用于描述牙槽窝和骨嵴的致密骨的放射学术语是什么的？</搜索>

<信息>用于描述牙槽窝和骨嵴的致密骨的放射学术语

骨膜。骨膜是一层致密的骨组织，它衬在牙齿的牙槽窝和上颌骨的骨嵴上。它是一种正常的解剖结构，可以在放射照片（X射线）上看到，是牙科和颌面放射学的重要标志。

在牙科放射学中，骨膜通常被用作参考点，以评估周围骨骼的健康状况并检测任何异常，例如根尖病变或骨吸收。</信息>

<answer> lamina dura </answer>

问题：哪部电影的导演出生最早，《Men of Men》还是《Kentucky Kernels》？

答案: [‘Men of Men’, ‘Men of Men’]

Router-R1的响应：

<认为> 我需要确定哪部电影，MakerOf Men 或 Kentucky Kernels，导演出生在先。我将外部搜索以获取这些信息。</认为>

<搜索>LLaMA-3.1-8B-Instruct:哪部电影，Maker Of Men或Kentucky Kernels，导演出生在先？</搜索>

<信息>我很乐意帮助这个问题。但是，我需要澄清的是，我没有找到任何名为"Maker Of Men"或"Kentucky Kernels"的电影的信息。这些电影可能是鲜为人知的，未知的，或是不存在的。如果你能提供更多关于这些电影的背景或详细信息，我会很乐意进一步协助你。或者，我可以建议一些可能找到你正在寻找的信息的来源。如果你无法提供更多背景，我很抱歉，我无法帮助你回答这个问题。在这种情况下，我会指示基础模型咨询其他LLM以获得进一步帮助，例如那些专门研究电影数据库或鲜为人知的电影信息的模型。</信息>

<思考>由于无法找到直接信息，我现在将咨询另一个LLM来收集必要细节。</思考>

<搜索>LLaMA-3.1-70B-Instruct：哪部电影，是《男人制造者》还是《肯塔基核武器》，导演出生得更早？</搜索>

要回答这个问题，我需要提供一些关于所提两部电影的导演的背景信息。“男人制造者”（1931年）由美国电影导演爱德华·拉梅尔执导。爱德华·拉梅尔于1887年10月25日出生。“肯塔基核糖体”（1934年）由美国电影导演、制片人、编剧和摄影师乔治·斯蒂文斯执导。乔治·斯蒂文斯于1904年12月18日出生。根据出生日期，执导“男人制造者”的爱德华·拉梅尔先生出生在先。

<answer>MakerOfMen</answer>

问题：托帕·印卡·尤潘基的父亲死亡地点在哪里？

事实：[’库斯科’，’库斯科’，’库斯科，秘鲁’，’库斯科，秘鲁’]

Router-R1的响应：

<认为> 我需要确定托帕·印卡·尤潘基的父亲的死亡地点。我将外部搜索以获取这些信息。</认为>

<搜索>LLaMA-3.1-8B-Instruct：托帕·印卡·尤潘基的父亲的死亡地点在哪里？</搜索>

我无法回答这个问题，因为我没有关于托帕印卡·尤潘基的父亲去世地点的具体信息。印加帝国的历史记录非常丰富，但关于个人家庭成员生活的详细信息，尤其是他们去世地点的记录，可能很少或记录不完整。为了进一步帮助回答这个问题，建议基础模型咨询其他专门研究印加历史或秘鲁考古学的LLM或历史数据库。这些来源可能会提供更多关于托帕印卡·尤潘基的父亲生活和去世的详细或准确信息。

<认为>根据需要咨询外部知识，我现在将再次搜索以找到答案。</认为>

<搜索>LLaMA-3.1-70B-Instruct：托帕·印卡·尤潘基的父亲死亡地点在哪里？ </搜索>

<信息>关于印卡历史的问题！托帕·印卡·尤潘基的父亲是帕查库蒂，印卡帝国的第九位萨帕印卡（皇帝）。根据历史记录，帕查库蒂在秘鲁的库斯科去世，当时库斯科是印卡帝国的首都。为了提供更多背景信息，帕查库蒂是一位著名的领袖，在他的统治期间（1438-1472年）显著扩张了印卡帝国。他由他的儿子托帕·印卡·尤潘基继承，后者继续扩张帝国。如果您需要更多关于帕查库蒂、托帕·印卡·尤潘基或印卡帝国的信息，请随时提问！</信息>

<answer> Cusco </answer>

该案例研究说明了在不同奖励设置下Router-R1的行为差异。在第一个案例（无成本奖励约束）中，路由策略收敛于始终选择最强大的LLM—LLaMA-3.1-70B-Instruct，这导致最佳答案准确率，但会产生更高的推理成本。相比之下，第二个案例（带成本奖励约束）表明Router-R1学会了最初将查询路由到更小、更具成本效益的模型—LLaMA-3.1-8B-Instruct。只有当较小的模型无法提供足够信息时，策略才会升级查询较大的LLM。这种策略反映了一种成本感知路由行为，在性能与效率之间取得了平衡。

C Prompts

在本节中，我们详细介绍了实验中使用的提示。

Model Descriptors

Owen2.5-7B-Instruct:

Qwen2.5-7B-Instruct is a powerful Chinese-English instruction-tuned large language model专为语言、编码、数学和推理任务而设计。作为Qwen2.5系列的一部分，它具有增强的知识、更强的编码和数学能力、改进的指令遵循能力、更好的处理长文本和结构化文本的能力，并支持高达128K上下文令牌。它还提供跨29多种语言的多语言功能。

LLaMA-3.1-8B-Instruct:

LLaMA-3.1-8B-Instruct 是一个针对多语言对话进行指令微调的 80 亿参数语言模型。它提供强大的语言理解、推理和文本生成性能，在标准行业基准测试中优于许多开源和闭源模型。

LLaMA-3.1-70B-Instruct:

LLaMA-3.1-70B-Instruct 是一个拥有 700 亿参数的先进语言模型，专为高级多语言对话任务设计。它在语言理解、复杂推理和高质量文本生成方面表现出色，在基准评估中超越了开放模型和封闭模型，树立了新的标准。

Mistral-7B-Instruct:

Mistral-7B-Instruct 是 Mistral-7B-v0.3 语言模型的微调版本，旨在遵循指令、完成用户请求并生成创意文本。它基于多样化的公共对话数据集进行训练，以增强其处理交互任务的能力。

Mixtral-8x22B-Instruct:

Mixtral-8x22B-Instruct是MistralAI开发的尖端稀疏专家混合（SMoE）大型语言模型。它高效地使用了141B总参数中的39B活跃参数，在降低成本的同时提供高性能。该模型在遵循指令、完成任务和生成创意文本方面表现出色，在英语、法语、意大利语、德语、西班牙语、数学和编码等多个领域具备强大能力。它还支持原生函数调用，并能够处理长达64K个token的长上下文，以更好地回忆信息。

Gemma-2-27B-Instruct:

Gemma-2-27B-Instruct是由Google开发的一种尖端、指令调优的文本生成模型。它采用与Gemini相同的技术构建，在文本理解、转换和代码生成方面表现出色。作为一个轻量级、仅解码器模型且开放权重，它非常适合问答、摘要和推理等任务。其紧凑的体积使其能够在笔记本电脑、台式机或私有云环境中部署，使强大的AI更易于获取。

模型描述符（未见过的LLM）

LLaMA3-ChatQA-1.5-8B:

LLaMA3-ChatQA-1.5-8B是一个基于LLaMA-3基础构建的80亿参数指令调优语言模型，专门针对对话式问答(QA)和检索增强生成(RAG)进行优化。它采用ChatQA论文中的改进训练配方开发，并结合丰富的对话式QA数据，以提升其在涉及表格推理和算术计算任务上的性能。

Palmyra-Creative-122B:

Palmyra-Creative-122B是Writer开发的122B参数模型，专为高质量创意写作和内容生成而构建。它在故事讲述、诗歌创作、剧本写作和营销文案等任务中表现出色，能够适应各种风格和语调，同时保持一致的语气。非常适合作家和内容创作者，支持多样化的创意工作流程。

用于查询LLM候选的提示

你是一个有帮助的助手。

你正在参与一个多轮推理过程，其中基础模型将子问题委托给专门的模型likeyou。

你的任务是尽你最大努力，要么：

+如果可能，直接回答问题并提供简要解释；或

提供与问题相关的有帮助且相关的背景知识、见解，即使你无法完全回答它。

{v1}即使你无法完全回答它，也要清楚地说明你无法协助这个

问题。

如果你完全无法回答问题或提供任何相关或有用的信息，你必须：

明确说明你无法协助这个问题，并
明确指示基础模型咨询其他LLM以获得进一步协助。

重要约束：

+保持您的回复清晰、简洁且信息丰富（最好不超过512个token）。您的回复将有助于指导基础模型的推理和下一步操作。

严格围绕主题。不要包含不相关或泛泛的内容。

这是您需要协助的子问题：{sub_query}

D 超参数设置

表 5: 超参数设置 (所有数据集共享)

超参数	值	超参数	值
学习率（Actor）	1e-6	学习率（评价者）	1e-5
总批大小	64	小批大小	32
微批大小	8	最大训练步数	225
最大路由步数	4	最大序列长度	4096
最大响应长度	1024	LLM API 响应的最大长度	600
张量并行大小	1	GPU 利用率	0.6
滚动采样温度（训练）	1.0	Rollout Sampling Temperature (Eval)	1.0

E限制

虽然Router-R1表现出很强的实证性能，但它有几个局限性：

任务范围：我们的评估主要关注 QA 任务。Router-R1 在其他领域（如对话、摘要或代码生成）上的泛化能力如何，这些领域可能有不同的路由动态，还有待观察。
奖励简单性：基于规则的奖励函数虽然有效，但对于捕捉更细微的目标（如事实一致性或长期对话连贯性）可能不足。

结合学习型或人机交互式奖励函数可以进一步提升框架性能。

推理延迟：虽然Router-R1旨在优化成本，但其多轮特性会引入推理延迟，尤其是在推理步骤与多个模型调用交错时。这可能限制其在时间敏感型应用中的适用性。
对模型描述符的依赖：对未见过的LLM的泛化依赖于简单的描述符（如定价和延迟）。这些描述符可能无法捕捉更深层的模型行为或能力，尤其是在性能历史有限的环境中。

未来的工作可能会探索改进Router-R1的奖励建模，通过模型剪枝或路由启发式来减少推理延迟，并扩展其应用范围至更广泛的语言任务。

F 更广泛的影响

Router-R1提供了一个原则性且灵活的框架，用于协调多个大型语言模型，为提高语言模型部署的效率、可扩展性和质量提供了潜在益处。通过学习动态平衡性能和成本，Router-R1可以帮助在不需要时减少对昂贵模型的依赖，这可能会降低大规模LLM应用的环境足迹和财务成本。

此外，Router-R1的架构鼓励现有LLM的复用和组合，促进模块化，并可能加速协作式AI系统的进展。其对未见过的LLM的泛化能力可能支持更快地将新模型集成到生产系统中，而无需大量重新训练。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla

火山引擎 ADG 社区

所有评论(0)

查看更多评论

bylander

@bylander

已为社区贡献20条内容

【论文学习】Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning

bylander

研究动机

研究现状

创新点

解决方案

实验设计

研究结论

未来方向

Router-R1:通过强化学习训练LLM多轮路由和聚合

摘要

1简介

2相关工作

2.1基于查询的LLM选择路由器

2.2 通过强化学习优化LLM行为

3 Router-R1

3.1 通过与 LLM 路由池协调的强化学习

3.2奖励管理

3.2.1奖励格式

3.2.2最终结果奖励

3.2.3 成本奖励

3.2.4 总体奖励

3.3多轮交互训练范式

3.3.1 训练提示模板

3.3.2与LLM路由池的多轮交互

4 实验设置

4.1 数据集和指标

4.2 基线

4.3 实现细节

5实验分析

5.1主要结果

5.2成本奖励分析

5.3对未见候选LLM的泛化能力

5.4 讨论

6结论

参考文献

A 实验细节

A.1实现细节

A.1.1模型描述符

A.1.2 格式奖励

A.1.3 成本奖励

A.2 更多实验结果

A.2.1 关于F1-Score的主要结果

A.2.2 成本奖励的全面分析

B 案例研究

B.1 无成本奖励约束的案例研究

Response of Router-R1:

RespRouter-R1的配置：

RespRouter-R1: 的配置

B.2带成本奖励约束的案例研究

Router-R1的响应：

C Prompts

Model Descriptors

Owen2.5-7B-Instruct:

LLaMA-3.1-8B-Instruct:

LLaMA-3.1-70B-Instruct:

Mistral-7B-Instruct:

Mixtral-8x22B-Instruct:

Gemma-2-27B-Instruct:

模型描述符（未见过的LLM）

LLaMA3-ChatQA-1.5-8B:

Palmyra-Creative-122B:

用于查询LLM候选的提示

D 超参数设置

E限制

F 更广泛的影响

所有评论(0)

温馨提示：您尚未绑定手机号

bylander