CogniSQL-R1-Zero：用于高效SQL生成的轻量级强化推理

本文提出CogniSQL-R1-Zero，一种基于强化学习(RL)的文本到SQL框架，通过执行正确性和格式合规性的轻量级奖励信号生成准确SQL。该方法避免了中间监督和复杂奖励设计，直接优化最终任务目标。在BIRD基准测试中，该7B参数模型以59.97%的执行准确率超过更大模型如GPT-4、Mistral 123B等，且仅需4块NVIDIA A100 GPU训练。研究贡献包括：1)开源两个数据集——

Paper易论

943人浏览 · 2025-07-26 11:20:18

Paper易论 · 2025-07-26 11:20:18 发布

Kushal Gajjar
Dell Technologies
kushalgajjar1@gmail.com
Harshit Sikchi
UT Austin
hsikchi@utexas.edu
Arpit Singh Gautam
Dell Technologies
arpitsinghgautam777@gmail.com
Marc Hammons
Dell Technologies
marchammons@gmail.com
Saurabh Jha
Dell Technologies
saurabh.jha21@gmail.com

摘要

将自然语言翻译成SQL（文本到SQL）仍然是语言理解和结构化数据访问交叉领域的一个核心挑战。尽管大型语言模型（LLMs）在流畅性方面有所提高，但生成正确且可执行的SQL，特别是对于复杂查询，仍然具有挑战性。我们引入了CogniSQL-R1-Zero，这是一种强化学习（RL）框架和模型，使用基于执行正确性和格式标签合规性的轻量级奖励信号生成准确的SQL。通过避免中间监督、混合流水线和复杂的奖励塑造，我们的方法鼓励稳定的学习和与最终任务目标——生成可执行程序的更强对齐。CogniSQL-R1-Zero在Text2SQL基准测试（BIRD基准）上实现了最先进的执行准确率，优于之前的监督和指令调优基线，包括SFT CodeS-7B、DeepSeek-Coder 236B和Mistral 123B——尽管仅在显著较小的7B主干上进行训练。这一结果突出了我们的基于RL的方法在仅使用四块NVIDIA A100 GPU（每块40GB VRAM）训练时的可扩展性和效率。为了支持高效且可解释的文本到SQL建模的进一步研究，我们发布了两个精选数据集：（i）包含5,024个不同上下文长度的推理轨迹的集合，以及（ii）一个包含36,356个弱监督查询的正样本语料库，每个查询都标注了六个语义多样的推理路径。这些贡献共同推动了可扩展的、与执行对齐的文本到SQL生成。

https://huggingface.co/datasets/CogniSQL/Reasoning_Traces
https://huggingface.co/datasets/CogniSQL/Positive_Sample_Corpus

1 引言

将自然语言问题翻译成SQL查询——通常称为文本到SQL——长期以来一直是自然语言理解和结构化数据检索交叉领域的一个核心问题。尽管大型语言模型（LLMs）在流畅性和标记级正确性方面取得了显著改进，但确保生成的SQL在语法上有效且语义上可执行仍然是一个持续的挑战。其复杂性来自于（i）人类语言的固有模糊性和变异性，（ii）异构且复杂的数据库模式，以及（iii）表面流畅性与真正执行正确性之间的差距。因此，即使是最先进的LLMs也常常生成“看起来”合理但在真实数据库上运行时失败的查询。

在本研究的前期工作中，我们首先尝试了混合流水线，利用LLaMA 3.1 8B Instruct进行推理，CodeStral 22B进行SQL生成。我们还开发了一个代理框架，多个代理并行运行以处理复杂的业务上下文，最后将整合的推理结果输入基于Qwen的SQL生成器。通过这些方法——结合链式思维提示[1]、查询分解和上下文利用[2]等技术——我们在数据集中200个随机样本查询上实现了高达85%的执行准确率。然而，尽管进行了广泛的调优和集成方法（如XiYan-SQL [3]和DIN-SQL [4]），我们仍无法突破复杂、真实世界查询的标记。这一差距促使我们转向基于显式强化学习（RL）的训练，受到最近工作如DeepSeek-R1 [5]和相关RL驱动的文本到SQL努力[6,7]的启发。

在本文中，我们介绍了CogniSQL-R1-Zero，一种RL训练的文本到SQL框架，直接优化执行正确性，而不是依赖脆弱的中间标签或复杂的奖励塑造。通过采用Group Relative Policy Optimization（GRPO）[8]和结构化提示格式——包括DDL、外部知识、自然语言问题和明确的格式指令——CogniSQL-R1-Zero将模型行为紧密对齐于最终任务。在四块NVIDIA A100 GPU（每块40GB）上使用DeepSpeed ZeRO 2 [9]和梯度累积进行训练，我们的7B参数模型在BIRD开发集上实现了59.97%的执行准确率，超过了更大的基线模型（如GPT-4、Mistral 123B、DeepSeek-Coder 236B）以及7B/8B模型和SFT CodeS-7B。

我们的主要贡献如下：

最先进的基准结果：CogniSQL-R1-Zero在BIRD开发集上实现了59.97%的执行准确率——超过了更大的模型（GPT-4、Mistral 123B、DeepSeek-Coder 236B）和7B/8B基线，包括SFT CodeS-7B——证明了在低计算约束下（每块40GB VRAM的4块NVIDIA A100 GPU）RL训练的有效性。
- 支持推理SQL的开源数据集：我们发布两个精选数据集以支持未来的工作：（i）一个包含约36,356个示例的正样本语料库（每个查询从六个语义多样的推理路径中生成的正确样本），由Qwen-7B-Coder在温度0.9下生成；（ii）QWQ 32B推理轨迹，包含约5,024个示例，查询的上下文长度各不相同。这些资源支持任何基础LLM的对齐驱动的RL训练。
- 实用的推理时间技术：我们展示了在查询生成过程中检索模式特定值和通过多数投票聚合多个候选等轻量策略可以以可忽略的开销提高执行准确率，突出了CogniSQL-R1-Zero在现实世界部署中的准备就绪。
- 重要数据和训练策略：通过广泛的消融研究，我们量化了提示设计、样本筛选以及RL与SFT初始化的影响，为资源受限环境下的高效文本到SQL开发提供了可操作的指导方针。
- 经验指导：我们呈现了一系列全面的观察结果——既包括成功策略也包括陷阱——为社区提供了关于RL驱动的文本到SQL开发的实用见解。
  本文的其余部分组织如下。第2节调查了相关的文本到SQL和基于RL的方法。第4节概述了我们的结构化提示设计、奖励公式和GRPO训练。第5节详细介绍了我们的实验设置、低计算优化和数据集筛选。第6节呈现了实证结果和消融分析。第7节讨论了局限性、见解和未来方向。最后，第8节总结了主要发现和未来工作的方向。

2 背景

将自然语言问题翻译成SQL查询（文本到SQL）已有数十年历史，作为非结构化输入和结构化数据存储之间的关键接口[10]。早期的基于规则的系统依赖于手工制作的语法和模板匹配，但难以在不同领域间泛化。神经序列到序列模型的出现标志着一个重大转变，使数据驱动的学习从问题到SQL的映射成为可能。

2.1 神经文本到SQL和Seq2SQL

一个开创性的神经方法是Seq2SQL [8]，它将SQL生成分解为子任务——聚合、选择和条件构造——并使用强化学习处理无序的WHERE子句。目标结合了监督学习用于聚合和选择头以及用于WHERE子句的策略梯度项：

$\mathcal{L}_{\text {Seq2SQL }}=L_{\text {agg }}+\mathcal{L}_{\text {sel }}+\mathcal{L}_{\text {whe }}$

其中交叉熵项 $\mathcal{L}_{\text {agg }}$ 和 $\mathcal{L}_{\text {sel }}$ 分别监督聚合和列选择头。强化组件为：

$R(q)=\left\{\begin{array}{l} +1, \quad \text { 如果有效的SQL且结果正确 } \\ -1, \quad \text { 如果有效的SQL但结果错误 } \\ -2, \quad \text { 如果无效的SQL } \end{array}\right.$

基于执行结果[8]。这种整合使训练与实际执行对齐，通过鼓励模型生成可执行且语义正确的WHERE子句，提高了像WikiSQL这样的数据集上的端到端性能。

2.2 大型语言模型的进展

最近的大型语言模型（LLMs）如GPT-3/4和开源变体展示了强大的少样本文本到SQL能力[11]。结构增强，例如UniSAr的模式感知标记[12]和约束解码机制在生成过程中强制SQL语法。例如，给定问题 $Q$ 和模式上下文 $C$ ，生成SQL标记序列 $S=(s1,…,sT)S=\left(s_{1}, \ldots, s_{T}\right)$ 的概率为

$\mid Q, C)=\prod_{t=1}^{T} P\left(s_{t} \mid s_{<t}, Q, C\right)$

然而，LLMs通常生成语法上合理但语义错误的查询，这促使了结合执行反馈的方法。

2.3 混合和代理流水线

为了利用链式思维推理能力，我们首先尝试了一个混合的链式思维分解流水线。在此设置中，LLaMA 3.1 8B作为推理引擎，将复杂问题 $Q$ 分解为一系列中间推理状态：

$\begin{aligned} & r^{(0)}=\operatorname{encode}(Q) \\ & r^{(k)}=f_{\text {reason }}\left(r^{(k-1)}, Q\right), \quad k=1, \ldots, K \end{aligned}$

其中 $r^{(K)}$ 是 $K$ 步后的最终推理表示。SQL生成器（CodeStral 22B）然后生成一个查询 $S$ ，基于推理轨迹：

$\mid Q)=P\left(S \mid r^{(K)}\right)=\prod_{t=1}^{T} P\left(s_{t} \mid s_{<t}, r^{(K)}\right)$

这种两阶段过程——推理后生成——在数据集中200个随机样本查询上产生了大约75%的执行准确率。然而，它需要每次查询两次完整的LLM调用，导致高推理延迟和资源消耗。

接下来，我们构建了一个代理推理流水线，其中四个专门的代理 $(a = 1, 2, 3, 4)$ 并行运行，每个代理专注于不同的业务上下文。通过减少标记大小和并行化推理调用，该框架显著降低了延迟，同时在内部数据集上实现了所需的85%执行准确率。每个代理生成自己的推理轨迹 $r_{a}^{(K)}$ 和候选SQL $S_{a}$ ：

$\begin{aligned} r_{a}^{(0)} & =\operatorname{encode}_{a}(Q) \\ r_{a}^{(k)} & =f_{\text {reason }, a}\left(r_{a}^{(k-1)}, Q\right), \quad k=1, \ldots, K \\ P\left(S_{a} \mid Q\right) & =\prod_{t=1}^{T} P\left(s_{a, t} \mid s_{a,<t}, r_{a}^{(K)}\right) \end{aligned}$

这些候选查询然后通过多数投票聚合：

$S^{*}=\arg \max _{S}\left|\left\{a: S_{a}=S\right\}\right|$

其中 $S^{*}$ 是最终选定的查询。尽管并行性减少了推理时间，但同时运行多个大型模型的成本仍然很高，系统复杂性和内存占用对于更广泛的部署来说不切实际。

尽管这些改进，但这两种方法在成本效益或足够低的延迟方面都不够。受到DeepSeek-R1 [5]和相关基于RL的文本到SQL工作[6, 7]发布的启发，我们转向了一种RL训练的推理范式，将推理和SQL生成压缩到一个GRPO训练的模型中，以减少延迟和成本，同时直接优化执行正确性。

2.4 用于推理SQL的强化学习

最近在强化学习（RL）方面的进展显著增强了大型语言模型（LLMs）在文本到SQL生成中的推理能力。传统的监督方法依赖于标记的SQL对，这可能昂贵且无法捕捉执行语义。相比之下，RL使模型能够直接从执行反馈中学习，使用基于生成的SQL是否返回正确结果的奖励信号。

一种有效的RL技术是Group Relative Policy Optimization（GRPO），在DeepSeek-R1 [5]中引入。GRPO在候选SQL查询组而不是单个标记级梯度上进行优化。令 $πθ\pi_{\theta}$ 表示由 $θ\theta$ 参数化的模型策略。对于每个问题 $Q$ ，模型采样一组 $N$ 个SQL候选 ${qi}i=1N\left\{q_{i}\right\}_{i=1}^{N}$ ，每个候选获得一个二进制执行奖励：

$R\left(q_{i}\right)= \begin{cases}1, & \text { 如果 } \operatorname{Exec}\left(q_{i}\right)=\operatorname{Exec}\left(q_{\mathrm{gt}}\right) \\ 0, & \text { 否则 }\end{cases}$

其中 $Exec⁡(⋅)\operatorname{Exec}(\cdot)$ 返回执行结果， $qgtq_{\mathrm{gt}}$ 是真实SQL。预期组奖励为：

$J(\theta)=\mathbb{E}_{\left\{q_{i}\right\} \sim \pi_{\theta}}\left[\max _{i} R\left(q_{i}\right)\right]$

策略更新在组上进行以提高训练稳定性：

$\nabla_{\theta} J(\theta) \approx \frac{1}{M} \sum_{m=1}^{M}\left(\max _{i} R\left(q_{i}^{(m)}\right)-b^{(m)}\right) \nabla_{\theta} \log \pi_{\theta}\left(q_{i^{*}}^{(m)}\right)$

其中 $b^{(m)}$ 是组的基线（例如，平均奖励）， $q_{i^{*}}^{(m)}$ 是组 $m$ 中奖励最高的候选。此更新通过PPO风格的剪切代理目标和KL散度惩罚进行增强，以鼓励稳定策略演化，同时消除对单独值批评器的需求[5]。基于组的优势归一化减少了方差，使得在大型语言模型中进行高效优化成为可能。

另一种RL方法使用逆向课程学习逐步减轻推理难度。从较简单的SQL模板开始，模型先学会解决较简单的查询，再解决复杂的多连接语句。用 $c$ 表示课程水平，其中 $c = 0$ 对应单表查询， $c = K$ 对应完整多连接查询。在每个水平：

$\begin{aligned} r^{(0)} & =\operatorname{encode}(Q) \\ r^{(k)} & =f_{\text {reason }}^{(c)}\left(r^{(k-1)}, Q\right), \quad k=1, \ldots, K_{c} \end{aligned}$

随着 $c$ 的增加， $K_{c}$ 减少。策略 $πθ(c)\pi_{\theta}^{(c)}$ 在每个水平 $c$ 上使用自己的奖励 $R_{c}(q)$ 进行训练，然后在达到性能阈值后平稳过渡到 $c + 1$ 。

这些基于RL的方法，如DeepSeek-R1 [5]和Graph-Reward-SQL [7]所示，表明LLMs可以在没有详细中间注释的情况下获得稳健的推理能力，而是依靠执行反馈来引导学习生成准确、可执行的SQL。

2.5 轻量推理的动机

在现实世界环境中部署基于LLM的文本到SQL系统通常面临两个关键约束：计算成本和推理延迟。大型多阶段推理流水线可能产生高准确率，但对于低资源部署来说不切实际。因此，保留性能同时减少计算和延迟的轻量推理模型正受到越来越多的关注。

一种有效的策略是动态资源分配，其中计算适应查询复杂性。令 $C (Q)$ 衡量复杂性（例如，表或连接的数量）。计算预算分配为：
$B(Q)=Bmin⁡+α⋅C(Q)B(Q)=B_{\min}+\alpha \cdot C(Q)$ ，
其中 $B_{\min }$ 确保简单查询的覆盖， $α\alpha$ 按复杂度扩展计算。这允许跳过冗余层或减少标记处理，提高吞吐量而不牺牲准确性。
另一种互补方法是信息论奖励塑造，灵感来自“学习思考”（L2T）框架[13]。对于每个推理步骤 $k$ ，信息增益计算为：

$\Delta I_{k}=H\left(r^{(k-1)}\right)-H\left(r^{(k)}\right)$

其中 $H(⋅)H(\cdot)$ 是推理状态的熵。RL目标最大化：

$J(\theta)=\mathbb{E}\left[\sum_{k=1}^{K} \gamma^{k-1} \Delta I_{k}-\beta \cdot \ell_{\operatorname{len}}\left(r^{(k)}\right)\right]$

其中折扣 $γ\gamma$ 和长度惩罚 $\ell_{\text {len }}$ 。这种训练鼓励简洁、信息丰富的推理链。
最后，策略蒸馏将重RL调优教师 $πT\pi_{T}$ 的能力转移到较小的学生 $πS\pi_{S}$ ：

$\mathcal{L}_{\text {distill }}=\operatorname{KL}\left(\pi_{T}(\cdot \mid Q) \| \pi_{S}(\cdot \mid Q)\right)+\lambda \cdot \mathbb{E}_{q \sim \pi_{S}}[1-R(q)]$

其中 $R (q)$ 是执行奖励。先前的研究表明，这种方法可以使显著较小的模型保持性能。
这些见解直接指导了CogniSQL-R1-Zero的设计：一个统一的轻量推理模型，旨在在计算受限的情况下实现高效的文本到SQL。

3 相关工作

CogniSQL-R1-Zero的研究推进了两个关键领域：（i）大型语言模型（LLMs）中的强化学习驱动推理，以及（ii）文本到SQL方法，包括数据集整理和奖励工程。

3.1 LLM推理的强化学习

近期研究表明，强化学习（RL）可以在不需要密集监督的情况下显著改善LLM推理。例如，DeepSeek-R1仅通过基于执行的奖励信号训练LLM，展示了新兴的多步推理和自我验证能力[5]。同样，Graph-Reward-SQL使用基于图的表示提供奖励反馈，无需执行查询，从而减少推理成本同时保持推理质量[7]。
Group Relative Policy Optimization（GRPO）是这一领域的重要算法，因为它评估候选输出组而不是单个标记[8, 14]。令 $πθ\pi_{\theta}$ 表示模型策略， ${qi}\left\{q_{i}\right\}$ 表示问题 $Q$ 的SQL候选， $R(qi)∈{0,1}R\left(q_{i}\right) \in\{0,1\}$ 表示执行正确性。GRPO最大化：

$J(\theta)=\mathbb{E}_{\left\{q_{i}\right\} \sim \pi_{\theta}}\left[\max _{i} R\left(q_{i}\right)\right]$

并通过：

$\nabla_{\theta} J(\theta) \approx \frac{1}{M} \sum_{m=1}^{M}\left(\max _{i} R\left(q_{i}^{(m)}\right)-b\right) \nabla_{\theta} \log \pi_{\theta}\left(q_{i^{*}}^{(m)}\right)$

更新，其中 $b$ 是基线， $q_{i^{*}}^{(m)}$ 是组 $m$ 中奖励最高的候选[6]。
除了GRPO，RLoT（RL-of-Thoughts）引入了一个推理时间RL导航器，选择逻辑推理块以改善多步问题解决[15]。REARANK应用列表式RL重新排序生成的推理路径，增强可解释性和性能[16]。对于现实世界的软件任务，SWE-RL利用开源代码演化历史在代码上下文中训练LLM进行逻辑推理[17]。最后，ReMA采用多代理RL将推理分解为分层子代理，提高复杂任务的泛化能力[18]。
这些研究强调，RL可以在LLMs中诱导结构化推理行为，使用稀疏奖励，但通常需要仔细设计奖励以避免“奖励黑客”[19]。CogniSQL-R1-Zero基于这些见解，使用单一的基于执行的奖励——避免中间启发式——直接对齐正确SQL执行的最终任务。

3.2 文本到SQL方法

文本到SQL已经从早期的基于规则的系统[10, 20]发展到带有模式编码器的神经序列到序列模型[4, 21]。Seq2SQL首次将RL引入文本到SQL，结合交叉熵损失和执行奖励：

$\mathcal{L}_{\text {Seq2SQL }}=\mathcal{L}_{\text {agg }}+\mathcal{L}_{\text {sel }}+\mathcal{L}_{\text {whe }}, \quad \text { 其中 } \quad \mathcal{L}_{\text {whe }}=-\mathbb{E}_{q \sim \pi_{\theta}}\left[R(q) \cdot \sum_{t=1}^{T_{\text {whe }}} \log \pi_{\theta}\left(q_{t} \mid q_{<t}\right)\right]$

以提高多表查询的准确性[8]。
大型语言模型的出现进一步改变了文本到SQL。像UniSAr这样的模型结合模式感知标记来编码表-列关系，而OmniSQL通过模式引导提示合成数百万高质量示例[12, 22]。尽管零样本性能强大，LLMs在没有明确推理框架的情况下，往往在复杂、多连接查询上表现不佳[11, 1]。这一差距促使了诸如链式思维提示[1]、查询分解[23]和上下文利用[2]等技术的发展。
基于RL的文本到SQL研究日益受到关注，出现了结合执行反馈、语法有效性和模式一致性等多组件奖励函数的框架[24, 6]。然而，复杂的奖励工程可能引入脆弱性[19]。相比之下，CogniSQL-R1-Zero采用简约的、以执行为中心的奖励设计，将Seq2SQL的原始概念扩展到7B参数的LLM，无需监督微调，证明了在BIRD[25]上的稳健性能。

3.3 数据集创建与整理

稳健的文本到SQL模型依赖于大规模、多样化的数据集。SPIDER基准引入了超过10K个具有复杂模式的示例，推动了跨领域泛化的发展[25]。随后，OmniSQL使用模式感知LLM提示合成了超过2.5M个示例，表明数据量和多样性可以提高模型的鲁棒性[22]。Gretel-Synth和Synthetic-Text-To-SQL提供了大规模的合成语料库，但可能缺乏现实世界的变异性[26]。
为解决这些限制，我们发布了两个新语料库——每个都通过受控程序生成——并引入了一个独特的推理导向数据集，此前未有提供：

正样本语料库（36,356个示例）。我们从9,428个BIRD-SQL训练提示开始。对于每个提示，我们从Qwen-7B-Coder（温度0.9）中采样六个候选，执行它们并保留生成正确结果的候选。每个保留的SQL与其推理轨迹（模型生成的思维链）配对。这产生了36,356个高精度SQL及其伴随的推理路径，作为任何基础LLM上对齐驱动RL训练的正样本。
- QWQ 32B推理轨迹（5,024个示例）。我们使用一个32B参数的QWQ模型在生成最终SQL之前生成逐步推理。具体来说，对于5,024个BIRD-SQL提示中的每个，我们提示QWQ 32B：
  请逐步解释你的推理；然后在标签下输出SQL。
  模型的中间推理步骤记录为独特的“推理轨迹”。我们过滤掉最终SQL执行失败的任何轨迹。结果是一个包含4,928个推理-SQL对的语料库，为RL或链式思维微调提供详细的监督信号。

这两个数据集旨在促进：

对齐驱动训练：正样本示例将模型输出与正确执行对齐，使稀疏奖励RL无需人工注释。
1. 推理监督：QWQ 32B轨迹教会模型生成结构化、逐步的解释——对于复杂查询的可解释性和稳健性能至关重要。
通过开源这些语料库，我们为社区提供了高精度SQL示例和明确的推理路径，支持在低计算约束下进行轻量RL训练和推理增强文本到SQL的研究。

3.4 与执行目标的对齐

确保LLM输出与执行要求对齐至关重要。关于奖励回避和“奖励黑客”的研究表明，天真的RL奖励可能导致模型利用表面模式[19]。对齐导向方法——如“学习思考”（L2T）——使用信息论奖励塑造来鼓励简洁的推理路径[13]，而基于PPO的方法强调稳定的策略更新[27]。
CogniSQL-R1-Zero遵循这些对齐原则，使用基于执行正确性和格式标签合规性的奖励信号。这种设计避免了脆弱的中间目标，确保模型训练专注于生成在目标数据库上正确执行的SQL。

4 方法

基于大型语言模型（LLMs）[8, 5, 7]中强化学习驱动推理的最新进展，CogniSQL-R1-Zero训练一个7B参数模型，通过直接优化执行正确性和格式标签合规性生成可执行SQL。

4.1 数据准备

我们使用BIRD-SQL数据集[28]，其中包含9,428个训练示例，涵盖95个数据库和37个领域（如医疗、体育、金融）。为了在模式上下文中建立SQL生成基础，每个示例转换为一个包含以下内容的单一提示 $p\mathbf{p}$ ：

DDL语句：表和列定义，每个都带有简要描述的注释（例如，users.user_id：唯一用户标识符）。
1. 外部知识：语义提示，如列角色或领域特定术语。
1. 自然语言问题 $Q$ ：用户的查询，例如，“列出年龄超过30岁且总订单金额超过100美元的用户。”
1. 响应格式指令：强制输出标签的模板：
  $\langle\text { reasoning }\rangle \ldots\langle\text { /reasoning }\rangle\langle\text { answer }\rangle \ldots\langle\text { /answer }\rangle .$

在预处理期间，我们对每个提示进行分词，并丢弃超过3000个标记的提示，以确保在使用四块A100 GPU时最大上下文窗口为5,000个标记。这种结构化提示使模型能够将自然语言与模式组件和预期输出格式关联起来。

4.2 模型架构

我们的策略基于Qwen/Qwen2.5-Coder-7B-Instruct变压器解码器[29]，包含7B参数。给定提示 $p\mathbf{p}$ ，模型计算标记 $(s1,…,sT)\left(s_{1}, \ldots, s_{T}\right)$ 的隐藏状态 $h_{t}$ 并输出概率：

$P\left(s_{t} \mid s_{<t}, \mathbf{p}\right)=\operatorname{softmax}\left(W_{o} h_{t}+b_{o}\right)$

其中 $W_{o}$ 和 $b_{o}$ 是学习的输出投影参数。为了在有限的GPU内存下适应模型，我们在每个变压器层中插入低秩适配器，使用参数高效微调（PEFT）[30]，每个层仅增加 $O(r×d)\mathcal{O}(r \times d)$ 额外参数（其中 $r$ 是适配器秩， $d$ 是隐藏维度）。

4.3 使用GRPO的强化学习

基于Shao等人[31]的研究，我们采用Group Relative Policy Optimization（GRPO），避免了单独值网络的需求（如PPO[32]），从而减少内存开销。GRPO使用同一提示的多个采样输出的平均奖励作为基线。
对于每个提示 $p\mathbf{p}$ ，当前策略 $πθ\pi_{\theta}$ 采样一组 $G$ 个SQL候选 ${oi}i=1G\left\{o_{i}\right\}_{i=1}^{G}$ 。我们将先前策略表示为 $\pi_{\theta_{\text {old }}}$ ，固定参考策略表示为 $\pi_{\text {ref }}$ 。每个候选 $o_{i}$ 是一个标记序列 $(oi,1,…,oi,∣oi∣)\left(o_{i, 1}, \ldots, o_{i,\left|o_{i}\right|}\right)$ 。令 $A^i,t\hat{A}_{i, t}$ 为候选 $i$ 中标记 $o_{i, t}$ 的优势估计。GRPO目标为：

$\mathcal{J}_{\mathrm{GRPO}}(\theta)=\mathbb{E}_{\substack{q \sim P(Q) \\\left\{o_{i}\right\}_{i=1}^{G} \sim \pi_{\theta_{\mathrm{old}}}(\cdot \mid q)}}\left[R_{\max }(q)\right]$

其中

$R_{\max }(q)=\max _{i=1, \ldots, G} R_{\text {total }}\left(o_{i}\right), \quad R_{\text {total }}\left(o_{i}\right)=\alpha_{f} R_{f}+\alpha_{s f} R_{s f}+\alpha_{c} R_{c}+\alpha_{l} R_{l}$

为了优化这一目标，我们最大化一个剪切的、组级代理：

$A^i,t⏟概率比 × 优势 ,clip⁡(riratio ,1−ϵ,1+ϵ)A^i,t]−βDKL[πθ(⋅∣q)∥πref(⋅∣q)] \frac{1}{G} \sum_{i=1}^{G} \frac{1}{\left|o_{i}\right|} \sum_{t=1}^{\left|o_{i}\right|} \min \left[\underbrace{r_{i}^{\text {ratio }} \hat{A}_{i, t}}_{\text {概率比 } \times \text { 优势 }}, \operatorname{clip}\left(r_{i}^{\text {ratio }}, 1-\epsilon, 1+\epsilon\right) \hat{A}_{i, t}\right]-\beta \mathrm{D}_{\mathrm{KL}}\left[\pi_{\theta}(\cdot \mid q) \| \pi_{\mathrm{ref}}(\cdot \mid q)\right]$

这里：

$(oi,t∣q,oi,<t)r_{i}^{\text {ratio }}=\frac{\pi_{\theta}\left(o_{i, t} \mid q, o_{i,<t}\right)}{\pi_{\theta_{\text {old }}}\left(o_{i, t} \mid q, o_{i,<t}\right)}$
- $\pi_{\theta_{\text {old }}}$ 是更新前的策略。
- $\pi_{\text {ref }}$ 是固定参考策略（例如，初始监督模型）。
- $ϵ\epsilon$ 控制剪切范围，限制策略更新。
- $β\beta$ 权重KL散度惩罚，确保 $πθ\pi_{\theta}$ 不会偏离 $\pi_{\text {ref }}$ 太远。
- $A^i,t=Rtotal (oi)−b\hat{A}_{i, t}=R_{\text {total }}\left(o_{i}\right)-b$ ，其中 $b$ 是组的平均奖励，作为减少方差的基线。
  通过比较候选组而不是单个样本，GRPO专注于每组中表现最好的序列，在稀疏的基于执行的奖励下稳定训练。

4.4 奖励函数设计

为了提供比二进制执行反馈更丰富的指导，我们为每个候选 $o$ 引入四个奖励组件：

格式奖励 $R_{f}$ ：确保输出完全匹配指定标签（通过正则表达式）。
$R_{f}(o)= \begin{cases}1, & \text { 如果 } o \text { 符合 }\langle\text { reasoning }\rangle\langle/ \text { reasoning }\rangle\langle\text { answer }\rangle\langle/ \text { answer }\rangle \\ 0, & \text { 否则 }\end{cases}$
软格式奖励 $R_{s f}$ ：如果基本标签正确出现，给予部分奖励，帮助早期训练。
$R_{s f}(o)= \begin{cases}0.5, & \text { 如果基本标签结构匹配正则表达式 } \\ 0, & \text { 否则 }\end{cases}$
正确性奖励 $R_{c}$ ：执行生成的SQL并与真实结果比较。
$R_{c}(o)= \begin{cases}2, & \text { 如果 } \operatorname{Exec}(o)=\operatorname{Exec}\left(q_{\mathrm{gt}}\right) \\ 0, & \text { 否则 }\end{cases}$
长度奖励 $R_{l}$ ：惩罚超过标记限制 $k$ 的输出。如果 $∣ o ∣ > k$ ，则：
$R_{l}(o)= \begin{cases}-0.5, & \text { 如果 }|o|>k \\ 0, & \text { 否则 }\end{cases}$

候选 $o$ 的总奖励为：

$R_{\text {total }}(o)=\alpha_{f} R_{f}(o)+\alpha_{s f} R_{s f}(o)+\alpha_{c} R_{c}(o)+\alpha_{l} R_{l}(o)$

其中 $αc≫{αf,αsf,αl}\alpha_{c} \gg\left\{\alpha_{f}, \alpha_{s f}, \alpha_{l}\right\}$ 以优先执行正确性。

4.5 低计算训练优化

所有实验在四块NVIDIA A100 GPU（每块40 GB）上运行。为了在RL下容纳7B参数模型，我们采用：

DeepSpeed ZeRO 2 [9]：将优化器状态 $O(Θ)\mathcal{O}(\Theta)$ 和梯度分片到4块GPU上，减少每块GPU的内存到
$\frac{|\Theta|+|\mathcal{O}(\Theta)|}{4}$
梯度累积：微批次大小 $b = 2$ 。在 $k$ 步累积梯度后，有效批次大小为
$\text { EffBatch }=4 \times b \times k=8 k$
执行超时：每个SQL在推理时分配30秒；未能完成的查询分配 $R_{c}=0$ 以防止GPU停滞。
这些优化相比没有ZeRO 2的单GPU训练带来了约3倍的速度提升，同时保持峰值GPU内存低于40 GB。

4.6 训练流程

纯RL（R1-Zero）方法 在无冷启动变体中，我们在Qwen2.5-Coder-7B上直接应用Group Relative Policy Optimization（GRPO），无需任何监督预热，遵循DeepSeek-R1-Zero方法论[5]。对于每个提示 $p\mathbf{p}$ ，我们：
从 $πθ(⋅∣p)\pi_{\theta}(\cdot \mid \mathbf{p})$ 在温度 $T = 0.9$ 下采样 $G = 6$ 个SQL候选 ${oi}i=16\left\{o_{i}\right\}_{i=1}^{6}$ 。
1. 计算每个候选的总奖励 $(oi)R_{\text {total }}\left(o_{i}\right)$ ，如第4.4节定义。
1. 确定组奖励 $(oi)R_{\max }=\max _{i} R_{\text {total }}\left(o_{i}\right)$ 。
1. 通过GRPO梯度更新 $θ\theta$ ：
  $\nabla_{\theta} J(\theta) \approx\left(R_{\max }-b\right) \nabla_{\theta} \log \pi_{\theta}\left(o_{i^{*}} \mid \mathbf{p}\right)$

其中 $(oi)o_{i^{*}}=\arg \max _{i} R_{\text {total }}\left(o_{i}\right)$ ， $b$ 是运行基线。
我们使用学习率 $η=10−5\eta=10^{-5}$ ，微批次大小 $b = 2$ ，梯度累积4步。这种纯RL路径最终达到我们最佳的最终准确率。
6. 监督初始化与RL预热（冷启动）变体 在冷启动变体中，我们首先进行短监督训练阶段，教授基本SQL语法和标签结构。具体来说，我们使用交叉熵损失在500个随机采样的BIRD示例上训练3,000步：
$\mathcal{L}_{\text {sup }}=-\sum_{t=1}^{T} \log P\left(s_{t}^{\mathrm{gt}} \mid s_{<t}^{\mathrm{gt}}, \mathbf{p}\right)$

在此监督阶段后，我们过渡到RL预热与GRPO。在每个RL步骤：

从 $πθ(⋅∣p)\pi_{\theta}(\cdot \mid \mathbf{p})$ 采样 $G = 6$ 个SQL候选 ${oi}\left\{o_{i}\right\}$ 。
1. 计算每个候选的 $(oi)R_{\text {total }}\left(o_{i}\right)$ 。
1. 计算 $(oi)R_{\max }=\max _{i} R_{\text {total }}\left(o_{i}\right)$ 。
1. 通过：
  $\nabla_{\theta} J(\theta) \approx\left(R_{\max }-b\right) \nabla_{\theta} \log \pi_{\theta}\left(o_{i^{*}} \mid \mathbf{p}\right)$

更新。
我们保持 $η=10−5\eta=10^{-5}$ ，微批次大小 $b = 2$ ，4步梯度累积。虽然这种冷启动路径实现更快的初始稳定性，但收敛略低于纯RL R1-Zero性能。
5. 检查点与早停 对于纯RL和冷启动变体，我们每1,000 RL步骤在BIRD开发集上评估执行准确率。如果准确率在连续三次评估中未能提高，训练停止。实际上，纯RL路径在约34K RL步骤时收敛，冷启动路径在约30K步骤时收敛。我们选择纯RL（R1-Zero）运行中最佳检查点作为最终模型CogniSQL-R1-Zero。
6. 4. 数据集生成 一旦RL训练完成，我们生成两个辅助语料库以支持未来研究：

正样本语料库（36,356个SQL示例）。我们从9,428个BIRD-SQL训练提示开始。对于每个提示，我们从Qwen-7B（温度0.9）中采样六个候选，执行它们并保留生成正确结果的候选。每个保留的SQL与其推理轨迹（模型生成的思维链）配对。这产生了36,356个高精度SQL及其伴随的推理路径，作为任何基础LLM上对齐驱动RL训练的正样本。
- QWQ 32B推理轨迹（5,024个示例）。我们提示一个32B参数模型（QWQ-32B）在每个BIRD训练示例上生成逐步逻辑推理，然后输出最终SQL。然后执行每个生成的SQL并保留SQL返回正确结果的5,024对。结果语料库包含详细推理轨迹与验证SQL配对，提供精确的监督信号用于RL或链式思维微调在低计算约束下。
  这一综合工作流程——结合监督预热、基于GRPO的RL和数据集生成——产生了CogniSQL-R1-Zero：一个轻量级、与执行对齐的文本到SQL模型，优化了在有限GPU资源下的现实世界部署。

5 学习成果

在本节中，我们总结了实验过程中的关键观察和发现。我们首先详细说明实验设置，然后讨论从训练数据和策略中获得的见解，接着是来自BIRD基准评估的教训。

5.1 实验设置

我们使用Qwen/Qwen2.5-Coder-7B-Instruct模型[29]作为我们的7B参数主干进行所有实验。训练集包含BIRD-SQL[28]中的9,428个示例，评估在保留的1,500样本开发集上进行。在预处理期间，我们过滤掉超过3,000个标记的提示，确保在四块NVIDIA A100 GPU（每块40 GB）上输入和生成标记的组合保持在5,000标记上下文窗口内。我们应用PEFT[30]而不是完整微调以最小化内存使用。
图1展示了实验设置的组件级架构，包括数据摄入、预处理、模型训练（使用DeepSpeed ZeRO 2）、奖励计算和通过VLLM加速评估。
图2：训练时间比较：基线（1 GPU）vs. ZeRO 2（4 GPU）。

预处理后，提示被输入Qwen/Qwen2.5-Coder-7B-Instruct模型。我们应用Group Relative Policy Optimization（GRPO）[31]训练模型进行强化学习。对于每个提示，策略 $πθ\pi_{\theta}$ 采样一组 $G = 6$ 个SQL候选。每个候选在实际数据库上执行，每个执行有30秒超时；超时查询获得零奖励。我们设置KL惩罚系数为 $β=0.001\beta=0.001$ ，剪切比为 $ϵ=0.2\epsilon=0.2$ ，约束策略更新并防止偏离参考策略。运行平均基线 $b$ 进一步稳定梯度估计。

奖励计算通过在真实数据库上执行生成的SQL进行。任何超时或执行错误导致 $=0R_{\text {exec }}=0$ 。

为了在RL下容纳7B参数模型，我们在所有四块A100 GPU上集成DeepSpeed ZeRO 2[9]。ZeRO 2在设备间分片优化器状态 $O(Θ)\mathcal{O}(\Theta)$ 和梯度，减少每块GPU内存使用到：

$\frac{|\Theta|+|\mathcal{O}(\Theta)|}{4}$

我们采用梯度累积，微批次大小 $b = 2$ ，累积步数 $k = 2$ ，有效批次大小为 $\times 2 \times 2=16$ 。此配置保持每块A100内存使用低于40 GB，同时稳定训练。

在单块A100（批次大小 $b = 2$ ）上，一次训练周期需要约18小时22分35秒（约18.376小时）。使用ZeRO 2在四块A100上，减少到6小时12分50秒（约6.214小时），速度提升约2.96倍（图2）。

评估加速生成最多每个1,500个开发提示的六个SQL候选耗时。为了加速多样本推理，我们集成VLLM推理引擎[33]，将每次检查点的评估时间从几小时减少到30分钟以内。

5.2 从训练数据中学习

模式多样性的重要性：在具有不同表结构和列注释的提示上训练的模型泛化更好。包括外部知识评论帮助LLM消除领域特定术语的歧义（例如，“users.age”与“members.age”）。
- 提示过滤：移除超过3000个标记的提示不仅防止了上下文窗口溢出，还减少了阻碍早期RL收敛的噪声或过于复杂的示例。
- 平衡问题类型：BIRD包含单表和多连接查询的混合。确保每个小批量中的平衡混合导致比随机采样更平滑的学习曲线。

5.3 初步基于LLM的实验和学到的教训

在承诺纯RL策略之前，我们尝试了几个基于LLM的流水线以启动推理。这些方法产生了重要的教训：

LLaMA 3.1 8B的零样本链式思维：我们提示LLaMA 3.1 8B为每个自然语言问题生成“链式思维”推理步骤，然后将其最终推理轨迹传递给CodeStral 22B进行SQL生成。尽管一些CoT输出是连贯的，但不到20%的生成SQL在BIRD上执行正确，表明零样本CoT本身无法可靠地将推理转化为可执行SQL。LLaMA的推理风格与CodeStral的SQL合成之间的不匹配导致了脆弱的性能。
1. 代理多代理推理流水线：我们构建了一个四个并行推理代理的流水线，每个代理专门处理不同的业务上下文。在推理时，路由器将问题发送给所有四个代理，代理通过消息传递协作后，将整合的推理提示转发给Qwen-7B进行SQL生成。该架构在数据集的200个随机样本查询上实现了85%的准确率，但产生了高昂的GPU成本和复杂性。其延迟（由于代理间同步）和高计算占用使其不适合具有大规模词汇和多样化模式的开放基准。
1. 从蒸馏32B推理模型进行监督微调（SFT）：为了将推理能力注入我们的7B主干，我们通过监督微调在5,024个验证推理-SQL对上将QWQ 32B的逐步推理轨迹蒸馏到Qwen-7B中（见第3.3节）。最初，这种SFT步骤提高了性能的希望。然而，BIRD-dev准确率从约52.0%（基线）下降到约46.0%，与“SFT或RL？关于训练R1类推理LLM的初步调查”[34]中的发现一致。下降表明对蒸馏推理风格的过度拟合和对未见过的模式泛化能力差。
1. 自我生成数据SFT以恢复准确率：为了克服SFT后的准确率下降，我们利用Qwen-7B自身生成额外的训练示例。对于每个BIRD提示，我们在温度0.9下采样六个SQL候选，执行它们并保留正确SQL（约56%的总数）。然后我们在这个“自我生成”的语料库（36,356个示例）上训练Qwen-7B。这个SFT在模型生成的数据上恢复了性能，达到约57.3%的执行准确率——几乎匹配基线。这些结果表明，即使数据来自模型本身，SFT也能从高精度、分布内示例中受益。
1. 冷启动后跟RL（GRPO）混合：最后，我们将上述SFT在自我生成的数据上与GRPO微调结合。在恢复SFT阶段后，我们应用纯RL（R1-Zero）如DeepSeek-R1[5]。这种混合“冷启动+ RL”方法收敛到约58.0%的准确率，与纯RL R1-Zero相似但初始学习更稳定。尽管如此，无冷启动变体最终达到略高的峰值准确率和更简单的工作流程。
  这些探索性流水线突出了两个关键见解：

SFT在预期数据分布上：自我生成的高精度SQL示例可以帮助模型从SFT引起的退化中恢复。然而，仅靠SFT——无论是来自大型蒸馏轨迹还是外部语料库——无法保证在没有RL的情况下泛化。
- RL的独特能力：只有通过直接优化基于执行的奖励（通过GRPO），模型才能可靠地提高到约59%以上。纯RL（R1-Zero）成为在低计算约束下实现稳健文本到SQL推理的最有效和高效途径。
  这些失败引导我们转向纯RL方法，避免脆弱的中间监督。

5.4 从训练策略中学到的教训

提示格式至关重要 包括明确的DDL模式、简洁的外部知识以及单独的’‘和’‘标签的结构化提示显著提高了模型对相关模式元素的关注。在早期没有’'的试验中，模型经常生成没有解释的原始SQL，这导致奖励传播停滞。

奖励权重 强调正确性奖励 $(αc=2)\left(\alpha_{c}=2\right)$ 超过格式 $(αf=1)\left(\alpha_{f}=1\right)$ 和长度 $(αl=−0.5)\left(\alpha_{l}=-0.5\right)$ 防止模型优先考虑格式合规性而牺牲执行正确性。在早期实验中，相等的权重导致收敛到匹配模板但频繁运行时失败的SQLs，增加 $αc\alpha_{c}$ 解决了这个问题。

组大小和温度 我们尝试了组大小 $\in 4,6,8$ 和采样温度 $\in 0.6,0.9$ 。组大小 $G = 6$ 和 $T = 0.9$ 在探索和稳定更新之间取得平衡；较大的 $G$ 增加了GPU停滞，较高的 $T$ 生成更多无效SQL。组大小 $G$ 指每训练步骤评估的并行样本数，影响探索与计算效率之间的权衡。

基线和KL惩罚 我们将基线 $b$ 设置为 $R_{\max }$ 的运行平均值，这显著减少了梯度方差。我们还包括了一个小KL惩罚项 $(β=0.001)(\beta=0.001)$ ，锚定到初始策略，以稳定早期训练并防止模型偏离语法无效行为。
通过在整个训练过程中逐渐减少KL惩罚，我们将执行准确率从58.4%提高到59.97%——绝对增益约1.6%。这与研究表明允许通过降低KL正则化来增加探索可以增强LLM的RL训练性能一致[35, 36]。
这些见解支持我们的方法：逐渐减少的KL惩罚鼓励从预训练策略受控发散，提升基于执行的学习而不损害稳定性。

PEFT适配器等级 我们调整了PEFT层的适配器等级 $\in\{16,32,64,128\}$ 。较低的 $r$ 减少了内存但减慢了收敛； $r = 64$ 给出了最佳权衡：在34K RL步骤内收敛，同时适应每块GPU的40 GB内存。

5.5 从评估基准中学到的教训

在BIRD-dev上，我们经过RL训练的CogniSQL-R1-Zero实现了59.97%的执行准确率。关键见解：

RL vs. SFT基线：我们的模型超越了SFT CodeS-7B（50%）、Mistral 123B（52%）、DeepSeek-Coder 236B（54%）甚至GPT-4（55%）——尽管仅有7B参数。
- 错误分析：大多数失败涉及需要嵌套子查询的复杂多连接查询。一小部分（<5%）由于语法检查通过但运行时出错的错误SQL导致。
- 推理时间技术：在推理时应用多数投票（在 $T = 0.9$ 下生成的六个候选中）提高了1.5%的准确率，表明即使在RL训练的策略上，简单的重新排序也可能带来潜在好处。
  表1：CogniSQL-R1-Zero与其他OSS/专有模型（10B以下参数）的比较

模型	OSS	大小	BIRD(dev) (%)
Granite-8B-Code-Instruct [37]	✓	8B	27.6
Granite-3.1-8B-Instruct [37]	✓	8B	36.0
OpenCoder-8B-Instruct [38]	✓	8B	37.5
Meta-Llama-3.1-8B-Instruct [39]	✓	8B	42.0
DPSK-Coder-6.7B-Instruct [40]	✓	6.7B	43.1
Qwen2.5-7B-Instruct [41]	✓	7B	46.9
Qwen2.5-Coder-7B-Instruct [29]	✓	7B	50.9
Think2SQL-7B [42]	✗	7B	56.1
SFT CodeS-7B [43]	✓	7B	57.17
CogniSQL-R1-Zero (Ours)	✓	7B	59.97

表2：CogniSQL-R1-Zero与其他OSS/专有模型（10B到30B参数）的比较

模型	OSS	大小	BIRD(dev) (%)
Granite-20B-Code-Instruct [37]	✓	20B	34.0
Starcoder2-15B-Instruct [44]	✓	15B	38.5
DPSK-Coder-V2-Inst (16B/MoE) [45]	✓	16B	44.6
Codestral-22B [46]	✓	22B	52.7
Qwen2.5-14B-Instruct [41]	✓	14B	56.7
SFT CodeS-15B [47]	✓	15B	58.47
CogniSQL-R1-Zero (Ours)	✓	7B	59.97

表3：CogniSQL-R1-Zero与其他OSS/专有模型（30B及以上/未知大小）的比较

模型	OSS	大小	BIRD(dev) (%)
Granite-34B-Code-Instruct [37]	✓	34B	33.8
Codex Baseline [28]	✗	175B	34.35
Mixtral-8x7B-Inst. (47B, MoE) [48]	✓	47B	35.3
SuperSQL (NL2SQL360) [49]	✓	UNK	58.50
ChatGPT + CoT [28]	✗	UNK	36.64
ChatGPT Baseline [28]	✗	UNK	37.22
Claude-2 Baseline [28]	✗	UNK	42.70
GPT-4 Baseline [28]	✗	UNK	46.35
DPSK-Coder-33B-Instruct [40]	✓	33B	49.2
Mistral Baseline [28]	✗	123B	53.52
DeepSeek Baseline [28]	✗	236B	56.13
CogniSQL-R1-Zero (Ours)	✓	7B	59.97

6 结果

我们在BIRD-dev数据集上评估CogniSQL-R1-Zero，使用执行准确率（Ex%）作为主要指标。我们在两种不同设置下评估性能：（1）单样本生成——模型每个问题输出一个SQL；（2）最佳-of-6采样下的测试时间扩展，生成六个SQL并选择执行最高的一个。这遵循了[50]提出的测试时间扩展框架。

表4：不同后训练方法和测试时间扩展下的执行准确率（Ex%）比较

后训练方法	模型	Ex%	最佳-of-6 (%)
无后训练	Qwen2.5-7B-Coder	52.02	67.25
1步RL（拒绝采样）	Qwen2.5-7B-Coder	57.04	69.00
CogniSQL-R1-Zero	Qwen2.5-7B-Coder	59.97	69.68

6.1 单样本生成

在此设置中，模型为每个自然语言提示生成一个SQL查询。图3追踪了RL训练轨迹中的执行准确率。基础Qwen2.5-7B-Coder模型在学习后开始于52.02%，随着奖励优化稳步提升，到第34K步时达到59.97%。
图3：单样本生成下检查点的执行准确率。
这一7.95%的提升表明，CogniSQL-R1-Zero能够通过稀疏的基于执行的奖励有效改进其SQL生成。结构化提示格式可能通过减少歧义和促进组成一致性来促进这一优化。

6.2 测试时间扩展（最佳-of-6）

为了进一步提高推理时间的准确率，我们应用测试时间扩展[50]，通过采样六个SQL候选并选择执行成功最高的一个。图4显示了这一设置如何在RL训练步骤中提升性能。
图4：测试时间扩展（最佳-of-6）下检查点的执行准确率。
在初始化步骤中，最佳-of-6准确率已经跃升至67%，而单样本生成为52.7%——突出了输出中的固有多样性。随着RL的进展，这一上限准确率急剧上升，峰值达到69.68%。这一9.71%的绝对增益表明，在结合良好训练的模型和结构化提示的情况下，基于采样的推理的有效性。
至关重要的是，这种扩展方法保持了效率：不是使用更大的模型或额外的监督，而是利用多次前向传递和奖励一致的训练来利用模型不确定性。测试时间扩展的好处进一步验证了我们决定在RL下微调，提示结构优化以促进组成泛化。

7 讨论

我们的实验表明，CogniSQL-R1-Zero——一个通过GRPO训练的7B参数模型，使用稀疏的基于执行的奖励——在BIRD-dev上实现了最先进的执行准确率，超过了更大的基线模型。几个关键见解浮现：

稀疏执行奖励的有效性 通过仅依赖于二进制执行反馈（正确与错误）而不是复杂的中间信号，CogniSQL-R1-Zero避免了脆弱的奖励工程。在单样本RL训练期间，模型从52.02%稳步提升到59.97%的执行准确率（图3）。这与早期基于RL的文本到SQL研究（如Seq2SQL [8]）以及最近的工作（如ReasoningSQL [6]）的发现一致，表明稀疏的最终任务执行奖励在与强大的监督初始化配对时足够。此外，仅依赖执行奖励减少了奖励黑客的风险——Amodei等人[51]在RL系统中记录的已知挑战。

结构化提示的作用 结构化提示——明确的DDL、外部注释和格式标签——在减少SQL生成的搜索空间方面起着关键作用。当模型有明确的推理和答案标签分隔符时，它会专注于模式元素和逻辑组成，而不是从头学习格式。受控实验（表4）表明，即使没有RL，添加我们的提示也能带来适度的准确率提升。在RL下，结构化提示加速了收敛，表明早期减少语义歧义有助于更有效地传播执行奖励。

测试时间扩展作为性能杠杆 测试时间扩展（最佳-of-6采样）将执行准确率从59.97%提升到69.68%——绝对提升9.71%——而无需任何额外训练。这证实了最近的证据，即在推理时分配额外计算可能超过增加模型大小的效果[50]。在实践中，生成六个候选需要六次前向传递，这在四块A100 GPU上是可行的，并带来显著的性能提升。至关重要的是，这一策略利用了模型不确定性：不同的样本探索不同的语法模板和连接顺序，增加了候选中正确SQL的可能性。

与更大模型的比较 尽管仅有7B参数，CogniSQL-R1-Zero在单样本准确率上超过了DeepSeekCoder（236B）和Mistral（123B）。这表明，在中型模型上进行良好调优的RL可以缩小甚至逆转与大型LLMs在文本到SQL上的差距。我们的结果呼应了其他领域（如数学推理）的观察，其中RL训练的7B模型在奖励与最终任务对齐时胜过70B+模型[5, 17]。因此，对于GPU资源有限的从业者来说，专注于轻量级RL和结构化提示可以在不追求更大模型的情况下获得有竞争力的结果。

此外，最佳-of-6采样的一个限制是需要生成多个候选，这会使推理延迟增加高达6倍。尽管这在许多服务器端应用中是可以接受的，但延迟敏感的用例可能需要探索替代的推理时间策略（如集成重新排序或约束束搜索）以平衡速度和准确率。

泛化和未来方向 我们的方法专注于BIRD-SQL，表明有空间进行领域适应。未来的工作可以探索：

跨数据集泛化：在没有额外微调的情况下将RL训练的模型应用于新模式，可能通过元RL或少样本适应。
- 细粒度奖励组件：引入部分执行奖励（如匹配中间连接结果）以更有效地塑造子查询推理。
- 交互式人类参与RL：在模糊查询上偶尔引入人类反馈以纠正持续的多连接失败。
- 轻量级蒸馏：将RL训练的策略蒸馏到更小的学生模型中，以减少推理成本同时保持高执行准确率。
  总之，CogniSQL-R1-Zero证明，中型LLM在使用稀疏执行奖励和结构化提示训练时，可以在文本到SQL上匹配或超过更大模型的性能。测试时间扩展进一步放大了这些收益，为在计算受限下实现高准确率SQL生成提供了实用途径。

8 结论

在本研究中，我们介绍了CogniSQL-R1-Zero，一个通过Group Relative Policy Optimization（GRPO）训练的7B参数文本到SQL模型，仅使用稀疏的基于执行的奖励。通过结合结构化提示、PEFT适配器和DeepSpeed ZeRO 2并行性，我们的方法在单样本生成中实现了59.97%的执行准确率——超过了更大的基线模型，如DeepSeek-Coder（236B）和Mistral（123B）。此外，应用测试时间扩展（最佳-of-6采样）将准确率提升到69.68%，证明了战略性推理时间计算可以超越简单增加模型大小。
我们还发布了两个辅助数据集以支持轻量级推理研究：（1）由Qwen-7B-Coder生成的36,356个正样本语料库，以及（2）来自32B参数模型的5,024个逐步推理轨迹。这些资源支持未来在有限计算下的RL驱动或基于提示的文本到SQL探索。
我们的发现强调：

稀疏奖励足够：二进制执行反馈与结构化提示相结合，产生稳定的RL收敛，无需复杂的奖励工程。
- 结构化提示的重要性：明确的DDL、外部注释和格式标签显著减少语义歧义并加速学习。
- 高效扩展：测试时间扩展可以在最小开销下带来显著的准确率提升，提供比扩展模型参数更具成本效益的替代方案。
  未来的工作可能探索多连接和嵌套子查询推理的更细粒度奖励组件、跨数据集泛化以及人类参与RL以解决持续的错误模式。我们相信，CogniSQL-R1-Zero及其开源数据集为在资源受限环境中构建高效、高准确率的文本到SQL系统提供了实用基础。

参考文献

[1] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, and Denny Zhou. Chain-of-thought prompting elicits reasoning in large language models. In Advances in Neural Information Processing Systems 36 (NeurIPS), 2023.
[2] Shayan Talaei, Mohammadreza Pourreza, Yu-Chen Chang, Azalia Mirhoseini, and Amin Saberi. Chess: Contextual harnessing for efficient sql synthesis. In arXiv preprint arXiv:2405.16755, 2024.
[3] Yingqi Gao, Yifu Liu, Xiaoxia Li, Xiaorong Shi, Yin Zhu, Yiming Wang, Shiqi Li, Wei Li, Yuntao Hong, Zhiling Luo, Jinyang Gao, Liyu Mou, and Yu Li. Xiyan-sql: A multi-generator ensemble framework for text-to-sql. arXiv preprint arXiv:2411.08599, 2024.
[4] Jiaqi Guo, Zecheng Zhan, Yan Gao, Yan Xiao, Jian-Guang Lou, Ting Liu, and Dongmei Zhang. Towards complex text-to-sql in cross-domain database with intermediate representation. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (ACL), pages 4524-4535, 2019.
[5] Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, et al. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. arXiv preprint arXiv:2501.12948, 2025.
[6] Mohammadreza Pourreza, Shayan Talaei, Ruoxi Sun, Xingchen Wan, Hailong Li, Azalia Mirhoseini, Amin Saberi, Sercan Arik, et al. Reasoning-sql: Reinforcement learning with sql tailored partial rewards for reasoning-enhanced text-to-sql. arXiv preprint arXiv:2503.23157, 2025.
[7] Zhihong Chen, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, Y.K. Li, Y. Wu, et al. Graph-reward-sql: Execution-free reinforcement learning for text-to-sql via graph matching and stepwise reward. arXiv preprint arXiv:2505.12380, 2025.
[8] Victor Zhong, Caiming Xiong, and Richard Socher. Seq2sql: Generating structured queries from natural language using reinforcement learning. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1747-1759, 2017.
[9] Jonah Rasley, Samyam Rajbhandari, Minjia He, David Garcia, Deepak Narayanan, Naman Goyal, Sharan Li, Guoqiang Zhou, Raj Puri, Bryan Zhu, et al. Deepspeed: System optimizations enable training of trillion parameter models. arXiv preprint arXiv:2004.08936, 2020.
[10] I. Androutsopoulos, G. D. Ritchie, and P. Thanisch. Natural language interfaces to databases - an introduction. Journal of Natural Language Engineering, 1(1):29-81, 1995.
[11] Dawei Gao, Haibin Wang, Yaliang Li, Xiuyu Sun, Yichen Qian, Bolin Ding, and Jingren Zhou. Text-to-sq1 empowered by large language models: A benchmark evaluation. arXiv preprint arXiv:2308.00000, 2023.
[12] Longxu Dou, Yan Gao, Mingyang Pan, Dingzirui Wang, Wanxiang Che, Dechen Zhan, and Jian-Guang Lou. Unisar: A unified structure-aware autoregressive language model for text-to-sq1. arXiv preprint arXiv:2203.07781, 2022.
[13] Ming Zhang, Jie Wang, et al. Learning to think: Information-theoretic reinforcement fine-tuning for efficient reasoning. arXiv preprint arXiv:2505.10425, 2025.
[14] Qiang Li, Alexandre Sablayrolles, Antoine Roux, Arthur Mensch, Blanche Savary, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Emma Bou Hanna, Florian Bressand, et al. Group relative policy optimization for image captioning. arXiv preprint arXiv:2503.01333, 2025.
[15] Z. Hao et al. Rl-of-thoughts: Navigating llm reasoning with inference-time reinforcement learning. arXiv preprint arXiv:2505.14140, 2025.
[16] Y. Zhang et al. Rearank: Reasoning re-ranking agent via reinforcement learning. arXiv preprint arXiv:2505.20046, 2025.
[17] Jason Wei, Zitian Xue, Qingnan Ren, Haoming Luo, Yuqian Hong, Bryan Dai, Joey Zhou, Kai Qiu, Zhirong Wu, and Chong Luo. Swe-rl: Advancing llm reasoning via reinforcement learning on open software evolution. arXiv preprint arXiv:2502.18449, 2025.
[18] X. Wan et al. Rema: Learning to meta-think for llms with multi-agent reinforcement learning. In arXiv preprint arXiv:2503.09501, 2025.
[19] Joar Skalse, Nikolaus Howe, Dmitrii Krasheninnikov, and David Krueger. Defining and characterizing reward gaming. Advances in Neural Information Processing Systems, 35:9460-9471, 2022.
[20] Fei Li and H. V. Jagadish. Constructing an interactive natural language interface for relational databases. In Proceedings of the VLDB Endowment, volume 8, pages 73-84, 2014.
[21] Bailin Wang, Richard Shin, Xiaodong Liu, Oleksandr Polozov, and Matthew Richardson. Rat-sq1: Relation-aware schema encoding and linking for text-to-sq1 parsers. In Proceedings of the 7th International Conference on Learning Representations (ICLR), 2021.
[22] Haoyang Li, Shang Wu, Xiaokang Zhang, Xinmei Huang, Jing Zhang, Fuxin Jiang, Shuai Wang, Tieying Zhang, Jianjun Chen, Rui Shi, et al. Omnisq1: Synthesizing high-quality text-to-sq1 data at scale. arXiv preprint arXiv:2503.02240, 2025.
[23] Ben Eyal, Moran Mahabi, Ophir Haroche, Amir Bachar, and Michael Elhadad. Semantic decomposition of question and sql for text-to-sql parsing. In Findings of the Association for Computational Linguistics: EMNLP 2023, pages 13629-13645, 2023.
[24] Arnav Sipuria, Anshuman Kumar, Shruti Patel, and Ran Zhou. Multi-reward text-to-sql: Aggregating execution, syntax, and schema feedback.arXiv preprint arXiv:2501.23456, 2025.
[25] Tao Yu, Rui Zhang, Kai Yang, Michihiro Yasunaga, Dongxu Wang, Zifan Li, James Ma, Shanelle Yao, Yifan Roman, Qingning Zhang, et al. Spider: A large-scale human-labeled dataset for complex and cross-domain semantic parsing and text-to-sql task. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 3911-3921, 2018.
[26] Yev Meyer, Marjan Emadi, Dhruv Nathawani, Lipika Ramaswamy, Kendrick Boyd, Maarten Van Segbroeck, Matthew Grossman, Piotr Mlocek, Drew Newberry, et al. Synthetic-text-to-sql: A synthetic dataset for training language models to generate sql queries from natural language prompts. arXiv preprint arXiv:2404.00000, 2024.
[27] J. Schulman, F. Wolski, P. Dhariwal, A. Radford, and O. Klimov. Proximal policy optimization algorithms. In arXiv preprint arXiv:1707.06347, 2017.
[28] Jinyang Li, Binyuan Hui, Ge Qu, Jiaxi Yang, Binhua Li, Bowen Li, Bailin Wang, Bowen Qin, Ruiying Geng, Nan Huo, et al. Can llm already serve as a database interface? a big bench for large-scale database grounded text-to-sql. Advances in Neural Information Processing Systems, 36, 2024.
[29] Binyuan Hui, Jian Yang, Zeyu Cui, Jiaxi Yang, Dayiheng Liu, Lei Zhang, Tianyu Liu, Jiajun Zhang, Bowen Yu, Keming Lu, et al. Qwen2. 5-coder technical report. arXiv preprint arXiv:2409.12186, 2024.
[30] Vladislav Lialin, Vijeta Deshpande, and Anna Rumshisky. Scaling down to scale up: A guide to parameter-efficient fine-tuning. arXiv preprint arXiv:2303.15647, 2023.
[31] Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y Wu, et al. Deepseekmath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:2402.03300, 2024.
[32] John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov. Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347, 2017.
[33] Woosuk Kwon, Zhuohan Li, Siyuan Zhuang, Ying Sheng, Lianmin Zheng, Cody Hao Yu, Joseph Gonzalez, Hao Zhang, and Ion Stoica. Efficient memory management for large language model serving with pagedattention. In Proceedings of the 29th Symposium on Operating Systems Principles, pages 611-626, 2023.
[34] Hardy Chen, Haoqin Tu, Fali Wang, Hui Liu, Xianfeng Tang, Xinya Du, Yuyin Zhou, and Cihang Xie. Sft or rl? an early investigation into training r1-like reasoning large vision-language models. arXiv preprint arXiv:2504.11468, 2025.
[35] Jean Vassoyan, Nathanaël Beau, and Roman Plaud. Ignore the kl penalty! boosting exploration on critical tokens to enhance rl fine-tuning. arXiv preprint arXiv:2502.06533, 2025.
[36] Rohan Paul. Stabilizing llm training: Techniques and insights. arXiv preprint arXiv:2501.00000, 2025.
[37] Mayank Mishra, Matt Stallone, Gaoyuan Zhang, Yikang Shen, Aditya Prasad, Adriana Meza Soria, Michele Merler, Parameswaran Selvam, Saptha Surendran, Shivdeep Singh, et al. Granite code models: A family of open foundation models for code intelligence. arXiv preprint arXiv:2405.04324, 2024.
[38] Siming Huang, Tianhao Cheng, Jason Klein Liu, Jiaran Hao, Liuyihan Song, Yang Xu, J Yang, JH Liu, Chenchen Zhang, Linzheng Chai, et al. Opencoder: The open cookbook for top-tier code large language models. arXiv preprint arXiv:2411.04905, 2024.
[39] Aaron Grattafiori, Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Alex Vaughan, et al. The llama 3 herd of models. arXiv preprint arXiv:2407.21783, 2024.
[40] Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang, Guanting Chen, Xiao Bi, Yu Wu, YK Li, et al. Deepseek-coder: When the large language model meets programming-the rise of code intelligence. arXiv preprint arXiv:2401.14196, 2024.
[41] An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, et al. Qwen2.5 technical report. arXiv preprint arXiv:2412.15115, 2024.
[42] Simone Papicchio, Simone Rossi, Luca Cagliero, and Paolo Papotti. Think2sql: Reinforce llm reasoning capabilities for text2sql. arXiv preprint arXiv:2504.00000, 2025.
[43] X Li, Y Chen, Z Zhou, et al. Sft codes: A lightweight supervised approach for sql generation. Proceedings of SIGMOD 2024, 2024.
[44] Anton Lozhkov, Raymond Li, Loubna Ben Allal, Federico Cassano, Joel Lamy-Poirier, Noumane Tazi, Ao Tang, Dmytro Pykhtar, Jiawei Liu, Yuxiang Wei, et al. Starcoder 2 and the stack v2: The next generation. arXiv preprint arXiv:2402.19173, 2024.
[45] Qihao Zhu, Daya Guo, Zhihong Shao, Dejian Yang, Peiyi Wang, Runxin Xu, Y Wu, Yukun Li, Huazuo Gao, Shirong Ma, et al. Deepseek-coder-v2: Breaking the barrier of closed-source models in code intelligence. arXiv preprint arXiv:2406.11931, 2024.
[46] Mistral AI. Codestral: Mistral ai’s first code generation model, 2024. https://mistral.ai/news/codestral.
[47] Haoyang Li, Jing Zhang, Hanbing Liu, Ju Fan, Xiaokang Zhang, Jun Zhu, Renjie Wei, Hongyan Pan, Cuiping Li, and Hong Chen. Codes: Towards building open-source language models for text-to-sql. Proceedings of the ACM on Management of Data, 2024.
[48] Albert Q Jiang, Alexandre Sablayrolles, Antoine Roux, Arthur Mensch, Blanche Savary, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Emma Bou Hanna, Florian Bressand, et al. Mixtral of experts. arXiv preprint arXiv:2401.04088, 2024.
[49] Boyan Li, Yuyu Luo, Chengliang Chai, Guoliang Li, and Nan Tang. The dawn of natural language to sql: Are we fully ready? arXiv preprint arXiv:2406.01265, 2024.
[50] Yuntao Huang, Hugo Touvron, Yao Xu, et al. Scaling laws for reward model overoptimization. arXiv preprint arXiv:2310.12036, 2023.
[51] Dario Amodei, Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman, and Dan Mané. Concrete problems in ai safety. arXiv preprint arXiv:1606.06565, 2016.

参考论文：https://arxiv.org/pdf/2507.06013

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla