Fine-Tuning a Large Language Model with Reinforcement Learning for Educational Question Generation

本文提出了一种基于强化学习的大型语言模型微调方法（RLLM-EduQG），用于教育问题生成任务。针对传统交叉熵训练存在的暴露偏差和指标不一致问题，该方法采用混合目标函数结合交叉熵和强化学习损失，优化Google FLAN-T5模型。实验表明，该方法在SciQ数据集上能生成语法和语义准确的教育问题，性能优于现有方法。创新点在于引入强化学习框架，同时考虑BLEU等离散指标和语义相似度，提升了生成问题的

三月七（爱看动漫的程序员）

1025人浏览 · 2025-06-30 13:25:38

三月七（爱看动漫的程序员） · 2025-06-30 13:25:38 发布

题目

使用强化学习微调大型语言模型以生成教育问题

在这里插入图片描述

论文地址：https://link.springer.com/chapter/10.1007/978-3-031-64302-6_30

摘要

教育自然语言生成(EduQG)旨在从文本内容中自动生成教育问题，这对在线教育的扩展至关重要。EduQG的先前研究主要依赖交叉熵损失进行训练，这可能导致暴露偏差以及训练和测试指标之间的不一致等问题。为了解决这个问题，我们提出了一个基于强化学习的大型语言模型来生成教育问题。特别是，我们使用结合交叉熵和RL损失的混合目标函数来微调Google FLANT5模型，以确保生成语法和语义准确的问题。在SciQ问题生成数据集上的实验结果表明，该方法在预测性能和语言质量方面与当前最先进的系统具有竞争力。

关键词:教育问题生成大型语言模型谷歌FLAN-T5强化学习自我批判序列训练

引言

电子文本信息的丰富提出了对自动问题生成(AQG)系统的需求，该系统旨在从不同的来源自动生成自然问题，包括原始文本、数据库或语义表示[25]。手工制作高质量的问题是一个巨大的挑战，因为它既复杂又耗时。此外，由于缺乏标记数据，它是训练问答系统的主要障碍。因此，AQG在提高若干自然语言处理任务的性能方面起着至关重要的作用，例如通过提供额外的训练数据来增强问答系统[26]，创建练习练习以及帮助对话系统发起和维持与人类用户的对话[18]。

对于自动问题生成任务，在文献中已经介绍了几个研究工作。早期的工作主要是利用基于规则的方法，依赖于启发式规则或手工制作的模板，这种方法的可推广性和可扩展性有限[10]。然而，深度学习的出现促进了向基于神经网络的方法的转变，特别是序列对序列(seq2seq)模型，它消除了手动设计规则的需要，并提供了端到端的可训练性[5，29]。最近，大型语言模型在AQG任务中也显示出显著的改进[1，6，19]。然而，大多数前面提到的研究工作主要集中在一般领域的AQG。因此，值得注意的是需要为教育领域开发这样的方法，特别是支持技术增强的学习。

在本文中，我们介绍了一种新颖的教育问题生成方法(EduQG ),该方法利用了大型语言模型(LLM)和强化学习(RL)的潜力。在[1]中已经探索了为EduQG微调LLM，其中作者提出通过使用S2ORC语料库[17]在科学文档上预先训练Google T5模型[22]，然后在特定于任务的数据集上微调，来提高EduQG的性能。

在SciQ问题数据集[31]上，与最先进的(SOTA)系统相比，所提出的方法显示出了有希望的结果。尽管如此，已经观察到基于交叉熵的序列训练通常表现出几个局限性，例如暴露偏差以及训练和测试测量之间的不一致性[2]。因此，这种方法对于序列生成任务(包括文本摘要[21]和问题生成[28])的离散评估指标并不总是产生最佳结果。最近一些关于AQG的研究通过强化学习优化评估指标来应对这些挑战[13，28]。然而，这些方法主要使用BLEU [20]和ROUGE-L [16]等指标作为RL训练的奖励，忽略了其他关键指标，如语义约束，这对指导高质量的文本生成至关重要。

为了解决上述问题，我们建议通过优化结合交叉熵和RL损失的混合目标函数来微调SciQ数据集上的Google FLAN-T5模型。该方法不仅考虑了离散的度量，如BLEU，而且结合了基于余弦相似性的语义相似性度量。它旨在鼓励生成语法和语义一致的文本，同时确保训练和测试度量的一致性。此外，所提出的模型是端到端可训练的，已经设置了新的最先进的分数，并且在SciQ数据集上优于现有的方法。

本文的其余部分组织如下。我们在第二节讨论相关的工作。2.在第节中。3、提出了新的方法。在第节中。4、我们描述了所进行的实验并展示了所获得的结果。最后，在Sect。5、对全文进行了总结，并对该领域未来的发展方向进行了展望。

相关工作

在这一部分，我们将回顾有关教育问题生成方法和AQG任务强化学习的研究。关于详细的综述，读者可以分别参考[4，12]调查。

教育问题生成

由于新的数据集和模型改进，自动问题生成进展迅速。已经提出了许多不同的AQG模型，从简单的标准seq2seq神经网络[5，34]到最近的基于变压器的模型[1，6，19]。

然而，对于教育问题生成任务，只提出了有限数量的作品。例如，赵等人[33]提出了一种新颖的问题生成方法，该方法首先学习输入故事段落的问题类型分布。然后，它总结了突出的事件，然后用于产生高认知需求的问题。为了训练以事件为中心的摘要器，他们使用由教育问答对组成的银样本，对预训练的基于变压器的序列到序列模型进行了微调。最近，焦等人[11]介绍了一种可控的数学应用题生成管道，利用能量语言模型和专家组件来调节问题难度和内容。通过对等式、词汇和主题的数学和语言限制来调整难度，并额外关注流畅度和序列接近度等属性，以提高语言质量和创造力。类似地，Leite等人[15]提出通过引入一个新的指导属性来增强EduQG的可控性:问题明确性。他们的方法控制了儿童友好故事中显性和隐性(wh)问题的生成，显示了通过问题显性管理教育的初步证据，既可以独立进行，也可以与因果关系、结果解析或预测等叙事元素结合进行。Shimmei等人[27]介绍了一种在在线课程中生成与特定学习目标一致的问题的实用方法。此外，Elkins等人[6]研究了使用大型语言模型进行可控文本生成的潜力，以通过产生高质量、多样化的问题来加强教育。通过教师的人工评估，本研究证明了生成的问题对于课堂使用是有用的和高质量的，突出了它们在减少教师工作量和改善教育内容方面的潜力。在相同的背景下，Bulathwela等人[1]引入了一种新的EduQG方法，该方法通过进一步预训练和微调预先存在的语言模型，特别是Google T5 [22]，在科学文本和科学问题数据上改进了教育问题的生成。

与最先进的方法相比，利用LLM的教育问题生成方法已经显示出具有竞争力的结果。然而，已经注意到，具有交叉熵损失的微调LLM可能导致几个问题，例如暴露偏差以及训练和之间的不一致测试测量[2]，可能不总是为序列生成任务的离散评估指标提供最佳结果[21，28]。与现有方法相比，我们介绍了一种新的EduQG方法，该方法利用RL的潜力来微调LLM。该方法不仅考虑了离散的度量，如BLEU，还集成了语义相似度，旨在生成语法和语义一致的问题，同时保持训练和测试阶段的一致性。此外，它基于一个不知道答案的问题生成模型，该模型在问题生成过程中不需要知道答案。我们的目标是改进问题生成，而不需要访问具有上下文问答对的标记数据集，这在现实世界设置中通常是稀缺的。

加强自动问题生成

近年来，序列到序列模型获得了越来越多的关注，并在各种文本生成任务中提供了最先进的性能[21，28]。所有这些模型的基础通常由包括编码器和解码器的深度神经网络组成。然而，如前所述，seq2seq模型存在两个常见问题:1)暴露偏差和2)训练/测试测量之间的不一致性。最近，出现了一种新的观点，通过利用强化学习的方法来解决seq2seq模型中的这些问题[12]。在通用领域的自动问题生成的背景下，文献中已经介绍了几种方法。例如，陈等人[2]为AQG提出了一个基于强化学习的图到序列模型。

它利用一个Graph2Seq生成器，该生成器配备了一个用于嵌入段落的新型双向门控图神经网络编码器，以及一个具有混合目标的混合评估器，该混合目标结合了交叉熵和RL损耗。Kumar等人[13]介绍了一种新颖的AQG方法，该方法采用了一个整体的生成器-评估器框架，优化了奖励语义和结构的目标。生成器是一个seq2seq模型，它集成了正在生成的问题的结构和语义。评估器模型评估每个预测问题，并根据其与基本事实问题结构的一致性分配奖励。在同样的背景下，[30]开发了一个基于强化学习的答案驱动的端到端深度问题生成模型。该模型探索来自答案的语义信息，以提高深层问题生成的质量。类似地，Guan等人[9]将强化学习与语义信息结合起来用于深度问题生成。这种方法利用基于门控图神经网络的文档表示的语义图。为了生成高质量的问题，他们通过RL优化了具体的目标，考虑了四个评估因素:自然性、相关性、可回答性和难度。最近，[8]提出了RAST，一个检索增强风格转移的框架，旨在利用不同模板的风格生成问题。为了训练RAST，开发了一种新的基于RL的方法，集中于最大化多样性和一致性的加权组合奖励。一致性奖励由问答模型计算，而多样性奖励评估最终输出与检索模板的相似程度。

受强化学习在通用领域自动问题生成中的成功激励，我们提出通过利用强化学习能力来增强教育问题生成。据我们所知，这是第一个使用RL对Google FLAN-T5模型进行微调以生成教育问题的工作。

用于教育问题生成的强化语言模型

在这一部分，我们提出了所提出的方法RLLM-EduQG方法，一种用于教育问题生成的强化语言模型。我们首先激发设计，然后展示每个组件的细节，如图1所示。

在这里插入图片描述
图一。提出的RLLM-EduQG方法的总体架构。

问题公式化

问题自动生成方法的目标是基于给定形式的数据生成自然问题，如原始文本、数据库或图像[25]，确保生成的问题可从输入数据中得到答案。

在这篇文章中，我们使用一个答案无意识模型来从给定的文本段落中进行教育。给定由N个单词标记X = {x1，x2，…，xN }。自然问题生成的任务是生成最佳的自然语言问题由一系列单词标记组成-Y = { y1，y2，…，yT }最大化条件似然Yˇ= arg max Y P(Y | X)。这里N和T分别是文章和问题的长度。我们专注于问题设置，我们有一系列段落和相应的目标问题来学习映射。现有的AQG方法[1，6]采用了类似的假设。Google FLAN-T5语言模型[22]的微调过程将在后续小节中描述。

Google FLAN-T5监督微调

我们使用监督方法对Google FLAN-T5模型进行微调，用于从文本段落中生成问题，使用标准交叉熵损失函数进行优化，定义如下: 在这里插入图片描述其中y∫t是基本事实输出序列的第t个位置的字。

然而，最小化Llm并不总是在离散评估指标上产生最佳结果，例如BLEU [20]。如前所述，这种差异的主要原因之一是曝光偏差。这个问题源于这样的事实，即网络在训练期间知道直到下一个令牌的基本事实序列，但是在测试期间缺乏这样的监督，导致在它生成序列时错误的累积。为了减轻暴露偏差，可以采用诸如预定教师强制或强化学习的技术。这些方法结合了模型在训练期间自己的预测，以更接近地模拟它在推断期间将遇到的条件。

强化学习

为了解决上述问题，我们建议使用强化学习来微调Google FLAN-T5。更具体地说，我们采用自我临界序列训练(SCST)算法[24]。SCST是一种有效的强化算法，它利用其测试时推理算法的输出来规范化它收到的回报。

在SCST算法中，在每次训练迭代中，模型产生两个序列:采样序列Y s，其中每个标记ys t是基于模型预测的多项式概率分布P(yt|X，y) 由模型预测，基线序列Y通过贪婪解码方法创建，该方法依次选择最可能的下一个标记。奖励函数r(Y)使用特定的奖励度量相对于基本事实序列Y∫评估每个生成的序列Y。RL损耗函数定义如下: 在这里插入图片描述

可以看出，如果采样序列获得了比基线序列更高的回报，则训练模型以最大化其似然性，相反，如果基线序列更优，则模型最小化采样序列的似然性。选择合适的奖励函数是RL的一个关键因素。为了解决句法和语义约束，我们采用了以下度量作为我们的奖励函数:–评估度量作为奖励函数:我们使用评估度量BLEU-4作为我们的奖励函数feval，这允许我们直接朝着评估度量优化模型。

–作为奖励函数的语义度量:某些评估度量(如BLEU)的一个缺点是，它们不考虑句子的语义，而只考虑将精确n元语法与参考系统匹配的奖励系统。为了提高奖励函数的有效性，我们还引入了语义奖励函数fsem。具体来说，我们使用嵌入向量计算生成序列和地面真实序列之间的余弦相似性。基于一项实证研究[14]，我们选择了simCSE模型[7]作为我们的嵌入模型，该模型已被证明对于生成句子嵌入是最有效的。

我们将最终的奖励函数r(Y)定义为评估和语义度量的组合，定义为r(Y ) = feval(Y，Y∫)+αfsem(Y，Y∫)。其中α是平衡语义度量fsem和评估度量feval的贡献的标量权重。

混合训练目标函数

我们分两个阶段训练我们的方法RLLM-EduQG。在第一阶段，我们使用规则的交叉熵损失来训练模型，如等式中所定义的。1.在第二阶段，我们通过优化结合交叉熵损失和RL损失的混合目标函数来微调模型，定义如下: 在这里插入图片描述其中γ是控制交叉熵损失Llm和强化学习损失Lrl之间权衡的比例因子。

实验

在这一部分中，我们首先简要介绍所使用的数据集、评估指标和实验设置。然后，我们提供对所获得的结果的比较分析，旨在验证以下假设:

假设H1:与其他最新的教育方法相比，所提出的方法对于教育问题生成是有效的。
假设H2:通过强化学习微调谷歌FLAN-T5已被证明对EduQG有效。
假设H3:Fe val和fsem奖励函数的组合提高了所提出方法的性能。

评估数据集和指标

使用SciQ数据集[31]进行实验，该数据集主要用于评估教育问题生成任务。SciQ包含13，679个众包科学考试问题，涵盖物理、化学和其他科学。尽管比其他问题生成数据集小，但SciQ更适合客观评估EduQG模型。

对于评估措施，当评估问题生成模型时，我们考虑两个质量方面:1)预测准确性，和2)生成的问题的语言质量。为了测量预测准确性，我们使用BLEU评分和F1评分，遵循先前工作中使用的方法[1]。为了评估语言质量，或者生成的问题有多像人类，我们采用了困惑和多样性的度量标准[1]。高多样性分数和低困惑反映了丰富词汇的使用和增强的语法精确性。

实验设置

RLLM-EduQG方法是使用PyTorch1深度学习框架、PyTorch Lightning2、Hugging Face Transformers库3和一些SOTA方法的公共可用源代码开发的，包括EduQG系统4和SCST算法的实现5。我们已经对基于谷歌FLAN-T5的版本6进行了微调。在卢森堡大学的Iris cluster7上进行了微调。

对于数据集分割，我们将80%用于训练，10%用于验证，10%用于测试。我们将回报函数中的α设为0.1，将混合损失函数中的γ设为0.99。我们使用了Adam优化器[32]，在预训练阶段将学习率设置为0.001，在微调阶段降低到0.0001。当5个时期没有改善时，我们停止训练。批量大小设置为32。推断期间的波束搜索宽度被设置为5。所有超参数都使用验证集进行了调整。

与最先进方法的结果比较

为了证明所提出的RLLM-EduQG方法(假设H1)的有效性，我们在SciQ数据集上将其性能与最近的SOTA教育问题生成方法进行了比较[31]。表1描述了基线Leaf+、SOTA EduQG+模型和我们的RLLM-EduQG模型在SciQ数据集上的结果。一个附录a中的表4给出了基础事实问题的具体示例以及我们的RLLMEduQG系统、Leaf+和EduQG+的输出。Leaf+是使用Google T5模型的基准模型，该模型最初在通用AQG数据集SQuAD [23]上进行训练，然后针对SciQ数据集上的教育问题生成进行了微调。EduQG+ model [1]首先在S2ORC科学文献语料库[17]上进行预训练，然后在SQuAD数据集上进行训练，最后在SciQ数据集上进行微调。值得一提的是，我们已经在他们的相应论文中报告了这些结果[1]。

如表1所示，对于预测性能，我们的方法RLLM-EduQG在所有n元语法长度(BLEU-1到BLEU-4)上获得了最高的BLEU分数和最高的F1分数，这表明它在生成与基本事实参考紧密一致的问题方面是最有效的。此外，它获得了最低的困惑分数，这表明它生成的问题比其他模型更连贯和流畅。RLLM-EduQG的多样性指标也最高，表明它生成的问题中有更广泛的词汇和短语。所获得的结果可以归因于RLLM-EduQG已经用混合目标函数训练的事实，该混合目标函数包括交叉熵和强化学习损失。通过使用两个奖励函数的组合-基于BLEU-4的评估度量和利用语义相似性的语义度量-该模型同时针对语言准确性和内容相关性进行了优化。因此，RLLM-EduQG紧密匹配地面真实数据的句法结构，并确保生成的问题是有意义的和多样化的。

这种训练策略可能是其在SciQ数据集上表现优异的原因，超过了仅用交叉熵损失训练的Leaf+和EduQG+模型。此外，值得注意的是，我们的方法RLLM-EduQG仅在SciQ数据集上进行了微调，而没有在S2ORC或SQuAD数据集上进行任何进一步的预训练。

在这里插入图片描述

表1。在SciQ数据集上比较分析基线Leaf+、SOTA EduQG+模型和我们的RLLM-EduQG模型的预测性能和语言质量。最佳性能以粗体突出显示。

使用强化学习微调Google FLAN-T5的效果。第二组分析的目的是评估疗效教育问题生成任务中的强化学习(检验假设H2)。为此，我们比较了合并了强化学习的RLLM-EduQG和LLM-EduQG，后者仅依赖于在没有强化的情况下使用交叉熵损失来微调Google FLAN-T5。

表2给出了这两个变量在SciQ数据集上的结果。表2清楚地显示，在所有评估指标方面，RLLM-EduQG取得了比LLM-EduQG好得多的表现，包括预测性能和语言质量。具体来说，RLLM-EduQG在BLEU 1–4和F1-score方面比LLMEduQG分别提高了14.03%、13.91%、12.47%、14.84%和14.59%。这进一步证明了使用强化学习，特别是自我批评序列训练算法的有效性。

在这里插入图片描述

表二。在SciQ数据集上比较分析我们的方法的两个变体LLM-EduQG和RLLM-EduQG之间的预测性能和语言质量。

在这里插入图片描述

表3。RLLM-EduQG feval和RLLM-EduQG在SciQ数据集上关于预测性能和语言质量的比较结果。

结合评估和语义奖励功能的影响

这项工作的另一个贡献是结合评估和语义相似度奖励指标来检验假设H3:这两个奖励指标的结合是否提高了教育问题生成的性能？为了从经验上解决这个问题，我们在SciQ数据集上进行了两次运行。在RLLM-EduQG feval变体中，只有评估度量被用作奖励函数，而RLLM-EduQG两者都使用。表3总结了获得的结果。从表3中可以明显看出，就所有使用的评估方法而言，与RLLM-EduQG方法相比，RLLM-EduQG feval方法取得了适中的结果。如前所述，增强的RLLM-EduQG的性能归功于其混合奖励函数的使用，该函数结合了基于BLEU的评估度量和基于simCSE模型的语义相似性[7]。这种方法确保模型不仅因为匹配参考数据的n-gram模式(如BLEU-4)而获得奖励，而且因为捕捉到内容的语义本质而获得奖励，从而导致更具上下文相关性和多样性的问题。

结论和未来方向

在本文中，我们介绍了RLLM-EduQG，这是一种用于生成教育问题的新方法，它利用了大型语言模型和强化学习的能力，尤其是自我批评序列训练算法。

我们使用混合目标函数对Google FLAN-T5进行了微调，该函数结合了交叉熵和强化学习损失。为了确保生成的问题在语法和语义上都是准确的，我们利用了两个奖励函数:基于评估的BLEU度量和语义奖励。SciQ数据集上的实验结果表明，与最先进的EduQG+ [1]不同，使用强化学习目标函数可以产生有希望的结果，而无需进一步的预训练或在其他数据集上进行训练。此外，两个奖励函数的组合提高了所有评估指标的性能。我们认为我们的工作是探索在教育问题生成中使用RL微调LLM的重要一步。此外，这种方法可以作为开发一套工具的基础，帮助教育者创建可扩展的和个性化的评估。

使用强化学习对大型语言模型进行微调已被证明在提高教育问题生成的性能方面是有效的。因此，在未来的工作中，我们计划进行一项实证研究，以探索跨各种数据集的EduQG任务中其他具有RL的LLM的微调。

此外，这项研究中一个值得注意的差距是缺乏对人工智能生成的问题的人类评估。虽然使用标记数据集的离线评估是有益的，但从教师和学习者那里获得关于人类和人工智能生成的问题之间差异的评估将产生更有见地的发现。这些将在未来极大地推进这一领域的研究。

我们的RLLM-EduQG系统的生成问题示例表4。使用从SciQ数据集测试集中随机选择的示例，将我们的系统、Leaf+和EduQG+生成的问题与基本事实问题进行比较。

在这里插入图片描述

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla