《1+3 类奖励函数设计:REPRO 实现网络数据高质量、高忠实度改写》
LLMs 预训练的数据困境高质量预训练数据是 LLMs 的 “化石燃料”,但前沿模型面临数据储备枯竭(Villalobos et al., 2024;网络原始数据(organic data)总量大,但标准数据流水线为保证预训练质量,会滤除大部分 “低质量” 数据(Weber et al., 2024;Li et al., 2024),形成 “数据壁垒” 阻碍 LLMs 发展(Nguyen et a
文档总结任务输出
1. 一段话总结
本文提出REPRO—— 一种基于强化学习(RL)的新型网络数据循环利用方法,通过训练一个4B 参数的语言模型改写器,将从 DCLM-RefinedWeb 采样的72B token原始数据转化为高质量、高忠实度的预训练数据;该方法设计 1 个质量奖励(DataMan)和 3 个忠实度奖励(BERTScore、结构保留、长度对齐),在22 项下游任务中使 400M 和 1.4B 参数模型相对准确率提升4.7%-14.0% ,不仅优于调用 70B 参数模型的当前最优方法 ReWire,还将原始数据利用效率提升2-3 倍,同时通过分布分析和关键点召回验证,确保循环数据忠实保留原始数据的语义、结构和长度特征,有效缓解大型语言模型(LLMs)预训练的 “数据壁垒” 问题。
2. 思维导图(mindmap)
## 研究背景
- 核心矛盾:LLMs预训练高质量数据短缺("数据壁垒")
- 现状:网络原始数据量大但多被滤除为"低质量"
- 现有方法局限:大模型改写成本高、提示词无法保真实语义结构
## 研究方法(REPRO)
- 核心思路:用RL训练小型LM改写器,实现数据循环利用
- 奖励函数设计
- 质量奖励:DataMan(评估13项指标,公式:DataMan(改写)-DataMan(原始))
- 忠实度奖励:BERTScore(语义相似≥阈值)、结构保留(格式一致)、长度对齐(≤1.25倍原始)
- 技术细节
- 改写器基础模型:Qwen3-4B
- RL算法:Group Relative Policy Optimization(GRPO)
- 数据流程:原始数据池→筛选高质量子集→改写→筛选高质量改写数据→合并为最终预训练集
## 实验设置
- 数据:DCLM-RefinedWeb采样72B token,质量函数DCLM-fastText,高质量原始数据7.2B token
- 模型:400M/1.4B参数解码器模型(从零训练)
- 评估:22项下游任务(常识推理/语言理解等),指标为中心化准确率(Core score)
- 基准模型:仅原始数据、WRAP(7B模型维基风格改写)、ProX(程序编辑)、ReWire(70B模型思维链改写)
## 实验结果
- 整体性能:相对仅原始数据提升4.7%-14.0%,优于ReWire等所有基准
- 效率:比ReWire快36.7倍,原始数据利用效率提升2-3倍(最优在改写数据为高质量原始数据2倍时)
- 有效性验证
- 消融实验:无忠实度奖励核心分数大幅下降,SFT+RL无整体优势
- 分布分析:改写数据在DataMan/语义/结构/长度分布上与原始数据高度一致
- 操作分析:主要改写操作(释义54%、删减14%、澄清10%等)
## 研究结论与贡献
- 核心结论:小型模型+精心设计奖励可高效保真实循环数据;保留原始数据特征提升预训练效果
- 三大贡献
1. 提出REPRO方法,提升原始数据效率
2. 设计1+3类奖励函数,平衡质量与忠实度
3. 4B改写器优于70B改写器的ReWire,效率提升2-3倍
3. 详细总结
1. 研究背景与问题
- LLMs 预训练的数据困境
-
高质量预训练数据是 LLMs 的 “化石燃料”,但前沿模型面临数据储备枯竭(Villalobos et al., 2024;Maini et al., 2025)。
-
网络原始数据(organic data)总量大,但标准数据流水线为保证预训练质量,会滤除大部分 “低质量” 数据(Weber et al., 2024;Li et al., 2024),形成 “数据壁垒” 阻碍 LLMs 发展(Nguyen et al., 2025)。
- 现有数据循环方法的局限
- 现有方法(如 ReWire)通过提示词调用大模型(如 Llama-3.3-70B-Instruct)改写数据,虽能匹配原始数据翻倍效果,但存在两大问题:① 计算成本极高;② 无法忠实保留原始数据的语义和结构(Bi et al., 2025)。
2. 研究方法:REPRO 设计
2.1 核心框架
REPRO 通过强化学习(RL)训练小型语言模型改写器,将低质量原始数据转化为高质量、高忠实度的预训练数据,流程如图 2 所示,关键步骤如下:
| 步骤 | 操作 | 公式 / 规则 |
|---|---|---|
| 1. 原始数据筛选 | 从原始数据池DorgD_{org}Dorg筛选高质量子集Dorg−hqD_{org-hq}Dorg−hq | $D_{org-hq}={x \in D_{org} |
| 2. 数据改写 | 用改写器RRR将DorgD_{org}Dorg改写为循环数据池DrecD_{rec}Drec | $D_{rec}={x’=R(p,x) |
| 3. 改写数据筛选 | 从DrecD_{rec}Drec筛选高质量子集Drec−hqD_{rec-hq}Drec−hq | $D_{rec-hq}={x \in D_{rec} |
| 4. 最终数据集构建 | 合并高质量原始与改写数据 | Dfinal=Dorg−hq∪Drec−hqD_{final}=D_{org-hq} \cup D_{rec-hq}Dfinal=Dorg−hq∪Drec−hq |
2.2 关键技术细节
-
改写器基础模型:基于 Qwen3-4B(Yang et al., 2025)初始化。
-
RL 优化策略:采用 Group Relative Policy Optimization(GRPO)算法(Shao et al., 2024),通过标准化优势估计提升训练稳定性,目标函数含 KL 散度正则项(防止与基础模型偏差过大)。
-
奖励函数设计(核心创新点):
表 1 奖励函数详情
| 奖励类型 | 名称 | 功能 | 公式 / 规则 |
|---|---|---|---|
| 质量奖励 | DataMan | 激励生成更高质量数据(当前最优质量评估指标,评估 13 项 criteria) | rDataMan=DataMan(x′)−DataMan(x)r_{DataMan}=DataMan(x')-DataMan(x)rDataMan=DataMan(x′)−DataMan(x) |
| 忠实度奖励 | BERTScore | 保证语义一致性 | rBERTScore=1[BERTScore(x,x′)≥0.65]r_{BERTScore}=1[BERTScore(x,x') \geq 0.65]rBERTScore=1[BERTScore(x,x′)≥0.65] |
| 忠实度奖励 | Structure | 保证文本结构(如 Markdown)一致 | rStructure=1[Structure(x,x′)=1]r_{Structure}=1[Structure(x,x')=1]rStructure=1[Structure(x,x′)=1](结构对比 LM 评估) |
| 忠实度奖励 | Length | 惩罚过度自由生成 | rLength=1[Len(x′)≤1.25∗Len(x)]r_{Length}=1[Len(x') \leq 1.25*Len(x)]rLength=1[Len(x′)≤1.25∗Len(x)] |
- 最终奖励:r(x,x′)=λDataManrDataMan+λBERTScorerBERTScore+λStructurerStructure+λLengthrLengthr(x,x')=\lambda_{DataMan}r_{DataMan}+\lambda_{BERTScore}r_{BERTScore}+\lambda_{Structure}r_{Structure}+\lambda_{Length}r_{Length}r(x,x′)=λDataManrDataMan+λBERTScorerBERTScore+λStructurerStructure+λLengthrLength,权重分别为 3、1、1、1。
3. 实验设置
3.1 基础配置
| 类别 | 详情 |
|---|---|
| 预训练数据 | 来源:DCLM-RefinedWeb(规则过滤 + 去重,无模型过滤);采样量:72B token;高质量原始数据:7.2B token(τorg=0.018112\tau_{org}=0.018112τorg=0.018112) |
| 预训练模型 | 架构:仅解码器;参数规模:400M、1.4B;训练方式:从零训练 |
| 评估任务 | 22 项下游任务,覆盖 5 类能力:常识推理(3 项)、语言理解(6 项)、阅读理解(3 项)、符号问题(5 项)、世界知识(5 项) |
| 评估指标 | 中心化准确率(单任务 0 = 随机、1 = 完美),平均分为 Core score(排除 CommonsenseQA) |
| 基准模型 | 1. 仅原始数据(7.2B/14.4B token);2. WRAP(Mistral-7B-Instruct,维基风格改写);3. ProX(程序编辑优化);4. ReWire(Llama-3.3-70B-Instruct,思维链改写) |
3.2 实现细节
-
RL 训练:数据集DgrpoD_{grpo}Dgrpo含 41k 条 DataMan<5 的原始数据;GRPO 参数:裁剪ϵ=0.2\epsilon=0.2ϵ=0.2、KL 权重β=0.005\beta=0.005β=0.005、每次输入采样 8 次;可选 SFT 阶段(GPT-4o 生成 50k 改写示例预热)。
-
推理:采用 vllm 框架,生成参数temperature=1.0temperature=1.0temperature=1.0、top_p=0.9、max_tokens=2048(长文档分块处理)。
4. 实验结果与分析
4.1 核心性能结果
表 2 400M/1.4B 模型在 22 项任务的 Core score 对比(部分关键数据)
| 模型规模 | 方法 | 数据配置(池大小 / 独特 token) | Core score | 相对仅原始数据提升 |
|---|---|---|---|---|
| 400M | 仅原始数据 | 72B/14.4B | 0.18899 | - |
| 400M | ReWire | 72B/7.2B+7.2B | 0.20125 | 6.5% |
| 400M | REPRO | 72B/7.2B+7.2B | 0.21658 | 14.0% |
| 1.4B | 仅原始数据 | 72B/14.4B | 0.27108 | - |
| 1.4B | ReWire | 72B/7.2B+7.2B | 0.29029 | 7.1% |
| 1.4B | REPRO | 72B/7.2B+7.2B | 0.29929 | 10.4% |
- 关键结论:REPRO 在两种模型规模下均显著优于仅原始数据和所有基准模型,1.4B 模型中 REPRO 的 Core score(0.29929)高于 ReWire(0.29029)和 4 倍数据量的仅原始数据基准。
4.2 数据效率提升
-
实验设计:在 1.4B 模型中调整独特 token 预算BBB(14.4B、21.6B、28.8B)。
-
结果:B=14.4BB=14.4BB=14.4B时 REPRO 性能最优(Core score=0.299),B=21.6BB=21.6BB=21.6B相近(0.297),证明原始数据利用效率提升 2-3 倍;B=28.8BB=28.8BB=28.8B性能下降(0.283),因引入中低质量数据。
4.3 有效性验证
- 消融实验(400M 模型):
| 方法 | Core score | 结论 |
|---|---|---|
| 仅原始数据 | 0.18899 | - |
| 直接提示词改写 | 0.19847 | 提升有限 |
| SFT 改写 | 0.19216 | 无优势 |
| RL 无忠实度奖励 | 0.19456 | 核心分数大幅下降,忠实度关键 |
| REPRO(Full RL) | 0.21658 | 最优,无需 SFT |
- 分布分析(30k 样本):
-
DataMan 分数:REPRO 使 5 分占比从 20%→60%,提示词仅 25%;
-
语义相似度(BERTScore):REPRO 平均 0.75,提示词 0.69,无 BERTScore 奖励 0.56;
-
结构分布:REPRO 与原始数据最一致,提示词易将 Markdown 转纯文本,无结构奖励过度生成 Markdown;
-
长度分布:REPRO 与原始数据匹配,提示词生成短文本,无长度奖励生成过长文本。
-
改写操作分析:
随机采样 100 条数据,改写操作占比:释义(54%,修正语法提升流畅度)、删减(14%,移除广告 / 元数据)、澄清(10%)、重组(13%)、摘要(6%),证明改写器灵活运用多操作提升质量。
5. 研究贡献与结论
-
方法创新:提出 REPRO,首次用 RL 训练小型 LM 实现高效、高忠实度的网络数据循环利用,突破 “大模型依赖”。
-
奖励设计:设计 1+3 类奖励函数,平衡数据质量与原始特征保留,避免模型崩溃(Shumailov et al., 2024)。
-
性能与效率:4B 改写器优于 70B 改写器的 ReWire,速度快 36.7 倍,原始数据效率提升 2-3 倍,为 LLMs 预训练突破 “数据壁垒” 提供可行路径。
6. 未来方向
探索更多样化、可验证的奖励信号(如检查清单),进一步提升循环数据的质量与忠实度;结合程序编辑(如 ProX)与生成式改写,优化数据循环效果。
4. 关键问题
问题 1:REPRO 如何平衡 “提升数据质量” 与 “保留原始数据特征” 这两个核心目标?具体通过哪些技术设计实现?
答案:REPRO 通过 “两类奖励函数协同优化” 实现目标平衡,具体设计如下:
-
质量提升:采用当前最优的 DataMan 作为质量奖励,该指标从连贯性、主题聚焦度等 13 个维度评估数据质量,奖励公式为 “DataMan (改写数据)-DataMan (原始数据)”,直接激励改写器生成质量高于原始数据的内容;
-
原始特征保留:设计 3 个忠实度奖励形成约束:① BERTScore 奖励(语义相似度≥0.65 阈值)确保核心语义一致;② 结构保留奖励(通过 LM 评估格式 / 风格一致,如 Markdown、列表等)维持结构多样性;③ 长度对齐奖励(改写数据长度≤1.25 倍原始数据)惩罚过度自由生成;
-
优化机制:用 Group Relative Policy Optimization(GRPO)算法进行 RL 训练,通过权重系数(质量奖励 3,忠实度奖励各 1)平衡两类目标,同时在数据流程中严格筛选高质量改写数据,确保最终预训练数据既提升质量,又在语义、结构、长度分布上与原始数据高度一致(分布分析显示,改写数据 BERTScore 平均 0.75,结构 / 长度分布与原始数据重合度最高)。
问题 2:与当前最先进的 ReWire 方法相比,REPRO 在性能、效率、成本上有哪些具体优势?这些优势的核心技术原因是什么?
答案:REPRO 相对 ReWire 的优势及核心原因如下:
| 对比维度 | REPRO 表现 | ReWire 表现 | 核心技术原因 |
|---|---|---|---|
| 性能(Core score) | 1.4B 模型中 0.29929 | 1.4B 模型中 0.29029 | REPRO 的奖励函数更全面:ReWire 仅依赖思维链提示词,无法精准优化质量与忠实度;REPRO 通过 DataMan+3 个忠实度奖励,确保改写数据高质量且保真实,提升预训练效果 |
| 效率(速度) | 处理 72B token 需 1728 H100 小时 | 处理 72B token 需 63360 H100 小时 | REPRO 用 4B 参数改写器,ReWire 用 70B 参数模型;同时 REPRO 通过 RL 优化改写策略,推理时用 vllm 框架高效生成,整体比 ReWire 快 36.7 倍 |
| 成本 | 训练 + 推理成本低(4B 模型算力需求小) | 成本极高(70B 模型训练 / 推理算力消耗大) | 核心是 “小型模型 + RL 优化” 替代 “大模型 + 提示词”:ReWire 依赖大模型单次生成,成本随模型规模指数增长;REPRO 训练小型模型后可高效复用,长期成本更低 |
问题 3:REPRO 提升原始数据利用效率 2-3 倍的结论是如何通过实验验证的?该结论对 LLMs 预训练的实际应用有何意义?
答案:
- 实验验证过程:
-
实验设计:在 1.4B 参数模型中,设置不同独特 token 预算BBB(14.4B、21.6B、28.8B),对比 REPRO 与 “仅原始数据” 基准的 Core score;
-
关键结果:① 当B=14.4BB=14.4BB=14.4B(改写数据量 = 高质量原始数据量 7.2B token)时,REPRO 的 Core score=0.299,显著高于同预算下仅原始数据的 0.271;② 当B=21.6BB=21.6BB=21.6B(改写数据量增加)时,REPRO 性能仍接近最优(0.297),而仅原始数据在B=14.4BB=14.4BB=14.4B后性能下降;③ 实验证实,REPRO 在 “改写数据为高质量原始数据 2 倍” 时达到最优性能,说明用相同高质量原始数据,REPRO 可扩展出 2-3 倍的有效预训练数据,即数据利用效率提升 2-3 倍。
- 实际应用意义:
-
缓解 “数据稀缺”:无需大规模采集新原始数据,通过循环利用现有低质量数据即可扩展有效训练数据,降低对新数据的依赖;
-
降低成本:减少高质量数据标注 / 采集成本,同时小型改写器的高效性降低算力消耗,使中小规模实验室也能开展 LLMs 预训练;
-
避免模型崩溃:高效利用数据的同时,因改写数据保真实原始特征,可减少合成数据导致的分布崩溃(Shumailov et al., 2024),提升 LLMs 的泛化能力,为 LLMs 可持续规模化发展提供关键支撑。
(注:文档部分内容可能由 AI 生成)
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)