《1+3 类奖励函数设计：REPRO 实现网络数据高质量、高忠实度改写》

LLMs 预训练的数据困境高质量预训练数据是 LLMs 的 “化石燃料”，但前沿模型面临数据储备枯竭（Villalobos et al., 2024；网络原始数据（organic data）总量大，但标准数据流水线为保证预训练质量，会滤除大部分 “低质量” 数据（Weber et al., 2024；Li et al., 2024），形成 “数据壁垒” 阻碍 LLMs 发展（Nguyen et a

weixin_41544125

624人浏览 · 2025-10-23 13:13:50

weixin_41544125 · 2025-10-23 13:13:50 发布

文档总结任务输出

1. 一段话总结

本文提出REPRO—— 一种基于强化学习（RL）的新型网络数据循环利用方法，通过训练一个4B 参数的语言模型改写器，将从 DCLM-RefinedWeb 采样的72B token原始数据转化为高质量、高忠实度的预训练数据；该方法设计 1 个质量奖励（DataMan）和 3 个忠实度奖励（BERTScore、结构保留、长度对齐），在22 项下游任务中使 400M 和 1.4B 参数模型相对准确率提升4.7%-14.0% ，不仅优于调用 70B 参数模型的当前最优方法 ReWire，还将原始数据利用效率提升2-3 倍，同时通过分布分析和关键点召回验证，确保循环数据忠实保留原始数据的语义、结构和长度特征，有效缓解大型语言模型（LLMs）预训练的 “数据壁垒” 问题。

2. 思维导图（mindmap）

## 研究背景
- 核心矛盾：LLMs预训练高质量数据短缺（"数据壁垒"）
- 现状：网络原始数据量大但多被滤除为"低质量"
- 现有方法局限：大模型改写成本高、提示词无法保真实语义结构
## 研究方法（REPRO）
- 核心思路：用RL训练小型LM改写器，实现数据循环利用
- 奖励函数设计
  - 质量奖励：DataMan（评估13项指标，公式：DataMan(改写)-DataMan(原始)）
  - 忠实度奖励：BERTScore（语义相似≥阈值）、结构保留（格式一致）、长度对齐（≤1.25倍原始）
- 技术细节
  - 改写器基础模型：Qwen3-4B
  - RL算法：Group Relative Policy Optimization（GRPO）
  - 数据流程：原始数据池→筛选高质量子集→改写→筛选高质量改写数据→合并为最终预训练集
## 实验设置
- 数据：DCLM-RefinedWeb采样72B token，质量函数DCLM-fastText，高质量原始数据7.2B token
- 模型：400M/1.4B参数解码器模型（从零训练）
- 评估：22项下游任务（常识推理/语言理解等），指标为中心化准确率（Core score）
- 基准模型：仅原始数据、WRAP（7B模型维基风格改写）、ProX（程序编辑）、ReWire（70B模型思维链改写）
## 实验结果
- 整体性能：相对仅原始数据提升4.7%-14.0%，优于ReWire等所有基准
- 效率：比ReWire快36.7倍，原始数据利用效率提升2-3倍（最优在改写数据为高质量原始数据2倍时）
- 有效性验证
  - 消融实验：无忠实度奖励核心分数大幅下降，SFT+RL无整体优势
  - 分布分析：改写数据在DataMan/语义/结构/长度分布上与原始数据高度一致
  - 操作分析：主要改写操作（释义54%、删减14%、澄清10%等）
## 研究结论与贡献
- 核心结论：小型模型+精心设计奖励可高效保真实循环数据；保留原始数据特征提升预训练效果
- 三大贡献
  1. 提出REPRO方法，提升原始数据效率
  2. 设计1+3类奖励函数，平衡质量与忠实度
  3. 4B改写器优于70B改写器的ReWire，效率提升2-3倍

3. 详细总结

1. 研究背景与问题

LLMs 预训练的数据困境

高质量预训练数据是 LLMs 的 “化石燃料”，但前沿模型面临数据储备枯竭（Villalobos et al., 2024；Maini et al., 2025）。
网络原始数据（organic data）总量大，但标准数据流水线为保证预训练质量，会滤除大部分 “低质量” 数据（Weber et al., 2024；Li et al., 2024），形成 “数据壁垒” 阻碍 LLMs 发展（Nguyen et al., 2025）。

现有数据循环方法的局限

现有方法（如 ReWire）通过提示词调用大模型（如 Llama-3.3-70B-Instruct）改写数据，虽能匹配原始数据翻倍效果，但存在两大问题：① 计算成本极高；② 无法忠实保留原始数据的语义和结构（Bi et al., 2025）。

2. 研究方法：REPRO 设计

2.1 核心框架

REPRO 通过强化学习（RL）训练小型语言模型改写器，将低质量原始数据转化为高质量、高忠实度的预训练数据，流程如图 2 所示，关键步骤如下：

步骤	操作	公式 / 规则
1. 原始数据筛选	从原始数据池 $D_{org}$ 筛选高质量子集 $D_{org-hq}$	$D_{org-hq}={x \in D_{org}
2. 数据改写	用改写器 $R$ 将 $D_{org}$ 改写为循环数据池 $D_{rec}$	$D_{rec}={x’=R(p,x)
3. 改写数据筛选	从 $D_{rec}$ 筛选高质量子集 $D_{rec-hq}$	$D_{rec-hq}={x \in D_{rec}
4. 最终数据集构建	合并高质量原始与改写数据	$Dfinal=Dorg−hq∪Drec−hqD_{final}=D_{org-hq} \cup D_{rec-hq}$

2.2 关键技术细节

改写器基础模型：基于 Qwen3-4B（Yang et al., 2025）初始化。
RL 优化策略：采用 Group Relative Policy Optimization（GRPO）算法（Shao et al., 2024），通过标准化优势估计提升训练稳定性，目标函数含 KL 散度正则项（防止与基础模型偏差过大）。
奖励函数设计（核心创新点）：

表 1 奖励函数详情

奖励类型	名称	功能	公式 / 规则
质量奖励	DataMan	激励生成更高质量数据（当前最优质量评估指标，评估 13 项 criteria）	$r_{DataMan}=DataMan(x')-DataMan(x)$
忠实度奖励	BERTScore	保证语义一致性	$rBERTScore=1[BERTScore(x,x′)≥0.65]r_{BERTScore}=1[BERTScore(x,x') \geq 0.65]$
忠实度奖励	Structure	保证文本结构（如 Markdown）一致	$r_{Structure}=1[Structure(x,x')=1]$ （结构对比 LM 评估）
忠实度奖励	Length	惩罚过度自由生成	$rLength=1[Len(x′)≤1.25∗Len(x)]r_{Length}=1[Len(x') \leq 1.25*Len(x)]$

最终奖励： $r(x,x′)=λDataManrDataMan+λBERTScorerBERTScore+λStructurerStructure+λLengthrLengthr(x,x')=\lambda_{DataMan}r_{DataMan}+\lambda_{BERTScore}r_{BERTScore}+\lambda_{Structure}r_{Structure}+\lambda_{Length}r_{Length}$ ，权重分别为 3、1、1、1。

3. 实验设置

3.1 基础配置

类别	详情
预训练数据	来源：DCLM-RefinedWeb（规则过滤 + 去重，无模型过滤）；采样量：72B token；高质量原始数据：7.2B token（ $τorg=0.018112\tau_{org}=0.018112$ ）
预训练模型	架构：仅解码器；参数规模：400M、1.4B；训练方式：从零训练
评估任务	22 项下游任务，覆盖 5 类能力：常识推理（3 项）、语言理解（6 项）、阅读理解（3 项）、符号问题（5 项）、世界知识（5 项）
评估指标	中心化准确率（单任务 0 = 随机、1 = 完美），平均分为 Core score（排除 CommonsenseQA）
基准模型	1. 仅原始数据（7.2B/14.4B token）；2. WRAP（Mistral-7B-Instruct，维基风格改写）；3. ProX（程序编辑优化）；4. ReWire（Llama-3.3-70B-Instruct，思维链改写）

3.2 实现细节

RL 训练：数据集 $D_{grpo}$ 含 41k 条 DataMan<5 的原始数据；GRPO 参数：裁剪 $ϵ=0.2\epsilon=0.2$ 、KL 权重 $β=0.005\beta=0.005$ 、每次输入采样 8 次；可选 SFT 阶段（GPT-4o 生成 50k 改写示例预热）。
推理：采用 vllm 框架，生成参数 $t e m p er a t u re = 1.0$ 、top_p=0.9、max_tokens=2048（长文档分块处理）。

4. 实验结果与分析

4.1 核心性能结果

表 2 400M/1.4B 模型在 22 项任务的 Core score 对比（部分关键数据）

模型规模	方法	数据配置（池大小 / 独特 token）	Core score	相对仅原始数据提升
400M	仅原始数据	72B/14.4B	0.18899	-
400M	ReWire	72B/7.2B+7.2B	0.20125	6.5%
400M	REPRO	72B/7.2B+7.2B	0.21658	14.0%
1.4B	仅原始数据	72B/14.4B	0.27108	-
1.4B	ReWire	72B/7.2B+7.2B	0.29029	7.1%
1.4B	REPRO	72B/7.2B+7.2B	0.29929	10.4%

关键结论：REPRO 在两种模型规模下均显著优于仅原始数据和所有基准模型，1.4B 模型中 REPRO 的 Core score（0.29929）高于 ReWire（0.29029）和 4 倍数据量的仅原始数据基准。

4.2 数据效率提升

实验设计：在 1.4B 模型中调整独特 token 预算 $B$ （14.4B、21.6B、28.8B）。
结果： $B = 14.4 B$ 时 REPRO 性能最优（Core score=0.299）， $B = 21.6 B$ 相近（0.297），证明原始数据利用效率提升 2-3 倍； $B = 28.8 B$ 性能下降（0.283），因引入中低质量数据。

4.3 有效性验证

消融实验（400M 模型）：

方法	Core score	结论
仅原始数据	0.18899	-
直接提示词改写	0.19847	提升有限
SFT 改写	0.19216	无优势
RL 无忠实度奖励	0.19456	核心分数大幅下降，忠实度关键
REPRO（Full RL）	0.21658	最优，无需 SFT

分布分析（30k 样本）：

DataMan 分数：REPRO 使 5 分占比从 20%→60%，提示词仅 25%；
语义相似度（BERTScore）：REPRO 平均 0.75，提示词 0.69，无 BERTScore 奖励 0.56；
结构分布：REPRO 与原始数据最一致，提示词易将 Markdown 转纯文本，无结构奖励过度生成 Markdown；
长度分布：REPRO 与原始数据匹配，提示词生成短文本，无长度奖励生成过长文本。

改写操作分析：

随机采样 100 条数据，改写操作占比：释义（54%，修正语法提升流畅度）、删减（14%，移除广告 / 元数据）、澄清（10%）、重组（13%）、摘要（6%），证明改写器灵活运用多操作提升质量。

5. 研究贡献与结论

方法创新：提出 REPRO，首次用 RL 训练小型 LM 实现高效、高忠实度的网络数据循环利用，突破 “大模型依赖”。
奖励设计：设计 1+3 类奖励函数，平衡数据质量与原始特征保留，避免模型崩溃（Shumailov et al., 2024）。
性能与效率：4B 改写器优于 70B 改写器的 ReWire，速度快 36.7 倍，原始数据效率提升 2-3 倍，为 LLMs 预训练突破 “数据壁垒” 提供可行路径。

6. 未来方向

探索更多样化、可验证的奖励信号（如检查清单），进一步提升循环数据的质量与忠实度；结合程序编辑（如 ProX）与生成式改写，优化数据循环效果。

4. 关键问题

问题 1：REPRO 如何平衡 “提升数据质量” 与 “保留原始数据特征” 这两个核心目标？具体通过哪些技术设计实现？

答案：REPRO 通过 “两类奖励函数协同优化” 实现目标平衡，具体设计如下：

质量提升：采用当前最优的 DataMan 作为质量奖励，该指标从连贯性、主题聚焦度等 13 个维度评估数据质量，奖励公式为 “DataMan (改写数据)-DataMan (原始数据)”，直接激励改写器生成质量高于原始数据的内容；
原始特征保留：设计 3 个忠实度奖励形成约束：① BERTScore 奖励（语义相似度≥0.65 阈值）确保核心语义一致；② 结构保留奖励（通过 LM 评估格式 / 风格一致，如 Markdown、列表等）维持结构多样性；③ 长度对齐奖励（改写数据长度≤1.25 倍原始数据）惩罚过度自由生成；
优化机制：用 Group Relative Policy Optimization（GRPO）算法进行 RL 训练，通过权重系数（质量奖励 3，忠实度奖励各 1）平衡两类目标，同时在数据流程中严格筛选高质量改写数据，确保最终预训练数据既提升质量，又在语义、结构、长度分布上与原始数据高度一致（分布分析显示，改写数据 BERTScore 平均 0.75，结构 / 长度分布与原始数据重合度最高）。

问题 2：与当前最先进的 ReWire 方法相比，REPRO 在性能、效率、成本上有哪些具体优势？这些优势的核心技术原因是什么？

答案：REPRO 相对 ReWire 的优势及核心原因如下：

对比维度	REPRO 表现	ReWire 表现	核心技术原因
性能（Core score）	1.4B 模型中 0.29929	1.4B 模型中 0.29029	REPRO 的奖励函数更全面：ReWire 仅依赖思维链提示词，无法精准优化质量与忠实度；REPRO 通过 DataMan+3 个忠实度奖励，确保改写数据高质量且保真实，提升预训练效果
效率（速度）	处理 72B token 需 1728 H100 小时	处理 72B token 需 63360 H100 小时	REPRO 用 4B 参数改写器，ReWire 用 70B 参数模型；同时 REPRO 通过 RL 优化改写策略，推理时用 vllm 框架高效生成，整体比 ReWire 快 36.7 倍
成本	训练 + 推理成本低（4B 模型算力需求小）	成本极高（70B 模型训练 / 推理算力消耗大）	核心是 “小型模型 + RL 优化” 替代 “大模型 + 提示词”：ReWire 依赖大模型单次生成，成本随模型规模指数增长；REPRO 训练小型模型后可高效复用，长期成本更低

问题 3：REPRO 提升原始数据利用效率 2-3 倍的结论是如何通过实验验证的？该结论对 LLMs 预训练的实际应用有何意义？

答案：

实验验证过程：

实验设计：在 1.4B 参数模型中，设置不同独特 token 预算 $B$ （14.4B、21.6B、28.8B），对比 REPRO 与 “仅原始数据” 基准的 Core score；
关键结果：① 当 $B = 14.4 B$ （改写数据量 = 高质量原始数据量 7.2B token）时，REPRO 的 Core score=0.299，显著高于同预算下仅原始数据的 0.271；② 当 $B = 21.6 B$ （改写数据量增加）时，REPRO 性能仍接近最优（0.297），而仅原始数据在 $B = 14.4 B$ 后性能下降；③ 实验证实，REPRO 在 “改写数据为高质量原始数据 2 倍” 时达到最优性能，说明用相同高质量原始数据，REPRO 可扩展出 2-3 倍的有效预训练数据，即数据利用效率提升 2-3 倍。

实际应用意义：

缓解 “数据稀缺”：无需大规模采集新原始数据，通过循环利用现有低质量数据即可扩展有效训练数据，降低对新数据的依赖；
降低成本：减少高质量数据标注 / 采集成本，同时小型改写器的高效性降低算力消耗，使中小规模实验室也能开展 LLMs 预训练；
避免模型崩溃：高效利用数据的同时，因改写数据保真实原始特征，可减少合成数据导致的分布崩溃（Shumailov et al., 2024），提升 LLMs 的泛化能力，为 LLMs 可持续规模化发展提供关键支撑。

（注：文档部分内容可能由 AI 生成）

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大