Data-Juicer在预训练场景中的应用：构建高质量预训练数据集

在当今大语言模型（LLM）快速发展的时代，**高质量预训练数据**已成为决定模型性能的关键因素。Data-Juicer作为一站式数据处理系统，专门为大语言模型提供更高质量、更丰富、更易"消化"的数据！🍎## 为什么预训练数据质量如此重要？预训练阶段占据了LLM训练成本的绝大部分，而数据质量直接影响模型的泛化能力、推理能力和知识储备。传统的数据处理方法往往存在以下痛点：- **数据噪声

宗念耘Warlike

482人浏览 · 2025-12-15 03:20:48

宗念耘Warlike · 2025-12-15 03:20:48 发布

Data-Juicer在预训练场景中的应用：构建高质量预训练数据集

【免费下载链接】data-juicer A one-stop data processing system to make data higher-quality, juicier, and more digestible for LLMs! 🍎 🍋 🌽 ➡️ ➡️🍸 🍹 🍷为大语言模型提供更高质量、更丰富、更易”消化“的数据！项目地址: https://gitcode.com/gh_mirrors/da/data-juicer

在当今大语言模型（LLM）快速发展的时代，高质量预训练数据已成为决定模型性能的关键因素。Data-Juicer作为一站式数据处理系统，专门为大语言模型提供更高质量、更丰富、更易"消化"的数据！🍎

为什么预训练数据质量如此重要？

预训练阶段占据了LLM训练成本的绝大部分，而数据质量直接影响模型的泛化能力、推理能力和知识储备。传统的数据处理方法往往存在以下痛点：

数据噪声多：包含大量重复、低质、格式混乱的样本
多样性不足：数据来源单一，缺乏多领域覆盖
过滤标准主观：缺乏客观、可量化的数据质量标准

Data-Juicer通过其丰富的算子库和自动化工具，为预训练数据集的构建提供了完整的解决方案。

Data-Juicer的核心优势

🎯 一站式数据处理流水线

Data-Juicer提供了从数据收集、清洗、过滤到评估的全流程支持。系统内置了超过200种数据处理算子，涵盖文本、图像、视频等多种模态。

🔧 丰富的算子库

系统包含了四大类数据处理算子：

过滤器（Filter）：根据文本长度、重复率、语言识别等标准筛选数据
映射器（Mapper）：执行数据转换、增强和标注
去重器（Deduplicator）：支持文档级、图像级、视频级去重
聚合器（Aggregator）：对数据进行统计和汇总分析

📊 自动化超参数优化

Data-Juicer内置了两种Auto-HPO方法：

3-Sigma原则自动调参

假设数据维度服从正态分布
自动设置算子过滤上下界为三倍标准差
实现数据过滤的客观化和自动化

基于WandB的自动化HPO

探索超参数与目标指标（如数据质量分、模型loss等）的相关性
优化数据配方的特定超参数

实际应用案例

改良开源预训练数据集

Data-Juicer团队对多个知名开源预训练数据集进行了质量提升：

数据子集	完善前样本数	完善后样本数	样本保留率
arXiv	1,724,497	1,655,259	95.99%
Books	205,182	195,983	95.51%
Wikipedia	29,834,171	26,990,659	90.47%
C4	364,868,892	344,491,171	94.42%

评测验证结果

使用完善后的预训练数据集在多个评测集上取得了显著提升：

LLaVA预训练数据集：在12个评测集上有10个超过了基线模型
视频数据集：在VBench评测中全面超越基线模型

快速开始指南

1. 环境准备

git clone https://gitcode.com/gh_mirrors/da/data-juicer
cd data-juicer
pip install -e .

2. 配置数据处理流程

通过简单的YAML配置文件定义数据处理流水线：

# 示例配置
process:
  - filter: text_length_filter
    args:
      min_len: 100
      max_len: 10000

3. 运行数据处理

python tools/process_data.py --config your_config.yaml

最佳实践建议

🎯 数据质量评估

在数据处理过程中，建议使用多种评估指标：

数据质量分：综合衡量数据的整体质量
多样性指标：确保数据覆盖多个领域
有效性验证：通过下游任务验证数据效果

🔄 迭代优化流程

采用"分析-处理-评估"的迭代流程，持续提升数据质量。

结语

Data-Juicer为预训练数据集的构建提供了强大而灵活的工具集。通过其丰富的算子库、自动化超参数优化和完整的评估体系，帮助研究者和开发者构建更高质量的LLM预训练数据，为模型性能的提升奠定坚实基础。

🚀 开始使用Data-Juicer，让您的预训练数据更加"多汁"！

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla