北大：LLM数据准备框架DataFlow

如何构建一个统一的框架来提高大语言模型（LLM）数据准备的效率和质量？论文提出了DataFlow，一个统一的LLM驱动的数据准备框架，自动化了数据流水线的构建并提高了数据质量和效率。

大模型任我行

1032人浏览 · 2025-12-21 10:00:00

大模型任我行 · 2025-12-21 10:00:00 发布

在这里插入图片描述

📖标题：DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI
🌐来源：arXiv, 2512.16676

🌟摘要

对大型语言模型 (LLM) 中高质量数据的需求的快速增长加剧了对可扩展、可靠和语义丰富的数据准备管道的需求。然而，当前的实践仍然由临时脚本和松散指定的工作流主导，这些工作流缺乏原则性的抽象，阻碍了可重复性，并为循环中的模型数据生成提供了有限的支持。为了应对这些挑战，我们提出了DataFlow，这是一个统一且可扩展的LLM驱动的数据准备框架。DataFlow 是使用系统级抽象设计的，可以实现模块化、可重用和可组合的数据转换，并提供 PyTorch 风格的管道构建 API 来构建可调试和可优化的数据流。该框架由近 200 个可重用算子和六个域通用管道组成，涵盖文本、数学推理、代码、文本到 SQL、代理 RAG 和大规模知识提取。为了进一步提高可用性，我们引入了 DataFlow-Agent，它通过算子合成、管道规划和迭代验证自动将自然语言规范转换为可执行管道。在六个具有代表性的用例中，DataFlow持续提高下游LLM的性能。我们的数学、代码和文本管道优于策划的人类数据集和专门的合成基线，在 SynSQL 上比 Text-to-SQL 实现了高达 +3% 的执行精度，代码基准平均提高了 +7%，MATH、GSM8K 和 AIME 提高了 1-3 分。此外，DataFlow 生成的统一 10K 样本数据集使基础模型能够超越在 1M Infinity-Instruct 数据上训练的对应模型。这些结果表明，DataFlow为可靠、可重复和可扩展的LLM数据准备提供了一个实用且高性能的衬底，并为未来的以数据为中心的AI开发建立了一个系统级基础。

🛎️文章简介

🔸研究问题：如何构建一个统一的框架来提高大语言模型（LLM）数据准备的效率和质量？
🔸主要贡献：论文提出了DataFlow，一个统一的LLM驱动的数据准备框架，自动化了数据流水线的构建并提高了数据质量和效率。

📝重点思路

🔸设计了近200个可重用的操作符，覆盖文本、数学推理、代码、Text-to-SQL等多个领域。
🔸引入DataFlow-Agent，通过自然语言规范自动构建可执行的流水线，简化用户的操作。
🔸提供了模块化、可组合的数据变换方法，支持透明的数据管理和操作执行。
🔸建立了统一存储抽象，维持标准的数据表示形式，便于在不同操作符之间传递数据。

🔎分析总结

🔸实验结果表明，DataFlow生成的数据在多种下游任务中显著优于现有的开放源码代码指令数据集，尤其是在代码推理和SQL执行准确性上取得了重要的改善。
🔸在六个代表性用例中，DataFlow的流水线 consistently提供了比人工策划的数据集更高的性能，强调了其在LLM训练中的有效性。
🔸通过DataFlow产生的10K样本数据集使得基础模型超越了在1M Infinity-Instruct数据上训练的模型，证明了其在合成高质量数据方面的优势。

💡个人观点

论文引入统一、模块化的框架和智能化的流水线构建能力，显著降低了高质量数据准备的复杂性。

🧩附录

在这里插入图片描述

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla