三大中文高质量数据集构建全流程开源：从教育价值评估到多轮对话生成

近日，一个集成三大中文数据集构建工具的代码仓库正式开源，为中文大模型训练数据处理提供了完整解决方案。该仓库包含fineweb-edu-chinese、cosmopedia-chinese和smoltalk-chinese三个数据集的全流程构建代码，覆盖从原始文本筛选、教育价值评估到合成数据生成的关键环节，为NLP研究者和开发者提供了标准化的数据处理流水线。## 教育价值导向的文本筛选系统f

万钧瑛Hale

484人浏览 · 2025-11-12 01:03:11

万钧瑛Hale · 2025-11-12 01:03:11 发布

三大中文高质量数据集构建全流程开源：从教育价值评估到多轮对话生成

【免费下载链接】fineweb-edu 项目地址: https://ai.gitcode.com/hf_mirrors/HuggingFaceFW/fineweb-edu

教育价值导向的文本筛选系统

fineweb-edu-chinese数据集构建聚焦于教育价值评估，通过多级处理实现高质量文本筛选。系统首先调用Qwen2.5-14B大模型对原始文本进行人工标注式打分，在0-5分区间内评估文本的教育价值含量。基于标注数据，项目训练了轻量级BERT打分模型，实现对大规模语料库的快速价值评估。通过设置3分阈值（满分5分），系统筛选出具有显著教育意义的文本片段，并利用Bloom过滤器进行高效去重，最终形成教育价值导向的纯净数据集。这一流程解决了通用语料教育价值参差不齐的问题，为教育类AI模型训练提供了精准数据源。

主题驱动的合成内容生成框架

cosmopedia-chinese数据集采用创新的主题驱动生成模式，通过种子数据扩展构建结构化知识体系。系统以人工精选的种子数据作为主题基础，结合定制化prompt模板定义内容风格与体裁特征。借助vllm高性能推理引擎，项目实现了大规模主题内容生成，确保产出文本在保持主题一致性的同时，具备多样化的表达形式。这种生成式构建方法突破了传统爬取式数据集的局限，能够主动塑造数据的知识密度和结构完整性，特别适用于构建专业领域知识库和主题式学习资源库。

任务导向的多轮对话构建流水线

smoltalk-chinese数据集构建则专注于高质量对话数据生成，形成覆盖多任务场景的对话资源库。项目基于distilabel库的Magpie算法，结合deepseek-v2.5或Qwen2.5大模型，根据人工设计的多任务system prompt生成丰富对话样本。系统首先聚合分散生成的对话数据并进行初步清洗，随后采用Qwen2.5-7B-Instruct模型对用户查询的清晰度和流畅性进行3分制评分，仅保留优质对话样本。为解决对话同质化问题，项目使用gte-large-zh模型将用户查询编码为向量，通过余弦相似度计算识别近邻样本，每个相似集合随机保留一条数据实现去重。最终按任务类型分类存储的对话数据，为对话系统训练提供了覆盖多场景、高质量的标注资源。

该仓库通过模块化设计实现了数据集构建全流程的可复用性，三类数据集分别针对教育价值文本筛选、主题知识生成和对话交互设计三大核心需求场景。开发者可通过git clone https://gitcode.com/hf_mirrors/HuggingFaceFW/fineweb-edu获取完整代码，根据具体需求调整参数阈值和模型配置。随着中文大模型应用场景的深化，这类结构化数据构建工具将成为提升模型性能的关键基础设施，推动AI应用在教育、知识服务和智能交互等领域的高质量发展。

【免费下载链接】fineweb-edu 项目地址: https://ai.gitcode.com/hf_mirrors/HuggingFaceFW/fineweb-edu

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla