三大中文高质量数据集构建全流程开源:从教育价值评估到多轮对话生成

【免费下载链接】fineweb-edu 【免费下载链接】fineweb-edu 项目地址: https://ai.gitcode.com/hf_mirrors/HuggingFaceFW/fineweb-edu

近日,一个集成三大中文数据集构建工具的代码仓库正式开源,为中文大模型训练数据处理提供了完整解决方案。该仓库包含fineweb-edu-chinese、cosmopedia-chinese和smoltalk-chinese三个数据集的全流程构建代码,覆盖从原始文本筛选、教育价值评估到合成数据生成的关键环节,为NLP研究者和开发者提供了标准化的数据处理流水线。

教育价值导向的文本筛选系统

fineweb-edu-chinese数据集构建聚焦于教育价值评估,通过多级处理实现高质量文本筛选。系统首先调用Qwen2.5-14B大模型对原始文本进行人工标注式打分,在0-5分区间内评估文本的教育价值含量。基于标注数据,项目训练了轻量级BERT打分模型,实现对大规模语料库的快速价值评估。通过设置3分阈值(满分5分),系统筛选出具有显著教育意义的文本片段,并利用Bloom过滤器进行高效去重,最终形成教育价值导向的纯净数据集。这一流程解决了通用语料教育价值参差不齐的问题,为教育类AI模型训练提供了精准数据源。

主题驱动的合成内容生成框架

cosmopedia-chinese数据集采用创新的主题驱动生成模式,通过种子数据扩展构建结构化知识体系。系统以人工精选的种子数据作为主题基础,结合定制化prompt模板定义内容风格与体裁特征。借助vllm高性能推理引擎,项目实现了大规模主题内容生成,确保产出文本在保持主题一致性的同时,具备多样化的表达形式。这种生成式构建方法突破了传统爬取式数据集的局限,能够主动塑造数据的知识密度和结构完整性,特别适用于构建专业领域知识库和主题式学习资源库。

任务导向的多轮对话构建流水线

smoltalk-chinese数据集构建则专注于高质量对话数据生成,形成覆盖多任务场景的对话资源库。项目基于distilabel库的Magpie算法,结合deepseek-v2.5或Qwen2.5大模型,根据人工设计的多任务system prompt生成丰富对话样本。系统首先聚合分散生成的对话数据并进行初步清洗,随后采用Qwen2.5-7B-Instruct模型对用户查询的清晰度和流畅性进行3分制评分,仅保留优质对话样本。为解决对话同质化问题,项目使用gte-large-zh模型将用户查询编码为向量,通过余弦相似度计算识别近邻样本,每个相似集合随机保留一条数据实现去重。最终按任务类型分类存储的对话数据,为对话系统训练提供了覆盖多场景、高质量的标注资源。

该仓库通过模块化设计实现了数据集构建全流程的可复用性,三类数据集分别针对教育价值文本筛选、主题知识生成和对话交互设计三大核心需求场景。开发者可通过git clone https://gitcode.com/hf_mirrors/HuggingFaceFW/fineweb-edu获取完整代码,根据具体需求调整参数阈值和模型配置。随着中文大模型应用场景的深化,这类结构化数据构建工具将成为提升模型性能的关键基础设施,推动AI应用在教育、知识服务和智能交互等领域的高质量发展。

【免费下载链接】fineweb-edu 【免费下载链接】fineweb-edu 项目地址: https://ai.gitcode.com/hf_mirrors/HuggingFaceFW/fineweb-edu

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐