MNBVC中文语料库：超大规模中文数据集完整使用指南 [特殊字符]

MNBVC中文语料库（Massive Never-ending BT Vast Chinese corpus）是目前全球规模最大的开源中文数据集，专门为训练高质量中文大语言模型而设计。这个超大规模中文语料集已经积累了超过60TB的数据量，目标达到253TB，覆盖了从主流文化到小众文化的全方位中文文本内容。## 📊 项目概述与核心价值MNBVC数据集是一个持续更新的中文语料库，包含了新闻、

毕博峰

1107人浏览 · 2025-12-29 02:23:59

毕博峰 · 2025-12-29 02:23:59 发布

MNBVC中文语料库（Massive Never-ending BT Vast Chinese corpus）是目前全球规模最大的开源中文数据集，专门为训练高质量中文大语言模型而设计。这个超大规模中文语料集已经积累了超过60TB的数据量，目标达到253TB，覆盖了从主流文化到小众文化的全方位中文文本内容。

【免费下载链接】MNBVC MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化，也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。项目地址: https://gitcode.com/gh_mirrors/mn/MNBVC

📊 项目概述与核心价值

MNBVC数据集是一个持续更新的中文语料库，包含了新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、趣闻、日常交流内容等一切形式的纯文本中文数据。

核心特色：

数据规模巨大：目前总数据量60298GB，进度23.8%
内容覆盖全面：从主流到小众，甚至火星文数据
持续更新机制：永不停止的数据收集与整理

🔧 快速开始使用

数据下载方式

MNBVC提供了多种下载方式，满足不同用户的需求：

1. 微力同步（推荐）

支持P2P同步全部压缩包并接收更新
压缩包密码：253874
数据格式：txt、json、jsonl和parquet

2. 百度网盘下载 提供了详细的压缩包列表，用户可以根据需要选择下载特定时间段的数据。

数据格式说明

数据集采用多种格式存储：

TXT格式：原始文本数据
JSON/JSONL格式：结构化数据
Parquet格式：多模态专用格式

🛠️ 数据处理工具套件

中文大语料清洗工具

更快速且准确的中文编码检测工具
文本去重工具
格式检查工具
数据清洗示例工具

代码仓库爬虫工具

GitHub代码仓库元信息爬取
代码仓库最新版本下载
代码转语料工具

💡 实用应用场景

大语言模型训练

MNBVC语料库是训练中文大语言模型的理想选择，数据质量和规模都达到了国际先进水平。

自然语言处理研究

为NLP研究人员提供了丰富的中文语料资源，支持各种语言模型的研究与开发。

🤝 社区参与方式

项目欢迎社区成员的参与，目前设有多个工作组：

OCR转码小组
问答语料小组
语料增强小组
代码语料小组
平行语料小组

即使没有开发经验，也可以通过上传语料文档的方式参与项目建设。

📈 未来发展规划

MNBVC项目将持续扩大数据规模，完善数据处理工具链，为中文自然语言处理领域提供最优质的数据资源。

这个超大规模中文语料库的建设，对于推动中文大语言模型的发展具有重要意义，为国内AI技术追赶国际前沿提供了坚实的数据基础。

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla