MNBVC中文语料库(Massive Never-ending BT Vast Chinese corpus)是目前全球规模最大的开源中文数据集,专门为训练高质量中文大语言模型而设计。这个超大规模中文语料集已经积累了超过60TB的数据量,目标达到253TB,覆盖了从主流文化到小众文化的全方位中文文本内容。

【免费下载链接】MNBVC MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。 【免费下载链接】MNBVC 项目地址: https://gitcode.com/gh_mirrors/mn/MNBVC

📊 项目概述与核心价值

MNBVC数据集是一个持续更新的中文语料库,包含了新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、趣闻、日常交流内容等一切形式的纯文本中文数据。

MNBVC项目背景图

核心特色:

  • 数据规模巨大:目前总数据量60298GB,进度23.8%
  • 内容覆盖全面:从主流到小众,甚至火星文数据
  • 持续更新机制:永不停止的数据收集与整理

🔧 快速开始使用

数据下载方式

MNBVC提供了多种下载方式,满足不同用户的需求:

1. 微力同步(推荐)

  • 支持P2P同步全部压缩包并接收更新
  • 压缩包密码:253874
  • 数据格式:txt、json、jsonl和parquet

2. 百度网盘下载 提供了详细的压缩包列表,用户可以根据需要选择下载特定时间段的数据。

数据格式说明

数据集采用多种格式存储:

  • TXT格式:原始文本数据
  • JSON/JSONL格式:结构化数据
  • Parquet格式:多模态专用格式

🛠️ 数据处理工具套件

中文大语料清洗工具

  • 更快速且准确的中文编码检测工具
  • 文本去重工具
  • 格式检查工具
  • 数据清洗示例工具

代码仓库爬虫工具

  • GitHub代码仓库元信息爬取
  • 代码仓库最新版本下载
  • 代码转语料工具

💡 实用应用场景

大语言模型训练

MNBVC语料库是训练中文大语言模型的理想选择,数据质量和规模都达到了国际先进水平。

自然语言处理研究

为NLP研究人员提供了丰富的中文语料资源,支持各种语言模型的研究与开发。

🤝 社区参与方式

项目欢迎社区成员的参与,目前设有多个工作组:

  • OCR转码小组
  • 问答语料小组
  • 语料增强小组
  • 代码语料小组
  • 平行语料小组

即使没有开发经验,也可以通过上传语料文档的方式参与项目建设。

📈 未来发展规划

MNBVC项目将持续扩大数据规模,完善数据处理工具链,为中文自然语言处理领域提供最优质的数据资源。

这个超大规模中文语料库的建设,对于推动中文大语言模型的发展具有重要意义,为国内AI技术追赶国际前沿提供了坚实的数据基础。

【免费下载链接】MNBVC MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。 【免费下载链接】MNBVC 项目地址: https://gitcode.com/gh_mirrors/mn/MNBVC

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐