中文LLM预训练指南：从数据清洗到tokenizer优化全流程

你是否在训练中文大语言模型（LLM）时遇到过数据质量参差不齐、tokenizer效率低下、模型效果不达预期等问题？本文将带你从零开始掌握中文LLM预训练的完整流程，包括数据清洗、预处理、tokenizer优化和预训练关键参数设置，帮助你在有限资源下高效训练出高性能模型。读完本文，你将能够：- 构建符合中文特点的高质量预训练数据集- 优化中文tokenizer提升编码效率- 掌握预训练关键参数

钱勃骅

540人浏览 · 2025-11-08 02:52:13

钱勃骅 · 2025-11-08 02:52:13 发布

中文LLM预训练指南：从数据清洗到tokenizer优化全流程

【免费下载链接】Awesome-Chinese-LLM 整理开源的中文大语言模型，以规模较小、可私有化部署、训练成本较低的模型为主，包括底座模型，垂直领域微调及应用，数据集与教程等。项目地址: https://gitcode.com/GitHub_Trending/aw/Awesome-Chinese-LLM

你是否在训练中文大语言模型（LLM）时遇到过数据质量参差不齐、tokenizer效率低下、模型效果不达预期等问题？本文将带你从零开始掌握中文LLM预训练的完整流程，包括数据清洗、预处理、tokenizer优化和预训练关键参数设置，帮助你在有限资源下高效训练出高性能模型。读完本文，你将能够：

构建符合中文特点的高质量预训练数据集
优化中文tokenizer提升编码效率
掌握预训练关键参数调优技巧
了解主流中文LLM底座模型的预训练特性

一、中文预训练数据准备

1.1 数据来源与筛选

中文LLM预训练数据主要包括通用文本和垂直领域数据。通用文本可来源于书籍、新闻、网页、百科等，垂直领域数据则需根据目标任务收集，如医疗领域的医疗.md、法律领域的法律.md、金融领域的金融.md等专业文档。

选择数据时需注意：

优先使用高质量、权威来源的文本
确保数据多样性，避免单一来源导致的偏见
控制数据规模，中小模型（如7B）通常需要1-2T token

1.2 数据清洗流程

数据清洗是提升模型性能的关键步骤，建议按以下流程进行：

mermaid

具体操作包括：

去重：使用SimHash或MinHash算法去除重复文本
过滤：移除包含大量乱码、广告、无关内容的文本
规范化：统一标点符号、数字格式，处理全角/半角字符
分句：使用中文分词工具（如 Jieba、THULAC）进行分句

1.3 数据预处理工具

推荐使用以下工具进行数据预处理：

Hugging Face Datasets：高效处理大规模数据集
Pandas：数据清洗和转换
NLTK/Spacy：文本规范化和分词
FastText：语言检测和过滤非中文文本

二、中文Tokenizer优化

2.1 中文Tokenizer特点

中文与英文在语言结构上有很大差异，中文没有空格分隔词，且存在大量单字、双字词和成语。因此，中文Tokenizer需要特别优化：

主流中文Tokenizer方案：

BPE（Byte Pair Encoding）：如GPT系列使用的Tokenizer
WordPiece：如BERT使用的Tokenizer
Unigram：如T5使用的Tokenizer

2.2 自定义中文Tokenizer训练

使用Hugging Face Tokenizers库训练自定义中文Tokenizer：

from tokenizers import BertWordPieceTokenizer

# 初始化tokenizer
tokenizer = BertWordPieceTokenizer(
    clean_text=True,
    handle_chinese_chars=True,
    strip_accents=False,
    lowercase=False
)

# 训练tokenizer
tokenizer.train(
    files=["cleaned_data.txt"],
    vocab_size=50000,
    min_frequency=2,
    special_tokens=["[PAD]", "[UNK]", "[CLS]", "[SEP]", "[MASK]"]
)

# 保存tokenizer
tokenizer.save_model("./chinese_tokenizer")

2.3 Tokenizer评估指标

评估Tokenizer性能的关键指标：

压缩率：原始文本长度与token序列长度的比值
未登录词（OOV）比例：无法识别的词占比
编码速度：每秒处理的字符数

三、预训练关键参数设置

3.1 主流中文LLM底座模型

选择合适的底座模型是预训练的基础，以下是常见的中文LLM底座模型参数对比：

底座模型	参数大小	训练token数	上下文长度	是否可商用
ChatGLM	6B	1T/1.4T	2K/32K	可商用
LLaMA	7B/13B/70B	1T/2T	2k/4k	部分可商用
Baichuan	7B/13B	1.2T/1.4T	4k	可商用
Qwen	7B/14B/72B	2.2T/3T	8k/32k	可商用
InternLM	7B/20B	-	200k	可商用

3.2 预训练超参数配置

合理设置超参数对模型性能至关重要，以下是推荐的超参数配置：

学习率：5e-5 ~ 2e-4，采用线性预热和余弦衰减
batch size：根据GPU内存调整，建议32~128
训练轮次：根据数据量调整，通常1~3轮
权重衰减：0.01 ~ 0.1
dropout：0.1 ~ 0.3

3.3 硬件资源需求

不同规模模型的硬件需求：

7B模型：至少8张A100（80G）GPU
13B模型：至少16张A100（80G）GPU
70B模型：需要分布式训练框架支持，如Megatron-LM

四、预训练实践与调优

4.1 数据高效利用策略

数据采样：采用分层采样，保证各类数据比例均衡
动态权重：对高质量数据赋予更高权重
增量预训练：在已有模型基础上继续训练，节省计算资源

4.2 训练过程监控

关键监控指标：

训练损失：关注训练集和验证集损失变化
困惑度（Perplexity）：评估模型语言建模能力
token准确率：监控模型对中文的建模效果

4.3 常见问题解决

过拟合：增加数据量、使用正则化、早停策略
训练不稳定：调整学习率、优化器参数、梯度裁剪
推理速度慢：模型量化、知识蒸馏、推理优化

五、总结与展望

本文详细介绍了中文LLM预训练的完整流程，包括数据清洗、Tokenizer优化、参数设置和实践调优。通过合理的数据处理和参数配置，即使是中小规模的模型也能取得良好的性能。未来，中文LLM预训练将朝着更高效、更轻量、更专业的方向发展，如领域专用模型、知识增强预训练等。

如果你觉得本文对你有帮助，欢迎点赞、收藏、关注三连，下期我们将介绍中文LLM的微调技术。

项目官方文档：README.md LLM模型汇总：LLM.md 医疗领域应用：Medical.md 法律领域应用：Legal.md 金融领域应用：Financial.md

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla