《大模型导论》笔记——数据预处理
·
文本数据预处理:
- 通用文本数据: 爬虫进行收集,进行严格过滤和处理。
- 专用文本数据:主要用于提升模型在下游任务上的专业能力,包括多语音文本,科学文本,代码和指令等。
构造方法:
指令数据通常包含指令(instruction)、 输入(input)、输出(output)部分组成。
数据集的构造:
- 人工标注,成本较高
- 基于现有的结构化数据重新构造问题和答案,可以是知识图谱类的数据库数据,也可以是现有的其他自然语音处理任务的标注数据。
- self-instruct 准备少量种子任务,并为每项任务人工设计好对应的指令和实例,随后通过种子任务和语音模型生成更多的指令和实例。多次迭代,通过过滤模块保证语料的质量。
- 英文数据集翻译成中文数据集
构造流程:
- 生成指令,通过模型学习少量人工撰写的数据,生成新的指令和实例,并对这些数据进行修剪和过滤,确保数据质量。这些数据用于微调原始模型,从而提高模型对指令的理解和遵循能力。
- 识别分类任务
- 生成实例
- 过滤和后处理
数据预处理手段:
- 提取基本特征
- 常用的预处理方法: 大小写转换,去除标点符号,特殊符号,去除停用词,去除稀缺词,拼写矫正
- 分词,BPE数据压缩算法,WordPiece算法,ULM算法减量算法,SentencePiece自设计分词器(数学公式,不大明白)
图像数据预处理(不大明白,回头重点看看):
- 图像去噪,频域去噪,空间去噪
- 图像重采样,上采样,下采样
- 图像增强
图文对数据预处理:
- 图像比例
- 图像内容筛选
- 图像压缩与格式
- 删除冗余文字
- 过滤敏感词
- 保护个人隐私
- 去除无效信息
- 去除低相关性图文
- 数据去重
datasets 库:
- 数据集划分,一般包含多个子集,训练集,验证集,测试集
- 数据过滤
- 数据映射
- 数据保存
更多推荐

所有评论(0)