文本数据预处理:

  1. 通用文本数据: 爬虫进行收集,进行严格过滤和处理。
  2. 专用文本数据:主要用于提升模型在下游任务上的专业能力,包括多语音文本,科学文本,代码和指令等。

构造方法:
指令数据通常包含指令(instruction)、 输入(input)、输出(output)部分组成。

数据集的构造:

  1. 人工标注,成本较高
  2. 基于现有的结构化数据重新构造问题和答案,可以是知识图谱类的数据库数据,也可以是现有的其他自然语音处理任务的标注数据。
  3. self-instruct 准备少量种子任务,并为每项任务人工设计好对应的指令和实例,随后通过种子任务和语音模型生成更多的指令和实例。多次迭代,通过过滤模块保证语料的质量。
  4. 英文数据集翻译成中文数据集

构造流程:

  1. 生成指令,通过模型学习少量人工撰写的数据,生成新的指令和实例,并对这些数据进行修剪和过滤,确保数据质量。这些数据用于微调原始模型,从而提高模型对指令的理解和遵循能力。
  2. 识别分类任务
  3. 生成实例
  4. 过滤和后处理

数据预处理手段:

  1. 提取基本特征
  2. 常用的预处理方法: 大小写转换,去除标点符号,特殊符号,去除停用词,去除稀缺词,拼写矫正
  3. 分词,BPE数据压缩算法,WordPiece算法,ULM算法减量算法,SentencePiece自设计分词器(数学公式,不大明白)

图像数据预处理(不大明白,回头重点看看):

  1. 图像去噪,频域去噪,空间去噪
  2. 图像重采样,上采样,下采样
  3. 图像增强

图文对数据预处理:

  1. 图像比例
  2. 图像内容筛选
  3. 图像压缩与格式
  4. 删除冗余文字
  5. 过滤敏感词
  6. 保护个人隐私
  7. 去除无效信息
  8. 去除低相关性图文
  9. 数据去重

datasets 库:

  1. 数据集划分,一般包含多个子集,训练集,验证集,测试集
  2. 数据过滤
  3. 数据映射
  4. 数据保存
Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐