《大模型导论》笔记——数据预处理

喵喵7781

278人浏览 · 2025-10-15 15:00:07

喵喵7781 · 2025-10-15 15:00:07 发布

文本数据预处理：

通用文本数据：爬虫进行收集，进行严格过滤和处理。
专用文本数据：主要用于提升模型在下游任务上的专业能力，包括多语音文本，科学文本，代码和指令等。

构造方法：
指令数据通常包含指令(instruction)、输入（input）、输出（output）部分组成。

数据集的构造：

人工标注，成本较高
基于现有的结构化数据重新构造问题和答案，可以是知识图谱类的数据库数据，也可以是现有的其他自然语音处理任务的标注数据。
self-instruct 准备少量种子任务，并为每项任务人工设计好对应的指令和实例，随后通过种子任务和语音模型生成更多的指令和实例。多次迭代，通过过滤模块保证语料的质量。
英文数据集翻译成中文数据集

构造流程：

生成指令，通过模型学习少量人工撰写的数据，生成新的指令和实例，并对这些数据进行修剪和过滤，确保数据质量。这些数据用于微调原始模型，从而提高模型对指令的理解和遵循能力。
识别分类任务
生成实例
过滤和后处理

数据预处理手段：

提取基本特征
常用的预处理方法：大小写转换，去除标点符号，特殊符号，去除停用词，去除稀缺词，拼写矫正
分词，BPE数据压缩算法，WordPiece算法，ULM算法减量算法，SentencePiece自设计分词器(数学公式，不大明白)

图像数据预处理（不大明白，回头重点看看）：

图像去噪，频域去噪，空间去噪
图像重采样，上采样，下采样
图像增强

图文对数据预处理：

图像比例
图像内容筛选
图像压缩与格式
删除冗余文字
过滤敏感词
保护个人隐私
去除无效信息
去除低相关性图文
数据去重

datasets 库:

数据集划分，一般包含多个子集，训练集，验证集，测试集
数据过滤
数据映射
数据保存

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

GPT-6 来了，这次可能会重新定义 ChatGPT 的用法

帮我写一篇 CSDN 风格文章，标题是《GPT-6 来了，这次可能会重新定义 ChatGPT 的用法》，读者是程序员和 AI 用户，前半段讲趋势，中间讲使用场景，后半段自然带出 Plus、Pro、Codex，不要太硬广，语气像经验分享。你说“写给程序员看”，它要知道不能写太小白，要讲真实开发场景，比如调试、重构、测试、接口、项目维护。真实开发里面，有需求分析、项目理解、代码结构、接口设计、异常处理

智能体开发者社区

主流大模型矩阵对比（Claude/Codex/Gemini 等）

智能体开发者社区

OpenClaw 入门：如何自建一个 Skill

摘要：Skill是AI的插件功能，让AI具备特定能力（如查天气）。自建Skill只需三步：创建技能文件夹、添加SKILL.md文件（纯Markdown编写规则）、重启AI即可生效。示例展示了如何创建鼓励回复的Skill，强调文件名必须全大写。进阶可扩展工具调用和模板功能。整个过程无需编程，适合快速定制AI行为。