大模型训练集

一问一答。

Jacob_12

1309人浏览 · 2025-01-24 15:49:47

Jacob_12 · 2025-01-24 15:49:47 发布

SFT（有监督微调）的数据集格式

一问一答

RM（奖励模型）的数据格式

一个问题+一条好的回答样例+一条差的回答样例

PPO（强化学习）的数据格式

理论上，不需要新增数据。需要提供一些Prompt，可以直接用SFT阶段的问。另外，需要限制模型不要偏离原模型太远（loss），也可以直接使用SFT数据。

微调需要多少条数据？

取决于预训练数据和微调任务的数据分布是否一致，100条就差不多，分布差异大就需要多些数据，千条或者万条以上为佳。
自己的任务复杂或者下游任务行业比较冷门，如药品名称识别任务，则需要较多监督数据。还有微调大模型时，一遍是记不住的。100条的微调数据，epochs=20才能稳定拟合任务要求。

进行领域大模型预训练应用哪些数据集比较好？

通过分析发现现有的开源大模型进行预训练的过程中会加入数据、论文等数据。主要是因为这些数据的数据质量较高，领域相关性比较强，知识覆盖密度比较大，可以让模型更适应考试。给我们自己进行大模型训练的时候提供了一个参考。同时领域相关的网站内容、新闻内容也是比较重要的数据。

如何选取和构建大模型微调数据？

在微调大模型时，首先需要解决的问题是“选取和构建大模型微调数据”，那如何选择呢？

什么样的数据才是最优的大模型微调数据？

1.数据的多样性；
一般情况下我们的数据分布都是符合一个长尾分布的。主要的几类别数据占据了90%的数据量，剩下90%的类别只是10%的数据量。
举例说明：小红书Query的意图识别里，没事，穿搭，旅游攻略非常多，但还是有些同学搜索大模型微调技术的技巧。
如果我们直接采样一批线上的图文文本，直接送给标注的话，会存在一个严重的问题：他们标注的数据大部分都是攻略类。这样肯定是不行的，人力成本的方面消耗太大，并且模型因为数据平衡的问题也没有特别好。
2、数据的标注质量；
3、数据的不确定性；

如何构建大模型微调数据？

方法一：“self Instruct”的框架，通过自我生成来提升指令跟随能力。文章的流程是从语言模型中生成指令、输入和输出样本。然后在使用这些数据微调原始模型之前进行清洗。
方法二：“主动学习”；主动学习有两个基本原则，在监督训练的时候，注意主动发现数据的两个方面，一个是数据多样性，另外一个是数据的不确定性。

第一，数据的多样性
多样性即为数据的去重，去重这件事的核心是相似度度量，现在的相似度度量的方法大家比较常用的是基于对比学习构造的语义向量这个思路，当然简单的基于词袋的方案。有了核心的相似度度量方法以后，可以使用简单的聚类方法进行过滤，考虑复杂一点，我么可以使用带有优化目标的聚类：K-Center-Greedy算法，其约束条件是在最大化多样性的情况下，使指令数据集最小。
另外，如果我们已经有一批去重的人工处理过的高质量数据，那么我们如何寻找与这批数据不一样的数据呢？
例如：我们简单的将已有的数据全部当成正样本打上1，然后待筛选的数据部分全部打上负样本0，使用deberta等构建二分类模型，并进行K-fold的交叉验证，在交叉验证过程中，选出每一个fold过程中的测试数据集合例概率接近于0的样本。通过这样的操作，就能把长得与已有数据不一样的额数据选出来，并且这个过程是半监督的。这套方案也可以用在很多其他的地方，比如数据质量选择，只要我们有一批已经确定的标签/结果/标注的种子数据，就能通过这样的方法选出与种子数据长得比较像的，长得不像的。
第二，数据的不确定性
数据的不确定性主要体现在数据的质量筛选上，选取模型学的不那么好的数据，模型没有把握的数据。最简单的，我们可以选出模型对应PPL值比较差的那批数据。如果是指令数据的话，比如大模型做题和对应的答案。我们可以把所有选项对应的概率之和计算出来，然后过滤出概率和比较低的那一批数据，这批数据就是模型“不太肯定”的样本，我们需要加强针对性的训练。
当然这样可能有一个副作用，就是这批数据是质量比较差而不是模型学的不太好的。为此，我们还要借助Reward Model，这个Reward Model是广义的，他是一个质量的二分类模型。可以祭出我们的deberta，继续用标注数据进行二分类，进行数据质量的判断。有了质量打分模型后，我们就可以判断一些指令数据的质量高低，并且据此模型真正不确定的数据。
这个过程类似于手动的拒绝采样，核心是选择“模型不确定”+“数据质量达标”的那部分数据。

总结一下：监督学习中主动学习的两个基本原则是寻找多样性的数据，模型不确定的数据，在寻找的过程中，我们使用了一些小技巧，比如聚类去重，对抗半监督过滤，自检Reward二分类等方法。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla