微调大模型？数据费让你肉疼！实战笔记揭秘

为什么没事儿不要想着微调？先来看这个金融模型case的微调用了多少数据。CFGPT: Chinese Financial Assistant with Large Language Model

猿类崛起@

1025人浏览 · 2025-07-18 10:43:12

猿类崛起@ · 2025-07-18 10:43:12 发布

为什么没事儿不要想着微调？

先来看这个金融模型case的微调用了多少数据👇🏻

CFGPT: Chinese Financial Assistant with Large Language Model

地址：https://github.com/TongjiFinLab/CFGPT

这只是量级上的吓人，况且微调对数据的要求比rag要严。

下面就是几种常见的微调方式（不严谨地暂且这么分类），为什么会让工程难度增加。

不管你是不是AI产品经理，都应该过一眼，了解清楚这些东西的原理，

这样别人跟你说微调的时候，你就可以根据这些分类，做到心中有数。

一、CPT：

CPT是通过引入更多垂直概念对应的解释文本，来让模型学会新知识

先说成本，数据量、数据质量要求都很高，可能你都找不到这么多数据
1000万token约1500万字的训练数据集起步
需要是纯文本段落，段落长短大概是2k-128k，不能太长也不能太短，需要根据你的底模来选
训练时长上，看模型和硬件水平，短的话几十个小时，多的话好几天也有
示例代码如下，来自百炼云

{"text":"基本竞争战略是由美国哈佛商学院著名的战略管理学家迈克尔·波特提出的,分别为:成本领先战略,差异化战略,集中化战略.企业必须从这三种战略中选择一种,作为其主导战略.要么把成本控制到比竞争者更低的程度;要么在企业产品和服务中形成与众不同的特色,让顾客感觉到你提供了比其他竞争者更多的价值;要么企业致力于服务于某一特定的市场细分,某一特定的产品种类或某一特定的地理范围."}
{"text":"交通运行监测调度中心,简称TOCC(Transportation Operations Coordination Center)TOCC围绕综合交通运输协调体系的构建,实施交通运行的监测,预测和预警,面向公众提供交通信息服务,开展多种运输方式的调度协调,提供交通行政管理和应急处置的信息保障.\nTOCC是综合交通运行监测协调体系的核心组成部分,实现了涵盖城市道路,高速公路,国省干线三大路网,轨道交通,地面公交,出租汽车三大市内交通方式,公路客运,铁路客运,民航客运三大城际交通方式的综合运行监测和协调联动,在综合交通的政府决策,行业监管,企业运营,百姓出行方面发挥了突出的作用."}
{"text":"美国职业摄影师协会(简称PPA)创立于1880年,是一个几乎与摄影术诞生历史一样悠久的享誉世界的非赢利性国际摄影组织,是由世界上54个国家的25000余名职业摄影师个人会员和近二百个附属组织和分支机构共同组成的,是世界上最大的专业摄影师协会.本世纪初PPA创立了美国视觉艺术家联盟及其所隶属的美国国际商业摄影师协会,美国新闻及体育摄影师协会,美国学生摄影联合会等组织.PPA在艺术,商业,纪实,体育等摄影领域一直引领世界潮流,走在世界摄影艺术与技术应用及商业规划管理的最前沿."}

二、SFT-文本模型微调

简单说SFT是通过QA对来引导模型按制定结构和风格生成
至少1000个jsonQA对，不能低于这个数，可以是单轮也可以是多轮
回答文案质量要求非常高
不能只是用垂直领域的资料，需要有通用的知识，防止过拟合只是专注于你的问题把别的忘了以至于无法回答通识问题了
我们可以在每个QA对进行system提示词约束角色
SFT有全参也有LoRA，全参质量好但是慢，后者快但是效果弱
时间上，少的几十分钟也可以训练完
示例代码如下，来自百炼云。不同微调工具的数据集要求可能有点区别

{    "messages": [{        "role": "system",        "content": "You are a helpful assistant"    }, {        "role": "user",        "content": "谁在文艺复兴时期绘制人体?"    }, {        "role": "assistant",        "content": "文艺复兴时期是一个关于艺术、文化和学术的复兴运动，在这个时期，许多艺术家都绘制了人体。"    }]}{    "messages": [{        "role": "system",        "content": "You are a helpful assistant"    }, {        "role": "user",        "content": "谁在文艺复兴时期绘制人体?"    }, {        "role": "assistant",        "content": "文艺复兴时期是一个关于艺术、文化和学术的复兴运动，在这个时期，许多艺术家都绘制了人体。"    }, {        "role": "user",        "content": "那雕塑方面如何呢？"    }, {        "role": "assistant",        "content": "文艺复兴时期的雕塑也非常有名，几位世界级的雕塑大师都出自于这个时期"    }]}

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

三、SFT-视觉理解微调

视觉理解比文本的微调现在更是急需的，因为文本类模型已经比较成熟了，而且可以用rag代替一部分文本微调。但是高参的图像模型没有文本类的模型那么多，所以现在图像理解的微调反而是重要的一部分。
- 比如LaTeX的图像识别，需要极高的准确性，所以我们需要微调来实现，禁止模型自由发挥公式。
基本最少 1000多个提问+回答对（也看规模像这个公式识别项目的微调要 10 万条）
你可以是单轮也可以是多轮问答对
可以是单张，也可多张作为问答对象
不是所有模型都支持图片最大分辨率1024，有的只支持512
最需要注意的是，图片的很多内容是人类语言没法概括的。比如笑里藏刀，把笑里藏刀提供给了模型，模型把笑里藏刀对应到了普通的微笑上。属于特殊case需要另外处理。

四、DPO

DPO就是通过负面回复教会模型不该做什么。
只用一两百条数据也可以进行微调。对比 SFT 有的大一点图像理解项目可能达到十万条、手写体 100k 的完整数据集这种数量。
主要考验你给的QA对质量，先看字段chosen、rejected。你看下面的rejected其实不是正面拒绝，你可以自己设置成更直接的。
但是DPO比结构化提示词里的constrain要更加好一些，模型看提示词的时候受模型注意力机制的影响，不一定能识别你的constrain，甚至可能事得其反。但是放在微调里就会好一些，但是错误回答的示例也是需要你花时间成本设计的。。我们之前看到的提示词工程、提示词微调，其实是比较过渡的做法。

{"messages":[{"role":"user","content":"你能帮我写一篇关于环境保护的文章吗?"}],"chosen":{"role":"assistant","content":"当然可以。环境保护是一个非常重要的话题，我们可以从减少碳排放、保护森林和水资源、推广可再生能源等方面来入手。你想要文章的具体方向和字数是多少呢？"},"rejected":{"role":"assistant","content":"可以的，环境保护是一个重要的话题。"}}{"messages":[{"role":"user","content":"能帮我安排一下明天的日程吗?"}],"chosen":{"role":"assistant","content":"当然可以，请告诉我你明天的具体事项和时间安排。我会帮你进行合理的规划。"},"rejected":{"role":"assistant","content":"好的，我可以帮你安排日程。"}}{"messages":[{"role":"user","content":"你能帮我制定一个旅行计划吗？"},{"role":"assistant","content":"当然可以。请问你旅行的目的地是哪里？"},{"role":"user","content":"我想去巴黎。"},{"role":"assistant","content":"好的，你计划在巴黎呆几天？"},{"role":"user","content":"大概一周。"}],"chosen":{"role":"assistant","content":"一周时间很好。巴黎有很多景点可以参观，比如埃菲尔铁塔、卢浮宫和巴黎圣母院。你还可以品尝法国美食和看一场歌剧。你对哪些活动感兴趣？"},"rejected":{"role":"assistant","content":"好的。那么你打算参观哪些景点呢？"}}

五、大模型&AI产品经理如何学习

求大家的点赞和收藏，我花2万买的大模型学习资料免费共享给你们，来看看有哪些东西。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

1.学习路线图

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源，但基本上都残缺不全的，这是我自己整理的大模型视频教程，上面路线图的每一个知识点，我都有配套的视频讲解。

（都打包成一块的了，不能一一展开，总共300多集）

因篇幅有限，仅展示部分资料，需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档，有几百本，都是目前行业最新的。

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集***

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla