SFT(有监督微调)、RLHF(强化学习)、RAG(检索增强⽣成)
本文介绍了三种大模型优化技术:1)有监督微调(SFT),通过人工标注数据提升模型在特定任务的表现;2)基于人类反馈的强化学习(RLHF),包括DPO(直接偏好优化)和PPO(近端策略优化)两种方法,分别通过对比选择和奖励信号调整模型输出;3)检索增强生成(RAG),结合外部信息检索提升生成质量。这些技术各有侧重,共同推动大模型性能优化。
·
一、SFT(Supervised Fine-Tuning)有监督微调
- 通过提供⼈⼯标注的数据,进⼀步训练预训练模型,让模型能够更加精准地处理特定领域的任务
- 除了“有监督微调”,还有“⽆监督微调”“⾃监督微调”,当⼤家提到“微调”时通常是指有监督微调
二、RLHF(Reinforcement Learning from Human Feedback)强化学习
- DPO(Direct Preference Optimization
核⼼思想:通过 ⼈类对⽐选择(例如:A 选项和 B 选项,哪个更好)直接优化⽣成模型,使其产⽣更符合⽤户需求的结果;调整幅度⼤
- PPO(Proximal Policy Optimization)
核⼼思想:通过 奖励信号(如点赞、点踩)来 渐进式调整模型的⾏为策略;调整幅度⼩
三、 RAG(Retrieval-Augmented Generation)检索增强⽣成
将外部信息检索与⽂本⽣成结合,帮助模型在⽣成答案时,实时获取外部信息和最新信息
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)