一、SFT(Supervised Fine-Tuning)有监督微调

  • 通过提供⼈⼯标注的数据,进⼀步训练预训练模型,让模型能够更加精准地处理特定领域的任务
  • 除了“有监督微调”,还有“⽆监督微调”“⾃监督微调”,当⼤家提到“微调”时通常是指有监督微调

二、RLHF(Reinforcement Learning from Human Feedback)强化学习

  • DPO(Direct Preference Optimization

核⼼思想:通过 ⼈类对⽐选择(例如:A 选项和 B 选项,哪个更好)直接优化⽣成模型,使其产⽣更符合⽤户需求的结果;调整幅度⼤

  • PPO(Proximal Policy Optimization)

核⼼思想:通过 奖励信号(如点赞、点踩)来 渐进式调整模型的⾏为策略;调整幅度⼩

三、 RAG(Retrieval-Augmented Generation)检索增强⽣成

将外部信息检索与⽂本⽣成结合,帮助模型在⽣成答案时,实时获取外部信息和最新信息

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐