(Instruction LLMs)、(Reasoning LLMs)、多模态AIGC以及垂直领域应用经典奠基到前沿SOTA必读文献
这是目前(2024-2025)最火的方向,对标OpenAI o1,强调“慢思考”和复杂逻辑推理。医疗是容错率极低的领域,强调“上限探索”和“辅助诊疗”。负责指令遵循和人类对齐,这是目前大模型的基石。强调“细粒度可控”和“泛健康创意玩法”。
·
1. 指令型大模型核心技术 (Pre-training, SFT, RLHF)
对应JD第一点: 负责指令遵循和人类对齐,这是目前大模型的基石。
- [奠基] InstructGPT (2022)
- 论文: Training language models to follow instructions with human feedback (OpenAI)
- 推荐理由: 必读中的必读。它定义了目前通用的“预训练 -> SFT -> RLHF”的三阶段范式(PPO算法),是理解ChatGPT技术路线的源头。
- [核心] LLaMA Series (2023-2024)
- 论文: LLaMA: Open and Efficient Foundation Language Models (Meta)
- 推荐理由: 工业界开源模型的标杆。理解LLaMA的网络结构(如RoPE、SwiGLU、RMSNorm)是做核心研发的基本功。
- [前沿/替代RLHF] DPO (2023)
- 论文: Direct Preference Optimization: Your Language Model is Secretly a Reward Model (Stanford)
- 推荐理由: 目前工业界非常流行的RLHF替代方案。它无需训练独立的Reward Model,训练更稳定、更省资源,是现在面试和实战的高频考点。
2. 推理型大模型 (Reasoning LLMs, RL, ReFT)
对应JD第二点: 这是目前(2024-2025)最火的方向,对标OpenAI o1,强调“慢思考”和复杂逻辑推理。
- [奠基] Chain-of-Thought (2022)
- 论文: Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (Google)
- 推荐理由: 开启了“大模型推理”时代,提出了CoT概念,让模型学会“一步步思考”。
- [进阶] Tree of Thoughts (2023)
- 论文: Tree of Thoughts: Deliberate Problem Solving with Large Language Models
- 推荐理由: 将线性推理扩展为树状搜索,引入了BFS/DFS搜索算法来提升推理能力。
- [RL推理核心] Process Reward Models (2023)
- 论文: Let’s Verify Step by Step (OpenAI)
- 推荐理由: 针对数学和逻辑推理,提出**过程奖励(Process Supervision)**比结果奖励(Outcome Supervision)更有效。这是训练推理模型(如o1)的核心思想之一。
- [特定技术] ReFT (2024)
- 论文: ReFT: Representation Finetuning for Language Models (Stanford)
- 推荐理由: JD中明确提到了ReFT。这是一种通过干预模型隐藏层表示(Representations)而非调整权重的微调方法,参数效率极高且可解释性强,属于非常新的前沿技术。
3. 多模态AIGC与可控生成 (Multimodal, Control)
对应JD第三点: 强调“细粒度可控”和“泛健康创意玩法”。
- [视觉理解] LLaVA (2023)
- 论文: Visual Instruction Tuning
- 推荐理由: 将CLIP的视觉编码器与LLM连接,是目前多模态大模型(VLM/LMM)最主流的架构范式。
- [图像生成与控制] ControlNet (2023)
- 论文: Adding Conditional Control to Text-to-Image Diffusion Models
- 推荐理由: 做“细粒度可控”生成的圣经。它允许通过边缘图、姿态等额外条件精确控制Stable Diffusion的生成结果,非常适合创意探索。
- [高效微调] LoRA (2021)
- 论文: LoRA: Low-Rank Adaptation of Large Language Models (Microsoft)
- 推荐理由: 无论是LLM微调还是AIGC风格训练,LoRA都是目前的标准配置。
4. 医疗大模型 (Medical LLMs)
对应JD第四点: 医疗是容错率极低的领域,强调“上限探索”和“辅助诊疗”。
- [行业标杆] Med-PaLM 2 (2023)
- 论文: Towards Expert-Level Medical Question Answering with Large Language Models (Google)
- 推荐理由: 证明了通用大模型经过特定微调和Prompt策略(如Ensemble Refinement)可以在USMLE(美国执业医师资格考试)上达到专家水平。
- [中文医疗] HuatuoGPT (华驼) / PMC-LLaMA
- 相关项目/论文: 关注中文医疗语境下的SFT数据构建和知识注入。
- 核心难点: 这一块的文献重点在于**幻觉消除(Hallucination Mitigation)和RAG(检索增强生成)**在医疗中的应用,因为严肃医疗不能胡说八道。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)