DeepSeek 系列模型中的技术

羽_羊

1148人浏览 · 2025-02-18 18:41:46

羽_羊 · 2025-02-18 18:41:46 发布

DeepSeek 系列模型中的技术

简介

DeepSeek 是杭州深度求索人工智能基础技术研究有限公司的简称，同时DeepSeek也是该公司研发的通用人工智能开源大模型平台。DeepSeek完全基于自研训练框架、自建智算集群和万卡算力等资源，在短时间内取得了显著的研发成果。它通过大幅度缩减以往大模型所需要的庞大算力，直接把大模型的成本降了下来

模型名称	描述
DeepSeek-R1	一款在数学、代码及自然语言推理领域与 OpenAI o1 比肩的开源大模型，以其全面、详实的回答和结构化输出著称。
DeepSeek-V3	凭借自研 MoE 模型和 671B 参数，在性能上超越所有已发布的开源模型，成为极具性价比的顶尖大模型之一。
DeepSeek-VL	专为视觉和语言理解设计的开源多模态模型，能够处理复杂场景下的逻辑、公式识别及自然图像等问题。
DeepSeek-V2	以创新的模型架构和极低的推理成本，成为性价比极高的大模型选择。
DeepSeek-R1-Zero	采用强化学习训练的预模型，不走传统监督微调路线，展现独特优势。
蒸馏版 Qwen、Llama 系列小模型	从 DeepSeek-R1 数据上蒸馏得到的小模型，表现优秀，部分任务上甚至超越 GPT-4o。

核心创新

DeepSeek开发的GRPO算法通过群组相对优势估计，优化了策略网络，有效降低了传统Critic网络的高计算开销
DeepSeek-R1采用了包括准确性、格式和语言一致性在内的多层次奖励机制，确保了模型在推理任务中的高效性和输出内容的可读性
通过“思考-回答”双阶段训练模板，DeepSeek-R1实现了推理过程的可追踪性，并为奖励计算提供了明确基准，从而输出了结构化的答案。

DeepSeek-R1

DeepSeek-R1-Zero是一个未经监督微调（SFT）这一初步步骤，直接通过大规模强化学习（RL）训练的模型。通过强化学习，DeepSeek-R1-Zero自然地展现出众多强大且引人入胜的推理行为。然而，它也面临着可读性差和语言混杂等挑战。为了解决这些问题并进一步提升推理性能，DeepSeek推出了DeepSeek-R1，该模型在强化学习之前加入了多阶段训练和冷启动数据

有监督微调（SFT）

有监督微调（Supervised Fine-Tuning，SFT）是什么？有监督微调是指在已经训练好的大型语言模型（如GPT、Llama等）基础上，通过使用有标注的特定任务数据进行进一步的训练，从而使模型具备在特定任务或领域上表现更好的能力。这种技术通常涉及对模型权重的微调，以最小化任务特定的损失函数。
有监督微调（SFT）的核心在于利用有限的标注数据，对预训练模型进行精细化调整。预训练模型通常是在大规模无监督数据集上训练的，已经掌握了语言的基本结构和知识。通过引入标注数据，模型可以针对特定任务进行微调，学习如何在该任务上进行预测和推理。
DeepSeek-R1为什么不使用有监督微调（SFT）？DeepSeek-R1摒弃了传统的有监督微调作为初步步骤的做法，旨在通过纯粹的强化学习（RL）来训练模型，以激发模型的自主学习能力。

强化学习（RL）

强化学习（Reinforcement Learning, RL）是什么？强化学习专注于探索模型如何通过与环境的互动，利用试错方式学习最优策略，旨在最大化累积奖励。
强化学习的核心在于模型（通常被称为智能体）会在环境中执行一系列动作，并根据这些动作所获得的奖励来不断优化其行为策略。在DeepSeek中，强化学习被用于提升模型的推理能力。
DeepSeek-R1为什么使用强化学习（RL）？DeepSeek-R1采用强化学习是为了提升推理能力并减少对监督数据的依赖，实现模型在复杂环境中的自我优化与进化。
LLMs的推理能力仅通过强化学习来激励？DeepSeek-R1-Zero表明大型语言模型（Large Language Models）的推理能力可以仅通过强化学习来激励，而无需监督微调。
DeepSeek直接在基础模型上应用强化学习（Reinforcement Learning，简称RL），而不依赖于监督微调（Supervised Fine-Tuning，简称SFT）作为初步步骤。这种方法使模型能够探索用于解决复杂问题的思维链（Chain of Thought，简称CoT），从而开发出DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了自我验证、反思和生成长思维链等能力，为研究领域树立了重要里程碑。

蒸馏

蒸馏（Distillation）让小模型也同样强大？大模型的推理模式可以被蒸馏到小模型中，与通过小模型上的强化学习发现的推理模式相比，这种方法能获得更好的性能。
蒸馏（Distillation）让小模型也同样强大？大模型的推理模式可以被蒸馏到小模型中，与通过小模型上的强化学习发现的推理模式相比，这种方法能获得更好的性能。
如何蒸馏DeepSeek-R1-Distill-Qwen-32B？通过选择DeepSeek-R1作为教师模型，Qwen-32B作为学生模型，并准备大规模文本数据集，经过教师模型推理、学生模型训练、损失函数设计与优化算法选择等步骤，最终评估与调优得到性能优异的学生模型DeepSeek-R1-Distill-Qwen-32B。

混合专家架构（MoE）

混合专家架构（MoE）是一种允许模型根据输入动态选择合适的专家模块进行处理的架构。在DeepSeek中，MoE架构的应用带来了显著的计算成本降低和性能提升。

动态专家选择：MoE架构的核心在于其动态性。对于每个输入，模型会根据其特性选择最合适的专家模块进行处理
细粒度专家分割：DeepSeek采用了细粒度的专家分割策略，将专家进一步细分为更小的单元，能够更灵活地组合和激活专家
共享专家隔离：在DeepSeek的MoE架构中，还引入了共享专家隔离策略。一些专家被标记为共享专家，用于捕捉共同知识并减轻激活专家之间的冗余

多头潜在注意力机制（MLA）

多头潜在注意力机制（MLA）是DeepSeek提出的一种创新的注意力架构，旨在降低推理显存需求并提高计算效率。

低秩联合压缩：MLA通过对注意力键和值进行低秩联合压缩，显著减少了推理时的KV缓存
门控机制：在MLA中，每个输入token都会通过门控机制选择一部分路由专家参与计算，能够根据输入的特性动态调整计算路径
位置信息解耦：MLA通过特殊的位置信息解耦策略，解决了压缩后的低秩key-value信息无法直接融入相对位置信息的问题

结合冷启动的强化学习

DeepSeek-R1设计了结合冷启动的强化学习的四阶段训练方法
从冷启动数据微调、面向推理的强化学习，到拒绝采样与监督微调，再到全场景强化学习确保帮助性与无害性，四阶段训练方法逐步塑造了DeepSeek模型的强大推理与泛化能力

冷启动数据微调

在DeepSeek-R1的研发过程中，为了避免强化学习训练初期的这种不稳定冷启动阶段，通过构建长思维链数据和采用特定的数据收集与处理方法，有效地缓解了这一挑战。这些数据通过带有详细反思和验证步骤的提示生成，并用于微调模型。同时，DeepSeek还收集了DeepSeek-R1-Zero的输出，并由人类标注者进行精炼和优化。

长思维链数据：这是一种特殊的数据集，用于帮助模型在强化学习初期更好地理解和处理复杂的任务。它包含了详细的步骤和逻辑链条，可以引导模型进行深入的反思和验证
微调模型：使用这些长思维链数据对模型进行微调，可以使其更好地适应强化学习的环境，并在后续的训练中表现出更出色的性能
DeepSeek-R1-Zero的输出：这是另一个数据源，它提供了模型在处理某些任务时的输出。这些输出被收集起来，并由人类标注者进行进一步的精炼和优化，以确保数据的质量和准确性
人类标注者的作用：人类标注者在这里扮演了重要的角色。他们不仅需要对收集到的数据进行清理和整理，还需要对数据进行进一步的优化和精炼，以确保模型在训练过程中能够充分利用这些数据

面向推理的强化学习

面向推理的强化学习（Reasoning-oriented RL）阶段是什么？面向推理的强化学习是一种将强化学习应用于推理任务的学习范式。它通过智能体与环境的交互、奖励机制的设计以及策略的优化来不断提升模型的推理能力。
在利用冷启动数据微调DeepSeek-V3-Base后，DeepSeek采用了与DeepSeek-R1-Zero相同的强化学习训练，以提升模型在编码、数学、科学和逻辑推理等推理密集型任务上的能力。
训练过程中，DeepSeek观察到思维链（CoT）存在语言混合现象，尤其在涉及多种语言时。为此，DS引入了语言一致性奖励，根据目标语言单词比例计算，以缓解该问题。尽管这可能导致模型性能略有下降，但提高了输出的可读性。最终，DeepSeek将推理任务准确性和语言一致性奖励相加，形成最终奖励，直至模型在推理任务上收敛。

拒绝采样与监督微调

拒绝采样（Rejection Sampling）与监督微调（SFT）阶段是什么？拒绝采样和监督微调是解决不同问题的两种技术。拒绝采样主要用于从复杂分布中生成样本，而监督微调则用于在预训练模型的基础上快速适应新的监督学习任务。
当面向推理的强化学习收敛后，DeepSeek-R1利用所得检查点收集后续轮次所需的监督微调（SFT）数据。与主要关注推理的初始冷启动数据不同，这一阶段纳入了来自其他领域的数据，以增强模型在写作、角色扮演和其他通用任务方面的能力。

全场景强化学习

全场景强化学习（RL for all Scenarios）阶段是什么？全场景强化学习旨在通过整合多源奖励信号和多样化数据分布，训练出能在各种场景下提供有用、无害且具备强大推理能力的模型。

文献

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

Codex 完整使用教程（Windows/macOS 双系统区别详解）

智能体开发者社区

[智能体-640]：Openclaw自动实时备份workspace空间中的内容到gitee仓库的本质与步骤

OpenClaw 的 workspace 是存放全部智能体配置资产的核心目录，包含 SOUL.md、AGENTS.md、技能配置、记忆日志、业务流程、自然语言编排脚本等整套数字公司核心资产，是硅基组织的全部源代码与经营档案。自动实时备份至 Gitee，本质是一套内置轻量化 Git 自动化调度链路：依托智能体引擎内置Git 客户端、定时 / 事件触发器监控 workspace 文件变动，自动执行完整