【一文读懂】DeepSeek的发展历史

这篇文章介绍了deepseek公司的发展历史和核心技术

Bl_a_ck

12403人浏览 · 2025-02-05 20:51:02

Bl_a_ck · 2025-02-05 20:51:02 发布

DeepSeek: 先进的大语言模型技术公司

简介
公司背景
发展历程
主要产品
核心技术
最新动态

简介

DeepSeek（全称：杭州深度求索人工智能基础技术研究有限公司）成立于2023年7月17日，是一家创新型科技公司，专注于开发先进的大语言模型（LLM）及相关技术。由知名私募巨头幻方量化支持，DeepSeek致力于通过数据蒸馏技术（Data Distillation）来提取更精炼、有用的数据，以提高其模型的性能。

公司背景

DeepSeek的总部位于浙江省杭州市，注册资本为1000万元人民币。公司法定代表人为裴湉，经营范围包括技术服务、技术开发、软件开发等。作为一家创新型科技公司，DeepSeek得到了幻方量化的大力支持，后者为其提供了强大的硬件支持，尤其是在A100芯片的储备方面。

发展历程

DeepSeek在成立后的短短时间内取得了显著的技术进展和市场关注。主要的产品和技术迭代如下：

2024年1月5日：发布DeepSeek LLM，包含670亿参数，并从零开始在2万亿token的数据集上进行训练。
2024年1月25日：发布DeepSeek-Coder，专注于代码生成和补全。
2024年2月5日：推出DeepSeekMath，基于DeepSeek-Coder-v1.5 7B，专注于数学相关任务。
2024年3月11日：发布DeepSeek-VL，一个开源视觉-语言模型，具有较高的视觉任务处理能力。
2024年5月7日：发布DeepSeek-V2，采用Mixture-of-Experts（MoE）架构，实现了显著的性能提升。
2024年6月17日：推出DeepSeek-Coder-V2，提升了编码和数学推理能力，扩展了支持的编程语言数量。
2024年12月13日：发布DeepSeek-VL2，改进了视觉语言模型的多模态理解能力。
2024年12月26日：DeepSeek发布DeepSeek-V3模型，显著提升了知识类任务和生成速度。
2025年1月20日：发布DeepSeek-R1，采用强化学习技术提升模型推理能力。

主要产品

DeepSeek LLM：首个大语言模型，包含670亿参数，具备出色的中文和英文理解能力，超越了Llama2 70B Base和GPT-3.5。
DeepSeek-Coder：专为代码编程设计的模型，支持多种编程语言和项目级代码补全。
DeepSeekMath：专注于数学相关任务的模型，凭借5000亿token的训练数据，达到了与GPT-4相当的性能。
DeepSeek-VL：视觉-语言融合模型，能够在视觉任务中保持高效的推理能力。
DeepSeek-V2：基于MoE架构的强大语言模型，优化了训练和推理成本，提升了生成吞吐量。
DeepSeek-R1：强化学习优化的大语言模型，在推理能力上取得了突破性进展。

核心技术

专家混合架构（Mixture of Experts, MoE）

任务分解与专家分工：MoE将复杂问题分解为多个子任务，由不同的“专家”网络负责处理。每个专家网络是针对特定领域或任务训练的小型神经网络，例如语法理解、事实知识推理或创造性文本生成等。

稀疏激活：与传统的神经网络需要对每个输入激活所有参数不同，MoE架构仅激活与当前任务相关的专家。这种选择性激活大幅降低了计算成本，同时提升了模型的效率。例如，尽管DeepSeek-V3拥有6710亿个参数，但在任何给定任务中仅激活约370亿个参数，这显著提高了计算效率。

动态路由与负载均衡：通过“专家选择”（Expert Choice）路由算法，DeepSeek确保了任务在各个专家之间的负载均衡，避免了某些专家的过载或闲置。这一机制提高了模型的可扩展性和资源利用率。

这种架构使得DeepSeek能够在资源有限的条件下实现大规模模型的高效运行，同时保持极高的性能和灵活性。

强化学习与奖励工程

强化学习：通过试错机制和环境反馈，DeepSeek的模型能够不断优化其决策能力，特别是在推理和复杂问题解决方面。强化学习的引入使得DeepSeek能够提升模型的推理能力，尤其是在处理需要深度思考和逻辑推理的任务时。

规则驱动的奖励系统：与传统神经奖励模型不同，DeepSeek开发了一种基于规则的奖励系统，用于引导模型的学习。这种方法通过明确的规则对模型进行优化，从而提升了训练效率，特别是在逻辑推理任务中的表现。

通过强化学习和规则驱动的奖励系统，DeepSeek能够在多样化的任务中持续提升模型的智能化水平。

知识蒸馏与模型压缩

知识蒸馏：DeepSeek利用知识蒸馏技术，将大型模型（通常参数庞大、计算需求高）中的能力提取并转移到小规模的模型中。尽管这些压缩后的模型参数远小于原模型，但它们依然能够执行复杂任务。例如，DeepSeek的一些模型仅包含15亿参数，但能够执行与大规模模型相同的任务。

模型压缩：通过模型压缩，DeepSeek能够减少计算需求和内存占用，从而使得模型在硬件资源有限的环境下也能够高效运行。尤其是在移动设备或边缘计算场景中，模型压缩能够保证高效的性能和较低的硬件依赖。

通过知识蒸馏和模型压缩，DeepSeek在保证模型性能的同时，显著降低了计算成本和硬件需求。

最新动态

2025年1月31日：DeepSeek-R1模型登陆NVIDIA NIM平台，并被亚马逊和微软接入。
2025年2月5日：DeepSeek-R1、V3和Coder等系列模型已上线国家超算互联网平台，为更多开发者提供服务。
DeepSeek的技术创新和强大的硬件支持使其在大语言模型领域迅速崭露头角，其成果也吸引了全球的关注，特别是在硅谷的技术圈内引起了广泛讨论。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla