仔细研究了DeepSeek开源的7大项目，我发现这比当年Android还牛啊

首先需要明确的是，DeepSeek选择在这时重磅开源自家的核心技术，背后肯定有自己的目的，说的高大上一点就是，选择开源经过生产验证的核心工具链（如FlashMLA优化GPU性能、DeepEP优化MoE模型通信），旨在打破欧美企业在大模型基础设施领域的技术壁垒。DeepSeek的“开源周”不仅是技术展示，更是对AI发展路径的重新定义，开源生态吸引企业加入DeepSeek技术栈，形成“社区贡献→生态增

karamos11

2583人浏览 · 2025-02-28 15:13:40

karamos11 · 2025-02-28 15:13:40 发布

一连五天，DeepSeek开源了七大重磅项目，吸引了全球AI开发者的关注，好评如潮，国外有人惊呼，Deepseek才是真正的Open AI，现在连真正的OpenAI发布GPT 4.5都是一片嘲讽。

话不多说，我们先详细梳理下五天分别都开源了什么：

Day 1

第一天，DeepSeek开源 FlashMLA 解码内核，FlashMLA 是 DeepSeek 开源的高效 MLA（Multi-head Latent Attention，多头潜在注意力）解码内核，专为英伟达 Hopper 架构 GPU（如 H800）优化。其核心作用是通过硬件级优化，显著提升大语言模型（LLM）在变长序列推理场景下的性能与效率。核心特性包括：

- 全面支持 BF16 精度的动态长序列处理- 创新的分页 KV 缓存技术（块大小为 64）实测性能：在 H800 GPU 上达成 3000 GB/秒内存带宽极限，计算峰值达 580 万亿次浮点运算/秒。

在聊天机器人、语音识别等场景中，FlashMLA 可将响应延迟压降至 微秒级（如分发延迟 163μs，合并延迟 318μs），显著提升用户体验。例如，某金融机构使用后，模型迭代周期从周级缩短至天级。

开源地址：https://github.com/deepseek-ai/FlashMLA

Day 2

第二天开源的项目是首个用于 MoE 模型训练和推理的 EP 通信库 DeepEP。

DeepEP（Expert Parallelism Communication Library）是DeepSeek开源的专为混合专家（MoE）模型设计的通信库，其核心作用在于解决MoE架构中大规模分布式训练和推理的通信瓶颈，通过软硬件协同优化实现效率跃升。

DeepEP针对MoE模型的“分发-合并”流程（Dispatch-Combine）设计了高效GPU内核，优化了专家并行（Expert Parallelism）场景下的数据交换。在H800 GPU上，节点内通过NVLink可实现153-158 GB/s带宽，跨节点通过RDMA可达43-47 GB/s带宽。这种优化将传统MoE训练中因通信延迟导致的“计算空转”时间压缩了40%以上。

此次开源的 DeepEP 做到了：

- 高效优化的 All-to-All 通信

- 支持 NVLink 和 RDMA 的节点内 / 跨节点通信

- 训练及推理预填充阶段的高吞吐量计算核心

- 推理解码阶段的低延迟计算核心

- 原生支持 FP8 数据分发

- 灵活控制 GPU 资源，实现计算与通信的高效重叠

开源地址：https://github.com/deepseek-ai/DeepEP

Day 3

第三套开源了 DeepGEMM，这是一个专为 FP8 通用矩阵乘法（General Matrix Multiply，GEMM）设计的高性能计算库。

DeepGEMM 的核心优势在于其实现了 DeepSeek-V3 中提出的细粒度缩放功能。该库不仅支持常规矩阵乘法，还特别优化了混合专家系统（Mixture-of-Experts，MoE）架构中的分组矩阵乘法，这正是 DeepSeek-V3 和 DeepSeek-R1 等先进模型的关键计算需求。

虽然 DeepGEMM 是用 CUDA 编写的，但它采用了创新的安装方式：

- 无需复杂的预编译过程

- 通过轻量级即时编译（JIT）模块在运行时编译所有内核

- 简化了部署和使用流程

开源地址：https://github.com/deepseek-ai/DeepGEMM

Day 4

开源周第4天，DeepSeek放出的是——优化并行策略，一共三个项目。

DualPipe：一种创新的双向流水线并行算法，能够完全重叠前向和后向计算-通信阶段，并减少“流水线气泡”。它通过对称的微批次调度，优化了并行计算效率。
Expert Parallelism Load Balancer (EPLB)：用于MoE的负载均衡算法，通过复制高负载专家并智能地分配专家到不同GPU上，确保计算资源的均衡利用。它包含两种政策：层次化负载均衡和全局负载均衡。
Profiling Data：训练和推理框架的性能分析数据，展示了通信-计算重叠策略和底层实现细节。

值得一提的是，DualPipe是由三个人——Jiashi Li、Chengqi Deng和梁文峰共同研发。

开源地址：

https://github.com/deepseek-ai/DualPipe

https://github.com/deepseek-ai/eplb

https://github.com/deepseek-ai/profile-data

Day 5

最后一天，DeepSeek开源3FS（Fire-Flyer File System）系统。这是一种并行文件系统，它利用现代固态硬盘（SSD）和远程直接内存访问（RDMA）网络的全部带宽，能够加速和推动 DeepSeek 平台上所有数据访问操作。

在 180 节点集群中实现了 6.6 TiB/s 的聚合读取吞吐量；
在 25 节点集群的 GraySort 基准测试中达到 3.66 TiB/min 的吞吐量；
每个客户端节点在 KVCache 查找时可达到 40+ GiB/s 的峰值吞吐量；
采用分离式架构，具有强一致性语义。

开源地址：https://github.com/deepseek-ai/3FS

开源一周，DeepSeek收获了众多好评，开源项目的star数也是一路狂飙，其中第一个开源项目FlashMLA的star数短短5天就已经到达10600个，炙热程度可见一斑。

DeepSeek开源的目的

首先需要明确的是，DeepSeek选择在这时重磅开源自家的核心技术，背后肯定有自己的目的，说的高大上一点就是，选择开源经过生产验证的核心工具链（如FlashMLA优化GPU性能、DeepEP优化MoE模型通信），旨在打破欧美企业在大模型基础设施领域的技术壁垒。通过将“生产级代码”而非实验性项目开源，直接向开发者提供“工业级武器库”，降低技术门槛并加速行业创新。

但真正的目标可能是，通过开源推理加速（FlashMLA）→通信优化（DeepEP）→计算内核（DeepGEMM）→并行调度（DualPipe）→数据存取（3FS），形成端到端技术闭环。

这种系统性布局通过开源基础组件吸引开发者生态，以“开源+服务”的变现模式（如企业级支持、云服务优化），将技术优势转化为生态话语权。例如，3FS文件系统已应用于其大模型训练，开源后可能通过企业定制化服务盈利，这与Red Hat的Linux商业模式异曲同工。

DeepSeek开源的真正影响

不可否认，DeepSeek的开源显著降低大模型开发门槛：其训练成本仅为OpenAI GPT-4的1/20（557.6万美元 vs 1亿美元），推理效率提升40%。

尤其是FlashMLA对Hopper GPU的极致优化倒逼英伟达加速迭代，而DeepGEMM仅用300行代码实现超越CUDA的性能，冲击传统硬件厂商的软件护城河。

此外，MoE架构（DeepEP）和稀疏激活（MLA机制）推动行业从“参数规模竞赛”转向“激活效率优化”，重新定义技术评价标准。

DeepSeek的开源行动引发全球开发者社区震动，GitHub仓库Star数单日破万，Hugging Face已基于其代码复现模型。这标志着中国AI企业首次在基础设施层引领全球创新，与OpenAI、Meta形成三角竞争。

车库精神驱动的AGI开源帝国

DeepSeek的“开源周”不仅是技术展示，更是对AI发展路径的重新定义，开源生态吸引企业加入DeepSeek技术栈，形成“社区贡献→生态增强→商业反哺”的良性循环，正在催生类似Android的开源帝国，但是这次是真正由国人主导的。

更重要的是，从计算加速（FlashMLA）、通信优化（DeepEP）、矩阵运算（DeepGEMM）到数据存储（3FS），形成覆盖训练、推理、存储的完整工具链，技术深度相比Android更胜一筹。

GitHub上DeepSeek相关项目星数已接近Llama系列，其极简设计（如DeepGEMM核心代码仅300行）大幅降低开发门槛。中信建投报告显示，中小开发者数量正以每月35%速度增长，这种社区活力远超Android初期。

正如Meta首席科学家Yann LeCun评价："这不是简单的代码共享，而是AGI探索的范式转移。" 当未来80%的AI应用基于DeepSeek工具链开发时，这场开源革命的影响力或将远超移动互联网时代的Android。

有理由相信，DeepSeek这场“车库精神”驱动的变革，或将重塑AI时代的权力格局——技术不再属于少数巨头，而是成为全球开发者共同进化的基石。

以上，部分内容参考自DeepSeek的输出，不得不说，DeepSeek是真牛啊！

感谢你看我的文章。投稿或爆料，请联系微信：karamos1018

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla