一连五天,DeepSeek开源了七大重磅项目,吸引了全球AI开发者的关注,好评如潮,国外有人惊呼,Deepseek才是真正的Open AI,现在连真正的OpenAI发布GPT 4.5都是一片嘲讽。

话不多说,我们先详细梳理下五天分别都开源了什么:

Day 1

第一天,DeepSeek开源 FlashMLA 解码内核,FlashMLA 是 DeepSeek 开源的高效 MLA(Multi-head Latent Attention,多头潜在注意力)解码内核,专为英伟达 Hopper 架构 GPU(如 H800)优化。其核心作用是通过硬件级优化,显著提升大语言模型(LLM)在变长序列推理场景下的性能与效率。核心特性包括:

- 全面支持 BF16 精度的动态长序列处理- 创新的分页 KV 缓存技术(块大小为 64)实测性能:在 H800 GPU 上达成 3000 GB/秒 内存带宽极限,计算峰值达 580 万亿次浮点运算/秒。

在聊天机器人、语音识别等场景中,FlashMLA 可将响应延迟压降至 微秒级(如分发延迟 163μs,合并延迟 318μs),显著提升用户体验。例如,某金融机构使用后,模型迭代周期从周级缩短至天级。

开源地址:https://github.com/deepseek-ai/FlashMLA

Day 2

第二天开源的项目是首个用于 MoE 模型训练和推理的 EP 通信库 DeepEP。

DeepEP(Expert Parallelism Communication Library)是DeepSeek开源的专为混合专家(MoE)模型设计的通信库,其核心作用在于解决MoE架构中大规模分布式训练和推理的通信瓶颈,通过软硬件协同优化实现效率跃升。

DeepEP针对MoE模型的“分发-合并”流程(Dispatch-Combine)设计了高效GPU内核,优化了专家并行(Expert Parallelism)场景下的数据交换。在H800 GPU上,节点内通过NVLink可实现153-158 GB/s带宽,跨节点通过RDMA可达43-47 GB/s带宽。这种优化将传统MoE训练中因通信延迟导致的“计算空转”时间压缩了40%以上。

此次开源的 DeepEP 做到了:

- 高效优化的 All-to-All 通信

- 支持 NVLink 和 RDMA 的节点内 / 跨节点通信

- 训练及推理预填充阶段的高吞吐量计算核心

- 推理解码阶段的低延迟计算核心

- 原生支持 FP8 数据分发

- 灵活控制 GPU 资源,实现计算与通信的高效重叠

开源地址:https://github.com/deepseek-ai/DeepEP

Day 3

第三套开源了 DeepGEMM,这是一个专为 FP8 通用矩阵乘法(General Matrix Multiply,GEMM)设计的高性能计算库。

DeepGEMM 的核心优势在于其实现了 DeepSeek-V3 中提出的细粒度缩放功能。该库不仅支持常规矩阵乘法,还特别优化了混合专家系统(Mixture-of-Experts,MoE)架构中的分组矩阵乘法,这正是 DeepSeek-V3 和 DeepSeek-R1 等先进模型的关键计算需求。

虽然 DeepGEMM 是用 CUDA 编写的,但它采用了创新的安装方式:

- 无需复杂的预编译过程

- 通过轻量级即时编译(JIT)模块在运行时编译所有内核

- 简化了部署和使用流程

开源地址:https://github.com/deepseek-ai/DeepGEMM

Day 4

开源周第4天,DeepSeek放出的是——优化并行策略,一共三个项目。

    • DualPipe:一种创新的双向流水线并行算法,能够完全重叠前向和后向计算-通信阶段,并减少“流水线气泡”。它通过对称的微批次调度,优化了并行计算效率。

    • Expert Parallelism Load Balancer (EPLB):用于MoE的负载均衡算法,通过复制高负载专家并智能地分配专家到不同GPU上,确保计算资源的均衡利用。它包含两种政策:层次化负载均衡和全局负载均衡。

    • Profiling Data:训练和推理框架的性能分析数据,展示了通信-计算重叠策略和底层实现细节。

    值得一提的是,DualPipe是由三个人——Jiashi Li、Chengqi Deng和梁文峰共同研发。

    开源地址:

    https://github.com/deepseek-ai/DualPipe

    https://github.com/deepseek-ai/eplb

    https://github.com/deepseek-ai/profile-data

    Day 5

    最后一天,DeepSeek开源3FS(Fire-Flyer File System)系统。这是一种并行文件系统,它利用现代固态硬盘(SSD)和远程直接内存访问(RDMA)网络的全部带宽,能够加速和推动 DeepSeek 平台上所有数据访问操作。

    • 在 180 节点集群中实现了 6.6 TiB/s 的聚合读取吞吐量;

    • 在 25 节点集群的 GraySort 基准测试中达到 3.66 TiB/min 的吞吐量;

    • 每个客户端节点在 KVCache 查找时可达到 40+ GiB/s 的峰值吞吐量;

    • 采用分离式架构,具有强一致性语义。

    开源地址:https://github.com/deepseek-ai/3FS

    开源一周,DeepSeek收获了众多好评,开源项目的star数也是一路狂飙,其中第一个开源项目FlashMLA的star数短短5天就已经到达10600个,炙热程度可见一斑。

    DeepSeek开源的目的

    首先需要明确的是,DeepSeek选择在这时重磅开源自家的核心技术,背后肯定有自己的目的,说的高大上一点就是,选择开源经过生产验证的核心工具链(如FlashMLA优化GPU性能、DeepEP优化MoE模型通信),旨在打破欧美企业在大模型基础设施领域的技术壁垒。通过将“生产级代码”而非实验性项目开源,直接向开发者提供“工业级武器库”,降低技术门槛并加速行业创新。

    但真正的目标可能是,通过开源推理加速(FlashMLA)→通信优化(DeepEP)→计算内核(DeepGEMM)→并行调度(DualPipe)→数据存取(3FS),形成端到端技术闭环。

    这种系统性布局通过开源基础组件吸引开发者生态,以“开源+服务”的变现模式(如企业级支持、云服务优化),将技术优势转化为生态话语权。例如,3FS文件系统已应用于其大模型训练,开源后可能通过企业定制化服务盈利,这与Red Hat的Linux商业模式异曲同工。

    DeepSeek开源的真正影响

    不可否认,DeepSeek的开源显著降低大模型开发门槛:其训练成本仅为OpenAI GPT-4的1/20(557.6万美元 vs 1亿美元),推理效率提升40%。

    尤其是FlashMLA对Hopper GPU的极致优化倒逼英伟达加速迭代,而DeepGEMM仅用300行代码实现超越CUDA的性能,冲击传统硬件厂商的软件护城河。

    此外,MoE架构(DeepEP)和稀疏激活(MLA机制)推动行业从“参数规模竞赛”转向“激活效率优化”,重新定义技术评价标准。

    DeepSeek的开源行动引发全球开发者社区震动,GitHub仓库Star数单日破万,Hugging Face已基于其代码复现模型。这标志着中国AI企业首次在基础设施层引领全球创新,与OpenAI、Meta形成三角竞争。

    车库精神驱动的AGI开源帝国

    DeepSeek的“开源周”不仅是技术展示,更是对AI发展路径的重新定义,开源生态吸引企业加入DeepSeek技术栈,形成“社区贡献→生态增强→商业反哺”的良性循环,正在催生类似Android的开源帝国,但是这次是真正由国人主导的。

    更重要的是,从计算加速(FlashMLA)、通信优化(DeepEP)、矩阵运算(DeepGEMM)到数据存储(3FS),形成覆盖训练、推理、存储的完整工具链,技术深度相比Android更胜一筹。

    GitHub上DeepSeek相关项目星数已接近Llama系列,其极简设计(如DeepGEMM核心代码仅300行)大幅降低开发门槛。中信建投报告显示,中小开发者数量正以每月35%速度增长,这种社区活力远超Android初期。

    正如Meta首席科学家Yann LeCun评价:"这不是简单的代码共享,而是AGI探索的范式转移。" 当未来80%的AI应用基于DeepSeek工具链开发时,这场开源革命的影响力或将远超移动互联网时代的Android。

    有理由相信,DeepSeek这场“车库精神”驱动的变革,或将重塑AI时代的权力格局——技术不再属于少数巨头,而是成为全球开发者共同进化的基石。

    以上,部分内容参考自DeepSeek的输出,不得不说,DeepSeek是真牛啊!

    感谢你看我的文章。 投稿或爆料,请联系微信:karamos1018

    Logo

    中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

    更多推荐