一分钟看完DeepSeek开源周发布了些啥

上周国内外AI科技圈又发生了啥新鲜事？

啥都生

1372人浏览 · 2025-03-02 11:44:59

啥都生 · 2025-03-02 11:44:59 发布

B站：啥都会一点的研究生
公众号：啥都会一点的研究生

上周国内外AI科技圈又发生了啥新鲜事？

DeepSeek开源FlashMLA，推理加速技术获市场高度关注

DeepSeek在开源周的第一天推出了FlashMLA，一款针对Hopper GPU优化的高效MLA解码内核，旨在降低推理成本并提升效率。该项目上线仅45分钟便收获超过400个Star，且数量仍在快速攀升。FlashMLA支持BF16和64块大小的分页kvcache，可在H800 SXM5 GPU上实现高达3000 GB/s的内存速度和580 TFLOPS的计算性能

https://github.com/deepseek-ai/FlashMLA

DeepSeek开源MoE训练推理EP通信库DeepEP，展现高效通信与优化能力

DeepSeek在开源周第二天发布了用于MoE模型训练和推理的EP通信库DeepEP。该库针对分布式系统中的数据传输瓶颈进行了优化，支持NVLink和RDMA的节点内/跨节点通信，具备高效优化的All-to-All通信能力。DeepEP还支持FP8数据分发，灵活控制GPU资源，实现计算与通信的高效重叠。在性能测试中，DeepEP展现了高吞吐量和低延迟的特点，其开源后迅速获得超过1000的Star量，受到社区的高度评价

https://github.com/deepseek-ai/DeepEP

DeepSeek开源300行代码的通用矩阵乘法库，助力V3/R1加速，R2模型或提前发布

DeepSeek在开源周第三天，开源了一个名为DeepGEMM的通用矩阵乘法库，仅用300行代码实现了高效的FP8 GEMM计算，支持密集型和专家混合（MoE）模型，专为Hopper GPU设计，可达到1350+ FP8 TFLOPS的计算性能。该库采用CUDA编写，通过Just-In-Time（JIT）模块实现运行时编译，避免了复杂模板依赖，性能在某些矩阵形状上超越专家调优库。此外，路透社爆料DeepSeek下一代R2大模型可能在5月前发布，较原计划提前，旨在提升代码生成能力和多语言推理能力

https://github.com/deepseek-ai/DeepGEMM

DeepSeek开源三项技术，梁文锋亲自参与，API夜间降价

DeepSeek在开源周第四天一口气发布了两项工具和一个数据集：DualPipe、EPLB以及训练和推理框架的分析数据。DualPipe是一种双向pipeline并行算法，可实现计算-通信重叠，减少流水线气泡；EPLB是专家并行负载均衡器，可智能分配专家负载，提高GPU利用率。此外，DeepSeek还公布了训练和推理框架的分析数据，帮助社区更好地理解通信计算重叠策略。同时，DeepSeek宣布API夜间错峰优惠，DeepSeek-V3和R1在夜间00:30至08:30的调用价格分别降至原价的50%和25%

https://mp.weixin.qq.com/s/aeK5eJMwqNuqJaZczKrhgQ

DeepSeek开源高性能文件系统3FS，数据处理速度大幅提升

在DeepSeek开源周的最后一天，其开源的3FS（Fire-Flyer File System）系统成为亮点。3FS是一种并行文件系统，利用现代固态硬盘和RDMA网络的带宽，显著提升了数据访问速度。它在180节点集群中实现了6.6 TiB/s的聚合读取吞吐量，在25节点集群的GraySort基准测试中达到3.66 TiB/min的吞吐量，且每个客户端节点在KVCache查找时可达到40+ GiB/s的峰值吞吐量。该系统采用分离式架构，具备强一致性语义，支持训练数据预处理、数据集加载等多种应用场景，为AI训练和推理工作负载提供了强大的支持，被早期使用者形容为“文件系统界的博尔特”

https://github.com/deepseek-ai/3FS

特斯拉FSD入华，城区道路Autopilot功能分批推送

特斯拉FSD（全自动驾驶）功能正式进入中国市场，将通过2024.45.32.12版本更新，分批推送给中国车主。此次更新包括城区道路Autopilot功能，支持自动驶出匝道、识别信号灯、自动变道等，售价6.4万元，可分期购买。FSD的入华将对国内智能驾驶市场产生重大影响，车主们对这一功能充满期待。目前FSD在中国的售价高于美国市场，且国内其他智能驾驶品牌如理想、小鹏等均提供免费或更低价的智驾服务，FSD的市场表现值得期待

https://www.qbitai.com/2025/02/258171.html

GPT-4.5问世：OpenAI发布迄今最大模型，情商与创造力大幅提升，API价格飞涨30倍

OpenAI正式发布GPT-4.5研究预览版本，这是其迄今为止最大、最强的聊天模型。GPT-4.5通过扩展无监督学习，提升了识别模式、建立联系和产生创造性见解的能力，更注重情商和自然对话体验。测试显示，GPT-4.5在世界知识、减少幻觉、理解人类意图等方面表现优异，尤其在写作、设计等需要高情商的任务中表现出色。然而，其API价格也大幅上涨，每1M token收费75美元，比前代GPT-4o上涨30倍。尽管如此，GPT-4.5仍不支持语音、视频等多模态功能，未来将持续更新优化

https://openai.com/index/introducing-gpt-4-5/

OpenAI Deep Research向所有付费用户开放，并发布系统卡

OpenAI宣布其强大的智能体Deep Research已向ChatGPT Plus、Team、Edu和Enterprise用户全面开放，并发布了Deep Research系统卡。Deep Research能够综合大量在线信息，完成多步骤研究任务，助力用户进行复杂的信息查询与分析。其基础模型为o3正式版，经过了严格的安全测试、风险评估和治理审查。在发布前，OpenAI通过外部红队测试和准备度框架评估，识别并缓解了关键风险，最终将Deep Research评为总体中等风险。缓解后的Deep Research模型在SWE-Lancer测试中表现优异，解决了约46%-51%的任务

https://www.jiqizhixin.com/articles/2025-02-26-8

何恺明团队提出「分形生成模型」，逐像素建模高分辨率图像，效率提升4000倍

何恺明团队最新研究提出了一种名为「分形生成模型」的新型生成架构，灵感来源于数学中的分形概念，通过递归调用同类生成模型构建复杂架构。该模型在逐像素图像生成任务中表现出色，尤其在高分辨率图像建模方面，计算效率相比传统方法提升了4000倍。实验结果显示，该模型在ImageNet数据集上实现了高保真度和多样性的图像生成，为生成建模领域带来了新的范式

https://mp.weixin.qq.com/s/h5awFz1LTG4q2kF0lsg-zQ

DeepSeek-R1核心机制可轻松迁移，邱锡鹏团队联合出品

复旦大学、华东师范大学及上海AI Lab联合提出了一种名为MHA2MLA的数据高效微调方法，可将基于多头注意力（MHA）的大语言模型转换为多头潜在注意力（MLA）架构，显著降低推理成本。以Llama2-7B为例，该方法在减少92.19%的KV缓存大小的同时，仅使LongBench性能下降0.5%。此外，微调过程仅需0.3%~0.6%的原始数据，展现了高效性和兼容性

https://arxiv.org/abs/2502.14837

Anthropic发布全球首个混合推理模型Claude 3.7 Sonnet，编码能力大幅提升

Anthropic发布了其最新旗舰模型Claude 3.7 Sonnet，全球首个混合推理模型，具备标准和扩展思考模式，用户可通过API细粒度控制思考时间。该模型在编码能力上表现卓越，特别是在SWE-bench Verified基准测试中，性能远超前代和其他竞争对手。同时，Anthropic推出了智能编码工具Claude Code，可帮助开发者从终端完成大量工程任务，显著减少开发时间和成本。Claude 3.7 Sonnet现已通过多个平台开放使用，其价格与前代相同，每百万输入token 3美元，输出token 15美元

https://mp.weixin.qq.com/s/RzdrxKbHKKqtN-FvbOQsZw

Anthropic 开放 Claude AI 的 GitHub 集成，赋能更多开发者

Anthropic 宣布全面开放 Claude AI 的 GitHub 集成，面向免费、Pro 和 Teams 用户。此前，该功能仅限于企业版用户。通过将 GitHub 代码库同步到 Claude，开发者可以利用其强大的代码理解和辅助能力，提升测试、调试和代码优化效率。免费账户使用该功能可能会消耗较多配额，而 Pro 用户则更容易控制配额。继 Google Drive 集成之后，GitHub 集成是 Claude 的又一重要功能拓展，未来还将支持 Google Calendar、Gmail、Salesforce 和 Slack 等服务

https://www.ithome.com/0/834/005.htm

腾讯混元发布新一代快思考模型 Turbo S，性能与成本优化显著

腾讯混元新一代快思考模型 Turbo S 正式发布，区别于传统慢思考模型，Turbo S 能够实现秒回，首字时延降低 44%，吐字速度提升一倍。该模型通过长短思维链融合，显著改进了理科推理能力，并在多个公开 Benchmark 上展现出与业界领先模型相当的效果。架构上，Turbo S 采用创新的 Hybrid-Mamba-Transformer 模式，降低了计算复杂度和缓存占用，大幅降低了部署成本。目前，该模型已在腾讯云官网上架，开发者和企业用户可通过 API 调用，且一周内免费试用

https://mp.weixin.qq.com/s/BwQkXpEitOm1Piz60SE-4A

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大