最近,美团开源的 LongCat-Flash 彻底炸了 AI 圈。
一方面,它用 国产算力 完成了一个 5600 亿参数的大模型训练;另一方面,它用一系列极具工程狠劲的设计,解决了很多 DeepSeek 一直头疼的系统级瓶颈。LongCat-Flash 可以说是一次真正懂大模型训练痛点的人干出来的技术工程奇迹。
所有相关源码示例、流程图、面试八股、模型配置与知识库构建技巧,我也将持续更新在Github:AIHub,欢迎关注收藏!

一、LongCat-Flash 是什么?

LongCat-Flash 是一个 Mixture-of-Experts(MoE)混合专家大模型,总参数量高达 5600 亿,但每次推理只激活 18.6B–31.3B(平均 27B) 参数。

模型的核心目标很直接:“更快、更稳、更聪明,尤其是要能干 Agent 任务。

在报告里,美团团队把它定位为兼具计算效率(Computational Efficiency)和智能行为能力(Agentic Capability)的双向突破。


二、核心创新

LongCat-Flash 的架构创新主要集中在两个点。

1. Zero-Computation Experts:计算预算动态分配

传统 MoE 的问题在于所有 token 都吃一样多的计算预算,浪费严重。LongCat-Flash 的做法很巧妙——引入 “零计算专家”。这些专家啥也不算(输入 = 输出),但在路由阶段参与决策,让模型能自己判断哪些 token 值得花更多算力。

核心逻辑就是“重要的 token 激活更多专家,不重要的 token 直接走零计算通道“。平均每个 token 激活 12 个专家,其中一部分是 “空转” 的。
这样做不仅大幅提高算力利用率,而且不浪费 GPU 通信时间(因为低权重 token 直接跳过)。

结果在报告里直接对比出来:在相同算力预算下,加入 Zero-Computation Expert 的模型 loss 曲线更低,训练收敛更快,推理更稳。

这一步,让 MoE 的“稀疏计算”真正变成了**“动态稀疏”**。


2. Shortcut-Connected MoE(ScMoE):通信与计算并行化

第二个创新,是让训练和推理都“跑得更顺”的关键。在大规模 MoE 模型里,通信延迟往往是最大瓶颈。每次路由都要先发数据再算,GPU 空跑。

ScMoE 的想法是让上一层的 FFN 计算,与下一层的专家通信并行进行。这叫 Shortcut-Connected MoE。简单理解,就是在层间加了“捷径”,让前后两层的计算和通信互相交叠,从串行变并行。

官方实验结果显示训练和推理都快了约 50%,Loss 曲线几乎重合(质量无损),并且TPOT(每 token 生成时间)比 DeepSeek-V3 降了一半。

这一步彻底解决了 MoE 系列“理论强但实践卡”的老问题。


三、可扩展性与稳定性

LongCat-Flash 不只是结构创新,它的工程系统也相当硬核。报告里专门有一节写Stability & Scaling Framework,包括:

1. 超稳的训练流程

  • Hyperparameter Transfer:从小模型自动迁移超参。
  • Model Growth Initialization:从半尺寸模型叠加成长,避免随机初始化带来的不稳定。
  • Hidden z-Loss:用额外的小损失项抑制激活爆炸。
  • Adam ε=1e-16:显式控制优化器稳定性。

2. Deterministic Computation(确定性计算)

“所有实验可复现,任何 Silent Data Corruption 都能被检测出来。” 这在千卡级训练里太重要了——
否则一个节点出错,整轮训练都得重来。

结果是超过 20T tokens 预训练数据,全流程仅用 30 天98.48% 的时间可用性(几乎不用人工介入)。


四、训练数据

LongCat-Flash 的训练分成三阶段:

  1. 通用预训练阶段
  • 20T token,保证语言通用能力。
  • 数据源覆盖网页、书籍、代码等。
  • 增强中文分词和数字处理。
  1. 推理与编程强化阶段
  • 注重数学、逻辑、代码推理。
  • 使用自研数据生成系统合成高难任务。
  1. 超长上下文扩展阶段
  • 上下文长度扩展到 128K tokens
  • 用书籍和整库代码训练,提升长程记忆。

整个流程用到了复杂的过滤与去重机制,防止数据污染(decontamination)。


五、Agent 能力

LongCat-Flash 最大的亮点在于它在「Agent 能力」上的突破。它不是简单的语言模型,而是“能推理、能调用工具、能完成复杂任务的智能体。”

美团专门定义了三维复杂度来评估 Agent 任务:

  1. 信息处理复杂度
  2. 工具集复杂度
  3. 用户交互复杂度

他们还自建了一个超难的 benchmark —— VitaBench,完全基于真实业务场景,比如外卖调度、路线规划、客服应答等。在这个场景下,LongCat-Flash 甚至超过了 DeepSeek-V3.1 等同级模型。

LongCat-Flash 不是简单“复刻”国外架构,而是一步到位做到了体系化创新,架构上MoE 真正动态化、通信完全并行;系统上从超参迁移到容错训练全链打通;任务上Agent 能力实测领先;成本上单位算力效率拉满。
下一步要看它的生态能否跟上,毕竟,开源只是起点,真正的比拼在于谁能让它“跑在更多人的 GPU 上”。

关于深度学习和AI大模型相关的知识和前沿技术更新,请关注公众号 coting

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐