大模型TP、SP、EP切分

文章摘要：本文对比了传统Dense大模型和MoE大模型在并行计算方式上的差异。传统模型采用TP切分，Attention和FNN部分都需进行前向和反向各一次AR计算。而加入SP并行后，计算模式发生变化：前向的g{}变为AG，反向的g{}变为RS。文中以FNN部分为例说明计算模式转变，指出Attention部分也可采用类似处理方式。这反映了模型并行计算策略的演进过程。

索木目-黄淮

395人浏览 · 2025-10-09 00:16:17

索木目-黄淮 · 2025-10-09 00:16:17 发布

传统Dense大模型， FNN部分也是按TP切分。现在 MoE大模型FNN已经是用EP切分了。

1. TP切分

原始TP版本，Attention部分前向一次AR，反向梯度计算一次AR； FNN部分也是前向一次AR，反向一次AR。

改进版本AR被拆分成RS+AG，重点说下Attention部分的

左侧方框是self-attention()函数，每张GPU卡的输入都是（B, S，D) 全量数据，输出Y按列切，原理是multi-head的head数，详细可以见《Attention Is All You Need》的论文。右侧方框是linear()函数，对应论文里的公式

$MultiHead(Q, K, V ) = Concat(head_{1}, ..., head_{h})W_{o}$

where $head_{i} = Attention(QW_{i}^{Q}, KW_{i}^{K}, V W_{i}^{V} )$

linear部分的B矩阵按行切分，也就是以上公式中的Wo按行切分，切分之后的 $Y_{1}B_{1}$ 和 $Y_{2}B_{2}$ （即 $head_{1}W_{1}$ 和 $head_{2}W_{2}$ ）结果需要再做一次reduce。前向 $Y=Y_{1}B_{1}+Y_{2}B_{2}$ ，g{}是AR; 反向 $\partial L/\partial x = \partial L/\partial x_{1} + \partial L/\partial x_{2}$ , f{} 是一次AR。

总结：TP切分，如果有两轮网络叠加，前一轮一般按列切，后一轮按行切，最后的结果，如果需要完整数据，通过reduce 合并；只需要部分数据，通过reduce-scatter合并。（Self-attention和MLP部分都是一个原理）

2. SP并行

加入SP之后，前向 g{} 是AG，Attention之后的g' {} 从AR变成了RS，Dropout()前的输入是按Seq维度的切分输入（B, S/h, D）。这里是算子融合的方法，通信优化里常用的方法，感兴趣可以再专题展开。

反向g{} 是RS， Attention之后的g'{} 从无变成了AG。

上图是FNN部分的图，如果改成Attention部分也是类似。

3. EP切分

MoE模型，FNN部分会替换成Expert部分，前面g{}不需要做AG，改成ALL2ALL，出向的g'也改成All2ALL。这样可以避免SP之后的相同数据同时做ALL2ALL。

4.激活值总结

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla