【LLM】Layer Norm 和 RMS Norm 的区别？

Layer Norm 对每个样本在特征维度上进行归一化，计算均值和方差，并对输入进行缩放和平移。

FOUR_A

2680人浏览 · 2025-02-03 09:00:00

FOUR_A · 2025-02-03 09:00:00 发布

Layer Normalization（Layer Norm） 和 RMS Normalization（RMS Norm） 是深度学习中两种常用的归一化技术，它们的目的是通过规范化输入数据来加速训练并提高模型的稳定性。尽管它们的目标相似，但在实现方式和效果上有一些关键区别。以下是它们的详细对比：

1. Layer Normalization (Layer Norm)

（1）定义

Layer Norm 对每个样本在特征维度上进行归一化，计算均值和方差，并对输入进行缩放和平移。

（2）公式

对于输入 $\in \mathbb{R}^{d}$ （ d 是特征维度），Layer Norm 的计算如下：

$\mu = \frac{1}{d} \sum_{i=1}^{d} x_i \tag{均值}$
$\sigma^2 = \frac{1}{d} \sum_{i=1}^{d} (x_i - \mu)^2 \tag{方差}$
$x^i=xi−μσ2+ϵ(归一化) \hat{x}_i = \frac{x_i - \mu}{\sqrt{\sigma^2 + \epsilon}} \tag{归一化}$
$yi=γix^i+βi(缩放和平移) y_i = \gamma_i \hat{x}_i + \beta_i \tag{缩放和平移}$

其中：

$ϵ\epsilon$ 是一个小常数，用于数值稳定性。
$γ\gamma$ 和 $β\beta$ 是可学习的参数，分别用于缩放和平移。

（3）特点

对特征维度归一化：Layer Norm 对每个样本的特征维度进行归一化，适用于变长序列（如 NLP 任务）。
适用于 RNN 和 Transformer：Layer Norm 在 RNN 和 Transformer 中表现良好，尤其是在处理序列数据时。
引入可学习参数：通过 $γ\gamma$ 和 $β\beta$ ，Layer Norm 可以保留模型的表达能力。

2. RMS Normalization (RMS Norm)

（1）定义

RMS Norm 是一种简化版的归一化方法，仅对输入进行缩放，而不计算均值。它通过均方根（Root Mean Square）来规范化输入。

（2）公式

对于输入 $\in \mathbb{R}^{d}$ ，RMS Norm 的计算如下：

$\text{RMS}(x) = \sqrt{\frac{1}{d} \sum_{i=1}^{d} x_i^2} \tag{均方根}$
$x^i=xiRMS(x)+ϵ(归一化) \hat{x}_i = \frac{x_i}{\text{RMS}(x) + \epsilon} \tag{归一化}$
$yi=γix^i(缩放) y_i = \gamma_i \hat{x}_i \tag{缩放}$

其中：

$ϵ\epsilon$ 是一个小常数，用于数值稳定性。
$γ\gamma$ 是可学习的缩放参数。

（3）特点

不计算均值：RMS Norm 仅通过均方根进行归一化，简化了计算。
无平移参数：RMS Norm 没有类似 Layer Norm 中的 $β\beta$ 参数，因此计算更简单。
计算效率更高：由于减少了计算步骤，RMS Norm 的计算开销比 Layer Norm 更低。

3. 区别对比

特性	Layer Norm	RMS Norm
归一化方式	对特征维度计算均值和方差	仅对特征维度计算均方根（RMS）
是否计算均值	是	否
是否引入平移参数	是（通过 $β\beta$ ）	否
计算复杂度	较高（需要计算均值和方差）	较低（仅计算均方根）
适用场景	广泛用于 NLP 和序列模型（如 Transformer）	适用于对计算效率要求较高的场景
表达能力	更强（引入了可学习的平移参数）	较弱（无平移参数）

4. 选择依据

Layer Norm 更适合需要较强表达能力的任务（如 NLP），尤其是在 Transformer 等模型中表现优异。
RMS Norm 更适合对计算效率要求较高的场景，尤其是在大规模模型或资源受限的环境中。

5. 总结

Layer Norm 通过计算均值和方差对输入进行归一化，并引入可学习的缩放和平移参数，表达能力更强，但计算复杂度较高。
RMS Norm 通过均方根对输入进行归一化，计算更简单，但表达能力较弱。

选择哪种归一化方法取决于具体任务的需求和计算资源的限制。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla