Week2-LLaMA1-RMSNorm,SwiGLU

🧠 LayerNorm vs RMSNorm:机制、差异与适用场景详解

归一化(Normalization)是现代神经网络中的基础构件。本文深入分析两种常见的归一化方法:LayerNormRMSNorm,重点讨论它们的数学机制、对特征分布的影响、适配任务的差异,以及为什么 RMSNorm 在某些场景中更优。

📌 1. 基础定义与公式

✅ LayerNorm(Layer Normalization)

对每个 token 内的所有维度进行归一化,包含可学习参数:

\[\text{LayerNorm}(\mathbf{x}) = \gamma \cdot \frac{\mathbf{x} - \mu}{\sigma + \epsilon} + \beta \]

  • 均值:

    \[\mu = \frac{1}{d} \sum_{i=1}^d x_i \]

  • 标准差:

    \[\sigma = \sqrt{ \frac{1}{d} \sum_{i=1}^d (x_i - \mu)^2 } \]

  • 参数:\(\gamma, \beta \in \mathbb{R}^d\) 是可学习的缩放和平移向量。

✅ RMSNorm(Root Mean Square Normalization)

仅进行缩放归一化,无中心化,通常无偏移项:

\[\text{RMSNorm}(\mathbf{x}) = \gamma \cdot \frac{\mathbf{x}}{\text{RMS}(\mathbf{x}) + \epsilon} \]

  • RMS:

    \[\text{RMS}(\mathbf{x}) = \sqrt{ \frac{1}{d} \sum_{i=1}^d x_i^2 } \]

  • 参数:\(\gamma \in \mathbb{R}^d\) 是可学习的缩放系数(通常无 \(\beta\)

📊 2. 核心区别

特性 LayerNorm RMSNorm
是否中心化 ✅ 是 ❌ 否
是否标准化 ✅ 是(除以标准差) ❌ 仅做 RMS 缩放
是否保留原始均值 ❌ 不保留 ✅ 保留
可学习参数 \(\gamma\), \(\beta\) \(\gamma\)(可选 \(\beta\)
对信息干扰程度 更大,可能破坏 token 内部偏移趋势 更小,保留语义偏移趋势
计算效率 略低(需要计算均值与方差) 更高(只需平方均值)

🧠 3. 中心分布的语义意义

“特征的中心分布”指的是 token 内多维特征的整体平均值(均值)是否偏正、偏负,或居中。

举例说明:

Token A: [1.2, 1.3, 1.4, 1.5] → 均值 = 1.35(偏正)
Token B: [-1.2, -1.3, -1.4, -1.5] → 均值 = -1.35(偏负)
Token C: [-1.0, 0.0, 0.5, 0.5] → 均值 = 0.0(居中)

这个中心偏移可能携带重要语义信号,例如:

  • 积极/消极倾向
  • 强调/否定语气
  • 上下文影响或 token 类型

🔍 4. 从 LayerNorm 到 RMSNorm:为什么要“省掉减均值”

LayerNorm通过减去均值并除以标准差,使激活具有零均值和单位方差,从而避免了激活值过大或过小导致的梯度爆炸或消失,保证了反向传播时梯度的数值稳定性,有助于模型更快且更稳定地收敛;但在Transformer中研究发现,减均值对梯度稳定性影响不大,真正关键的是缩放激活的数值尺度。基于此,RMSNorm省略了减均值,只用均方根(RMS)做归一化,既简化了计算又能保持数值稳定,证明在实践中效果依然很好。
RMSNorm 的优势:

  • 更容易保持梯度流动,适合更深层网络;
  • 多用于 GPT 系列中的 Pre-Norm 架构。

⚖️ 5. 适用场景对比

场景类型 更适合的归一化方式 理由
语言建模 / 文本生成 RMSNorm 语义偏移(如 token 情绪、语调)不能丢失
情感分析 / 主观性判断 RMSNorm 均值可能代表情感强度
图像特征对比 / 句法结构建模 LayerNorm 强调特征间相对关系、消除偏差
BERT 类模型(Post-Norm 架构) LayerNorm 原始结构假设归一化后特征为标准分布
GPT 类模型(Pre-Norm 架构) RMSNorm / ScaleNorm 高效、稳定、浅层激活更不易爆炸

🧮 6. 可学习参数的作用与训练方式

参数

  • \(\gamma\): 逐维缩放因子,恢复特征维度的重要性;
  • \(\beta\): (LayerNorm 特有)偏移参数,恢复中心化带走的信息;

如何训练?

这两个参数像模型权重一样被训练优化:

\[\gamma \leftarrow \gamma - \eta \cdot \frac{\partial L}{\partial \gamma}, \quad \beta \leftarrow \beta - \eta \cdot \frac{\partial L}{\partial \beta} \]

它们能让模型在归一化之后恢复表达能力,并自适应不同任务对特征的偏好。

💡 7. 总结与推荐

条件/目的 推荐选择
保留 token 内部语义偏移 ✅ RMSNorm
对特征相对结构敏感 ✅ LayerNorm
高效训练 / 参数少 ✅ RMSNorm
更强归一化 + 更强归一控制 ✅ LayerNorm
预训练大语言模型(GPT 系列) ✅ RMSNorm
精准理解语法结构(BERT 系列) ✅ LayerNorm

🔗 参考资料

SwiGLU

posted @ 2025-05-26 11:02  SIo_2  阅读(99)  评论(0)    收藏  举报