【NLP高频面题 - LLM架构篇】大模型为何使用RMSNorm代替LayerNorm?

重要性:★★★ 💯


NLP Github 项目:


大模型使用RMSNorm代替LayerNorm是为了降低计算量。

均方根归一化 (Root Mean Square Layer Normalization,RMS Norm)论文中提出,层归一化(Layer Normalization)之所以有效,关键在于其实现的缩放不变性(Scale Invariance),而非平移不变性(Translation Invariance)。

基于此,RMSNorm在设计时简化了传统层归一化的方法。它移除了层归一化中的平移操作(即去掉了均值的计算和减除步骤),只保留了缩放操作。

因此 RMSNorm 主要是在 LayerNorm 的基础上去掉了减均值这一项,其计算效率更高且没有降低性能。

RMS Norm针对输入向量 x,RMSNorm 函数计算公式如下:
【NLP高频面题 - LLM架构篇】大模型为何使用RMSNorm代替LayerNorm?-LMLPHP

层归一化(LayerNorm)的计算公式:
【NLP高频面题 - LLM架构篇】大模型为何使用RMSNorm代替LayerNorm?-LMLPHP

经过对比,可以清楚的看到,RMSNorm 主要是在 LayerNorm 的基础上去掉了减均值这一项,计算量明显降低。

RMSNorm 层归一化的代码实现:
【NLP高频面题 - LLM架构篇】大模型为何使用RMSNorm代替LayerNorm?-LMLPHP


NLP 大模型高频面题汇总

NLP基础篇
BERT 模型面
LLMs 微调面
11-30 13:36