LayerNorm层参数量计算

  • \(\gemma\)\(\beta\)等两个参数
  • 三个地方用到了LayerNorm层
    • Embedding层后
      • \(768*2\)
    • Multi-Head Attention后
      • \((768*2)*12\)
    • Feed-Forward后
      • \((768*2)*12\)

故,12层LayerNorm层参数为:\(768*2+(768*2)*12+(768*2)*12=768*2+12*(768*2)=38,400=37.5KB\)

\[1KB=1024Bit(字节) \]

posted @ 2025-03-06 21:57  HaibaraYuki  阅读(54)  评论(0)    收藏  举报