LayerNorm层参数量计算

- 有\(\gemma\)和\(\beta\)等两个参数
- 三个地方用到了LayerNorm层
- Embedding层后
- \(768*2\)
- Multi-Head Attention后
- \((768*2)*12\)
- Feed-Forward后
- \((768*2)*12\)
- Embedding层后
故,12层LayerNorm层参数为:\(768*2+(768*2)*12+(768*2)*12=768*2+12*(768*2)=38,400=37.5KB\)
\[1KB=1024Bit(字节)
\]

浙公网安备 33010602011771号