Transformer

transformer的整体结构

在机器翻译中,transformer可以将语言翻译成另一种语言,如果把transformer看成一个黑盒,那么其结构如下图所示:

拆开这个黑盒子,可以看到transformer由若干个编码器和解码器组成,如下图所示:

继续讲encoder和decoder拆开,可以看到完整的结构,如下图所示:

可以看到encoder包含一个multi-head attention模块,是由多个self-attention组成,而decoder包含两个multi-head attention。multi-head attention 上方还包括一个Add & Norm 层,Add表示残差连接用于防止网络退化,Norm表示Layer Normalization,用于对每一层的激活值进行归一化。

参考内容:
https://www.zhihu.com/tardis/zm/art/600773858

posted @ 2025-02-19 11:11  小舟渡河  阅读(28)  评论(0)    收藏  举报