摘要:
Attention Is All You Need 模型结构 Encoder Encoder是有N=6层的一个整体。是这6层按顺序走下来的一个整体。 每层有两个子层。分别是多头自注意力和全连接前馈网络。 对于每个子层,先采用残差连接,后采用layer normalization \(LayerNor 阅读全文
posted @ 2021-10-19 13:58 Antel 阅读(197) 评论(0) 推荐(0)
|
摘要:
Attention Is All You Need 模型结构 Encoder Encoder是有N=6层的一个整体。是这6层按顺序走下来的一个整体。 每层有两个子层。分别是多头自注意力和全连接前馈网络。 对于每个子层,先采用残差连接,后采用layer normalization \(LayerNor 阅读全文
posted @ 2021-10-19 13:58 Antel 阅读(197) 评论(0) 推荐(0) |
||