摘要: seq2seq中的注意力机制解决了长期梯度消失的问题,LSTM只解决了一部分长短期问题。 transformer中采用的自注意力机制多少借鉴该方法,其最核心的公式如下图所示。 Attention机制详解(一)——Seq2Seq中的Attention - 知乎 (zhihu.com) Q、K、V分别代 阅读全文
posted @ 2023-04-12 17:33 澳大利亚树袋熊 阅读(134) 评论(0) 推荐(0)