2023 年 4月 12 日随笔档案 - 澳大利亚树袋熊

2023年4月12日

摘要： seq2seq中的注意力机制解决了长期梯度消失的问题，LSTM只解决了一部分长短期问题。 transformer中采用的自注意力机制多少借鉴该方法，其最核心的公式如下图所示。 Attention机制详解（一）——Seq2Seq中的Attention - 知乎 (zhihu.com) Q、K、V分别代阅读全文

posted @ 2023-04-12 17:33 澳大利亚树袋熊阅读(134) 评论(0) 推荐(0)

澳大利亚树袋熊

公告