摘要: 写在前面,一定要看懂self attention的代码实现,注意矩阵乘是谁@谁,矩阵乘不可以变换位置!!! Attention的出现 由于翻译任务往往不是1 vs 1的翻译,因此输入与输出不等长,所以出现了encoder-decoder的形式: RNN具有短期记忆的问题,随着输入序列的增加,以前的输 阅读全文
posted @ 2025-05-31 18:28 ZCry 阅读(180) 评论(0) 推荐(0)