摘要: 各式各样的Attention 自注意力(Self-Attention)的计算复杂度问题 Local Attention 🌟 一、为什么需要 Local Attention? 先回忆一下普通的 Self-Attention: 每个词都要对序列中 所有其他词 计算注意力权重。 如果句子长度是 n, 则计算量是 \(O(n^2)\) 阅读全文
posted @ 2025-10-30 18:21 -一叶知秋- 阅读(7) 评论(0) 推荐(0)
摘要: Sequence2Sequence Sequence2Sequence Sequence-to-Sequence(简称 Seq2Seq) 是一种用于序列到序列(Sequence → Sequence)映射任务的深度学习模型结构。 它最早由 Google 在 2014 年提出,用于 机器翻译(Machine Translation),后 阅读全文
posted @ 2025-10-30 18:07 -一叶知秋- 阅读(28) 评论(0) 推荐(0)