摘要:
自注意力(Self-Attention)的计算复杂度问题 Local Attention 🌟 一、为什么需要 Local Attention? 先回忆一下普通的 Self-Attention: 每个词都要对序列中 所有其他词 计算注意力权重。 如果句子长度是 n, 则计算量是 \(O(n^2)\) 阅读全文
自注意力(Self-Attention)的计算复杂度问题 Local Attention 🌟 一、为什么需要 Local Attention? 先回忆一下普通的 Self-Attention: 每个词都要对序列中 所有其他词 计算注意力权重。 如果句子长度是 n, 则计算量是 \(O(n^2)\) 阅读全文
posted @ 2025-10-30 18:21
-一叶知秋-
阅读(7)
评论(0)
推荐(0)
摘要:
Sequence2Sequence Sequence-to-Sequence(简称 Seq2Seq) 是一种用于序列到序列(Sequence → Sequence)映射任务的深度学习模型结构。 它最早由 Google 在 2014 年提出,用于 机器翻译(Machine Translation),后 阅读全文
Sequence2Sequence Sequence-to-Sequence(简称 Seq2Seq) 是一种用于序列到序列(Sequence → Sequence)映射任务的深度学习模型结构。 它最早由 Google 在 2014 年提出,用于 机器翻译(Machine Translation),后 阅读全文
posted @ 2025-10-30 18:07
-一叶知秋-
阅读(28)
评论(0)
推荐(0)

浙公网安备 33010602011771号