2025 年 10月 30 日随笔档案 - -一叶知秋-

2025年10月30日

摘要：

自注意力（Self-Attention）的计算复杂度问题 Local Attention 🌟 一、为什么需要 Local Attention？先回忆一下普通的 Self-Attention：每个词都要对序列中所有其他词计算注意力权重。如果句子长度是 n，则计算量是 \(O(n^2)\) 阅读全文

posted @ 2025-10-30 18:21 -一叶知秋- 阅读(7) 评论(0) 推荐(0)

Sequence2Sequence

摘要：

Sequence2Sequence Sequence-to-Sequence（简称 Seq2Seq）是一种用于序列到序列（Sequence → Sequence）映射任务的深度学习模型结构。它最早由 Google 在 2014 年提出，用于机器翻译（Machine Translation），后阅读全文

posted @ 2025-10-30 18:07 -一叶知秋- 阅读(28) 评论(0) 推荐(0)