2025 年 7月 22 日随笔档案 - GRITJW

2025年7月22日 #

attention

摘要： Attention的发展脉络 1 背景与动机早期序列到序列（Seq2Seq）模型使用一个固定长度的上下文向量来表示整个源序列，这在 Bahdanau 等人（2014）提出的工作中被明确指出是性能瓶颈。他们发现在长句翻译任务中，用单个向量来编码任意长度的输入会限制模型表达能力。因此，Bahdanau 阅读全文

posted @ 2025-07-22 23:34 GRITJW 阅读(45) 评论(0) 推荐(0)

GlenTt

导航

公告

attention