GlenTt

导航

2025年7月22日 #

attention

摘要: Attention的发展脉络 1 背景与动机 早期序列到序列(Seq2Seq)模型使用一个固定长度的上下文向量来表示整个源序列,这在 Bahdanau 等人(2014)提出的工作中被明确指出是性能瓶颈。他们发现在长句翻译任务中,用单个向量来编码任意长度的输入会限制模型表达能力。因此,Bahdanau 阅读全文

posted @ 2025-07-22 23:34 GRITJW 阅读(45) 评论(0) 推荐(0)