摘要: 在注意力机制中,每个查询都会关注所有的键-值对并生成一个注意力输出。由于查询、键和值来自同一组输入,因此被称为 自注意力(self-attention),也被称为内部注意力(intra-attention)。本节将使用自注意力进行序列编码,以及使用序列的顺序作为补充信息。 import math i 阅读全文
posted @ 2023-10-25 22:29 AncilunKiang 阅读(301) 评论(0) 推荐(0)
摘要: 多头注意力(multihead attention):用独立学习得到的 h 组不同的线性投影(linear projections)来变换查询、键和值,然后并行地送到注意力汇聚中。最后,将这 h 个注意力汇聚的输出拼接在一起,并且通过另一个可以学习的线性投影进行变换,以产生最终输出。 对于 h 个注 阅读全文
posted @ 2023-10-25 20:29 AncilunKiang 阅读(492) 评论(0) 推荐(0)
摘要: 10.4.1 模型 Bahdanau 等人提出了一个没有严格单向对齐限制的可微注意力模型。在预测词元时,如果不是所有输入词元都相关,模型将仅对齐(或参与)输入序列中与当前预测相关的部分。这是通过将上下文变量视为注意力集中的输出来实现的。 新的基于注意力的模型与 9.7 节中的模型相同,只不过 9.7 阅读全文
posted @ 2023-10-25 17:37 AncilunKiang 阅读(272) 评论(0) 推荐(0)