摘要:
10.2节使用了高斯核来对查询和键之间的关系建模。 (10.2.6)中的 高斯核指数部分可以视为注意力评分函数(attention scoring function), 简称评分函数(scoring function), 然后把这个函数的输出结果输入到softmax函数中进行运算。 通过上述步骤,将 阅读全文
posted @ 2023-11-16 12:03
Yohoc
阅读(264)
评论(0)
推荐(0)
摘要:
上节介绍了框架下的注意力机制的主要成分 图10.1.3: 查询(自主提示)和键(非自主提示)之间的交互形成了注意力汇聚; 注意力汇聚有选择地聚合了值(感官输入)以生成最终的输出。 本节将介绍注意力汇聚的更多细节, 以便从宏观上了解注意力机制在实践中的运作方式。 具体来说,1964年提出的Nadara 阅读全文
posted @ 2023-11-16 11:39
Yohoc
阅读(396)
评论(0)
推荐(0)
摘要:
查询、键和值 自主性的与非自主性的注意力提示解释了人类的注意力的方式, 下面来看看如何通过这两种注意力提示, 用神经网络来设计注意力机制的框架, 首先,考虑一个相对简单的状况, 即只使用非自主性提示。 要想将选择偏向于感官输入, 则可以简单地使用参数化的全连接层, 甚至是非参数化的最大汇聚层或平均汇 阅读全文
posted @ 2023-11-16 10:17
Yohoc
阅读(86)
评论(0)
推荐(0)

浙公网安备 33010602011771号