摘要: 上一节使用的高斯核的指数部分可以视为注意力评分函数(attention scoring function),简称评分函数(scoring function)。 后续把评分函数的输出结果输入到softmax函数中进行运算。最后,注意力汇聚的输出就是基于这些注意力权重的值的加权和。该过程可描述为下图: 阅读全文
posted @ 2023-10-24 22:29 AncilunKiang 阅读(309) 评论(0) 推荐(0)
摘要: import torch from torch import nn from d2l import torch as d2l 1964 年提出的 Nadaraya-Watson 核回归模型是一个简单但完整的例子,可以用于演示具有注意力机制的机器学习。 10.2.1 生成数据集 根据下面的非线性函数生 阅读全文
posted @ 2023-10-24 15:59 AncilunKiang 阅读(283) 评论(0) 推荐(0)