10.2.4 带参数注意力汇聚

这里为什么要用bmm：看NWKernelRegression定义的过程，我们是将查询数定义为了批量，attention_weights在第1维度展开就可以提取每一个查询，将所有加了权的键变成行向量；values在最后一个维度展开，就将所有值变成了一个列向量；此时两者相乘就是预测值