会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
最爱丁珰
博客园
首页
新随笔
联系
订阅
管理
2025年2月26日
10.2.4 带参数注意力汇聚
摘要: 这里为什么要用bmm:看NWKernelRegression定义的过程,我们是将查询数定义为了批量,attention_weights在第1维度展开就可以提取每一个查询,将所有加了权的键变成行向量;values在最后一个维度展开,就将所有值变成了一个列向量;此时两者相乘就是预测值
阅读全文
posted @ 2025-02-26 15:15 最爱丁珰
阅读(19)
评论(0)
推荐(0)
公告