注意力机制

个人学习使用,侵权删

为什么Transformer 需要进行 Multi-head Attention? - 月来客栈的回答 - 知乎
注意力机制(Attention)
transformer中为什么使用不同的K 和 Q, 为什么不能使用同一个值?

posted on 2024-03-01 13:38  zhou-snaker  阅读(3)  评论(0编辑  收藏  举报