摘要: 3:20 来个赞 24:43 弹幕,是否懂了 QKV 相乘(QKV 同源),QK 相乘得到相似度A,AV 相乘得到注意力值 Z 第一步实现一个自注意力机制 自注意力计算 def self_attention(query, key, value, dropout=None, mask=None): d 阅读全文
posted @ 2022-07-27 20:00 B站-水论文的程序猿 阅读(4604) 评论(0) 推荐(1) 编辑