2022 年 7月 27 日随笔档案 - B站-水论文的程序猿

2022年7月27日

03 Transformer 中的多头注意力（Multi-Head Attention）Pytorch代码实现

摘要： 3：20 来个赞 24：43 弹幕，是否懂了 QKV 相乘（QKV 同源），QK 相乘得到相似度A，AV 相乘得到注意力值 Z 第一步实现一个自注意力机制自注意力计算 def self_attention(query, key, value, dropout=None, mask=None): d 阅读全文

posted @ 2022-07-27 20:00 B站-水论文的程序猿阅读(7073) 评论(0) 推荐(2)

【B站：水论文的程序猿】

道阻且长，与君共勉

公告