摘要:
Scaled Dot-Product Attention 在实际应用中,经常会用到 Attention 机制,其中最常用的是 Scaled Dot-Product Attention,它是通过计算query和key之间的点积 来作为 之间的相似度。 Scaled 指的是 Q和K计算得到的相似度 再经 阅读全文
posted @ 2022-09-30 08:29
努力的孔子
阅读(3341)
评论(0)
推荐(0)
浙公网安备 33010602011771号