摘要:
内容补充:在上一节的Multi-Head Attention模块中,完成了自注意力值的计算: 而该步骤总结为: 1.计算查询矩阵\(Q\)与键矩阵\(K\)的点积\(Q \cdot K^T\),求得相似值,称为分数; 2.将\(Q \cdot K^T\)除以键向量维度的平方根\(\sqrt{d_k} 阅读全文
posted @ 2025-10-29 11:11
SBR赛后结算顶级FMVP
阅读(10)
评论(0)
推荐(0)
浙公网安备 33010602011771号