摘要: Scaled Dot-Product Attention 的公式中为什么要除以 \(\sqrt{d_k}\)? 在学习 Scaled Dot-Product Attention 的过程中,遇到了如下公式 \[ \mathrm{Attention} (\mathbf{Q}, \mathbf{K}, \ 阅读全文
posted @ 2024-10-22 18:05 赤川鹤鸣 阅读(148) 评论(0) 推荐(0)