摘要: 原文链接:https://jishuin.proginn.com/p/763bfbd565fc 本文在原文基础框架上有增加,附上更详细或者正确的解答。 1.Transformer为何使用多头注意力机制?(为什么不使用一个头)答:多头可以使参数矩阵形成多个子空间,矩阵整体的size不变,只是改变了每个 阅读全文
posted @ 2022-11-06 11:41 凌波微步_Arborday 阅读(227) 评论(0) 推荐(0) 编辑