190 多头注意力机制

多头注意力其实就是将普通注意力机制进行多次,每次都得到一个结果,然后最终将这些结果直接用pd.concat拼接起来,然后再乘以一个矩阵即可,如下
image
image
实际中,我们不会采取for循环计算多个头,而是直接采取并行计算

posted @ 2025-02-24 22:54  最爱丁珰  阅读(19)  评论(0)    收藏  举报