多头注意力其实就是将普通注意力机制进行多次,每次都得到一个结果,然后最终将这些结果直接用pd.concat拼接起来,然后再乘以一个矩阵即可,如下 实际中,我们不会采取for循环计算多个头,而是直接采取并行计算
pd.concat