摘要:
1. MQA: Multi-Query Attention 多查询注意力机制 (MQA) 是 Transformer 中使用的传统多头自注意力机制(MHA)的一种变体。在传统的多头注意力机制中,每个注意力头都使用自己的一组查询、键和值,这可能需要大量计算,尤其是在注意力头数量增加的情况下。MQA 通 阅读全文
posted @ 2025-10-27 22:30
有何m不可
阅读(5)
评论(0)
推荐(0)
摘要:
多头潜在注意力机制 首先我们来回忆一下大模型生成时一个标准多头注意力机制,首先对于第一个token,它的特征向量为H,通过Query权重矩阵,Key权重矩阵和Value权重矩阵,分别得到这个token的Q向量、K向量和V向量。然后经过\(\text{softmax}\left( \frac{Q \c 阅读全文
posted @ 2025-10-27 22:10
有何m不可
阅读(10)
评论(0)
推荐(0)

浙公网安备 33010602011771号