随笔档案「2025年9月27日」：Attention进阶史（MHA, MQA, GQA, MLA） ... - 有何m不可

2025年9月27日

摘要：在深度学习领域，注意力机制（Attention Mechanism）自诞生以来便成为推动自然语言处理和计算机视觉等任务发展的核心动力。从最初的多头注意力（MHA）到如今的高效变体，如多查询注意力（MQA）、分组查询注意力（GQA）和多层注意力（MLA），注意力机制不断演进，旨在解决计算效率、内存占用阅读全文

posted @ 2025-09-27 16:48 有何m不可阅读(939) 评论(0) 推荐(0)

图解KV Cache

摘要： LLM中下一个token预测 Transformer 生成隐藏状态 Transformer 为所有 token 生成隐藏状态。隐藏状态被投射到词汇空间。最后一个 token 的 logits 用于生成下一个 token。生成新 token 的输出要生成新 token，我们只需要最新 toke 阅读全文

posted @ 2025-09-27 16:38 有何m不可阅读(371) 评论(0) 推荐(0)

gongzb

公告