2025年2月10日

多头潜在注意力MLA

摘要: 多头潜在注意力(Multi-Head Latent Attention,MLA)是一种改进的注意力机制,旨在提高Transformer模型在处理长序列或多模态数据时的效率和性能。以下是对其的简单形象解释: MLA的核心思想 MLA结合了多头注意力(MHA)和潜在表示学习。它通过将高维输入映射到低维潜 阅读全文

posted @ 2025-02-10 19:54 ExplorerMan 阅读(664) 评论(0) 推荐(0)

大模型MoE

摘要: MoE(Mixture of Experts,混合专家模型)是一种新型的大模型架构,其核心思想是“术业有专攻”,通过多个“专家”模型共同协作来处理复杂的任务。以下是一个简单形象的解释: 1. MoE的核心组成 专家(Experts):MoE模型由多个独立的子模型组成,每个子模型被称为一个“专家”。这 阅读全文

posted @ 2025-02-10 19:49 ExplorerMan 阅读(165) 评论(0) 推荐(0)

大模型Attention

摘要: 用一个简单形象的例子来理解大模型中的Attention(注意力机制)。 1. 什么是Attention? 想象一下,你正在读一篇很长的文章。文章里有很多内容,但你可能只对其中一部分特别感兴趣,比如一个关键的情节或者一个重要的观点。你的大脑会自然地把注意力集中在这些重要的部分,而对其他部分的关注度会相 阅读全文

posted @ 2025-02-10 19:43 ExplorerMan 阅读(116) 评论(0) 推荐(0)

统一视角看 Attention 与 MoE

摘要: 注: 本文 原始 idea 来自于香港大学(HKU) 黄毅老师 (主页: Ngai Wong), 与本人共同讨论, 形成此文. Update: 简易版报告在我主页, 可以访问 https://wutaiqiang.github.io/pdf/Unified_view_for_Attention_an 阅读全文

posted @ 2025-02-10 19:34 ExplorerMan 阅读(99) 评论(0) 推荐(0)

导航