2025 年 2月 10 日随笔档案 - ExplorerMan

多头潜在注意力MLA

摘要：多头潜在注意力（Multi-Head Latent Attention，MLA）是一种改进的注意力机制，旨在提高Transformer模型在处理长序列或多模态数据时的效率和性能。以下是对其的简单形象解释： MLA的核心思想 MLA结合了多头注意力（MHA）和潜在表示学习。它通过将高维输入映射到低维潜阅读全文

posted @ 2025-02-10 19:54 ExplorerMan 阅读(664) 评论(0) 推荐(0)

大模型MoE

摘要： MoE（Mixture of Experts，混合专家模型）是一种新型的大模型架构，其核心思想是“术业有专攻”，通过多个“专家”模型共同协作来处理复杂的任务。以下是一个简单形象的解释： 1. MoE的核心组成专家（Experts）：MoE模型由多个独立的子模型组成，每个子模型被称为一个“专家”。这阅读全文

posted @ 2025-02-10 19:49 ExplorerMan 阅读(165) 评论(0) 推荐(0)

大模型Attention

摘要：用一个简单形象的例子来理解大模型中的Attention（注意力机制）。 1. 什么是Attention？想象一下，你正在读一篇很长的文章。文章里有很多内容，但你可能只对其中一部分特别感兴趣，比如一个关键的情节或者一个重要的观点。你的大脑会自然地把注意力集中在这些重要的部分，而对其他部分的关注度会相阅读全文

posted @ 2025-02-10 19:43 ExplorerMan 阅读(116) 评论(0) 推荐(0)

统一视角看 Attention 与 MoE

摘要：注: 本文原始 idea 来自于香港大学(HKU) 黄毅老师 (主页: Ngai Wong), 与本人共同讨论, 形成此文. Update: 简易版报告在我主页, 可以访问 https://wutaiqiang.github.io/pdf/Unified_view_for_Attention_an 阅读全文

posted @ 2025-02-10 19:34 ExplorerMan 阅读(99) 评论(0) 推荐(0)

ExplorerMan

多头潜在注意力MLA

大模型MoE

大模型Attention

统一视角看 Attention 与 MoE

导航

公告