有何m不可 - 博客园

2025年10月27日

摘要： 1. MQA: Multi-Query Attention 多查询注意力机制 (MQA) 是 Transformer 中使用的传统多头自注意力机制(MHA)的一种变体。在传统的多头注意力机制中，每个注意力头都使用自己的一组查询、键和值，这可能需要大量计算，尤其是在注意力头数量增加的情况下。MQA 通阅读全文

posted @ 2025-10-27 22:30 有何m不可阅读(5) 评论(0) 推荐(0)

MLA原理讲解

摘要：多头潜在注意力机制首先我们来回忆一下大模型生成时一个标准多头注意力机制，首先对于第一个token，它的特征向量为H，通过Query权重矩阵，Key权重矩阵和Value权重矩阵，分别得到这个token的Q向量、K向量和V向量。然后经过\(\text{softmax}\left( \frac{Q \c 阅读全文

posted @ 2025-10-27 22:10 有何m不可阅读(11) 评论(0) 推荐(0)

2025年10月21日

DeepSeek-MOE原理讲解

摘要： MOE是Mixture of Experts的缩写，也就是混合专家模型。在预训练一个大模型时，如果你首先设定一个期望损失，也就设定你期望的模型表现效果，那么增大模型的参数量，在达到相同的期望效果时，花费的训练代价会更少，但是在推理阶段时，更大参数量的模型花费会更大。训练只有一次，但是推理是无数次的阅读全文

posted @ 2025-10-21 17:22 有何m不可阅读(37) 评论(0) 推荐(0)

2025年10月18日

LLM大语言模型到底能做啥？

摘要：一、前言有很多人会很困惑，LLM大语言模型到底能做啥？除了聊天以外，还能给我们带来什么价值？首先要回答这个问题，我们先要了解transform能做啥？二、Transformer模型 2.1 起源与发展 2017 年 Google 在《Attention Is All You Need》中提出了阅读全文

posted @ 2025-10-18 11:10 有何m不可阅读(25) 评论(0) 推荐(0)

2025年10月3日

为什么词嵌入可以和位置编码相加

摘要：一、引言一个非常朴素的直觉是：词嵌入是语义，位置编码是词的位置。这两者本身是不同的量纲，就跟身高和体重一样，他们之间有关系，而且我们可以找到他们之间的关系，比如BMI，但是直接把身高（cm）和体重（kg）加起来，就很奇怪了。所以在回答这个问题之前，我们必须先看看‘位置’这个信息是如何被编码的。阅读全文

posted @ 2025-10-03 19:25 有何m不可阅读(23) 评论(0) 推荐(0)

2025年9月27日

Attention进阶史（MHA, MQA, GQA, MLA）

摘要：在深度学习领域，注意力机制（Attention Mechanism）自诞生以来便成为推动自然语言处理和计算机视觉等任务发展的核心动力。从最初的多头注意力（MHA）到如今的高效变体，如多查询注意力（MQA）、分组查询注意力（GQA）和多层注意力（MLA），注意力机制不断演进，旨在解决计算效率、内存占用阅读全文

posted @ 2025-09-27 16:48 有何m不可阅读(286) 评论(0) 推荐(0)

图解KV Cache

摘要： LLM中下一个token预测 Transformer 生成隐藏状态 Transformer 为所有 token 生成隐藏状态。隐藏状态被投射到词汇空间。最后一个 token 的 logits 用于生成下一个 token。生成新 token 的输出要生成新 token，我们只需要最新 toke 阅读全文

posted @ 2025-09-27 16:38 有何m不可阅读(206) 评论(0) 推荐(0)

2025年9月25日

拆解 LLM 中的 SwiGLU

摘要： SwiGLU 作为一种高效的激活函数，近几年已被广泛应用于许多 LLM 中，例如 Llama 系列、DeepSeek LLM 和 Qwen 1.5 等。在了解 SwiGLU 之前，需要先了解它的几个重要 “前身”，即 Swish、SiLU 和 GLU 激活函数。 Swish Swish 激活函数是由阅读全文

posted @ 2025-09-25 22:22 有何m不可阅读(67) 评论(0) 推荐(0)

LLM MOE的进化之路

摘要： 1. 阅读前提本次课一共讲解三个不同版本的 MOE，分别是基础版MOE，大模型训练用的 SparseMoE，还有 DeepSeek 用的比较多的 shared_expert 的 SparseMoE。 2. 版本1：基础版本MOE 输入是一个 Token, 输出是一个 Token Embedding 阅读全文

posted @ 2025-09-25 21:53 有何m不可阅读(16) 评论(0) 推荐(0)

2025年9月18日

Flash Attenion算法原理

摘要： 1 Flash Attention算法原理 1.1 Flash Attention Step-by-Step 1.2 Native Softmax \( \text{softmax}(x_i) = \frac{e^{x_i}}{\sum_{k=1}^{N} e^{x_k}} \) torch标准实现阅读全文

posted @ 2025-09-18 13:57 有何m不可阅读(33) 评论(0) 推荐(0)

gongzb

公告