会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
gongzb
博客园
首页
新随笔
联系
订阅
管理
2025年11月30日
DeepSeekMath-V2解读
摘要: 1. 总结 DeepSeekMath-V2 是 DeepSeek-AI 开发的、面向自验证数学推理的大语言模型,它针对传统基于最终答案奖励的强化学习(RL)在数学推理中存在 “正确答案不代表正确推理” 及 “无法适用于定理证明” 的局限,通过训练LLM-based 验证器(含元验证机制以减少虚假问题
阅读全文
posted @ 2025-11-30 12:07 有何m不可
阅读(50)
评论(0)
推荐(0)
2025年11月3日
十分钟读懂 Deepseek MTP(Multi-Token Prediction)
摘要: 传统的大语言模型采用的训练目标是 Next-Token Prediction (NTP),即在位置 t 上预测下一个 token (t+1)。而 Multi-Token Prediction (MTP) 的核心思想在于: 不仅预测下一个 token,而是能够同时预测多个未来的 token。 这种方式
阅读全文
posted @ 2025-11-03 14:12 有何m不可
阅读(175)
评论(0)
推荐(0)
2025年10月27日
DeepSeek-DSA讲解
摘要: 1. MQA: Multi-Query Attention 多查询注意力机制 (MQA) 是 Transformer 中使用的传统多头自注意力机制(MHA)的一种变体。在传统的多头注意力机制中,每个注意力头都使用自己的一组查询、键和值,这可能需要大量计算,尤其是在注意力头数量增加的情况下。MQA 通
阅读全文
posted @ 2025-10-27 22:30 有何m不可
阅读(66)
评论(0)
推荐(0)
MLA原理讲解
摘要: 多头潜在注意力机制 首先我们来回忆一下大模型生成时一个标准多头注意力机制,首先对于第一个token,它的特征向量为H,通过Query权重矩阵,Key权重矩阵和Value权重矩阵,分别得到这个token的Q向量、K向量和V向量。然后经过\(\text{softmax}\left( \frac{Q \c
阅读全文
posted @ 2025-10-27 22:10 有何m不可
阅读(51)
评论(0)
推荐(0)
2025年10月21日
DeepSeek-MOE原理讲解
摘要: MOE是Mixture of Experts的缩写,也就是混合专家模型。 在预训练一个大模型时,如果你首先设定一个期望损失,也就设定你期望的模型表现效果,那么增大模型的参数量,在达到相同的期望效果时,花费的训练代价会更少,但是在推理阶段时,更大参数量的模型花费会更大。训练只有一次,但是推理是无数次的
阅读全文
posted @ 2025-10-21 17:22 有何m不可
阅读(58)
评论(0)
推荐(0)
2025年10月18日
LLM大语言模型到底能做啥?
摘要: 一、前言 有很多人会很困惑,LLM大语言模型到底能做啥?除了聊天以外,还能给我们带来什么价值? 首先要回答这个问题,我们先要了解transform能做啥? 二、Transformer模型 2.1 起源与发展 2017 年 Google 在《Attention Is All You Need》中提出了
阅读全文
posted @ 2025-10-18 11:10 有何m不可
阅读(42)
评论(0)
推荐(0)
2025年10月3日
为什么词嵌入可以和位置编码相加
摘要: 一、引言 一个非常朴素的直觉是: 词嵌入是语义,位置编码是词的位置。这两者本身是不同的量纲,就跟身高和体重一样,他们之间有关系,而且我们可以找到他们之间的关系,比如BMI,但是直接把身高(cm)和体重(kg)加起来,就很奇怪了。 所以在回答这个问题之前,我们必须先看看‘位置’这个信息是如何被编码的。
阅读全文
posted @ 2025-10-03 19:25 有何m不可
阅读(41)
评论(0)
推荐(0)
2025年9月27日
Attention进阶史(MHA, MQA, GQA, MLA)
摘要: 在深度学习领域,注意力机制(Attention Mechanism)自诞生以来便成为推动自然语言处理和计算机视觉等任务发展的核心动力。从最初的多头注意力(MHA)到如今的高效变体,如多查询注意力(MQA)、分组查询注意力(GQA)和多层注意力(MLA),注意力机制不断演进,旨在解决计算效率、内存占用
阅读全文
posted @ 2025-09-27 16:48 有何m不可
阅读(616)
评论(0)
推荐(0)
图解KV Cache
摘要: LLM中下一个token预测 Transformer 生成隐藏状态 Transformer 为所有 token 生成隐藏状态。 隐藏状态被投射到词汇空间。 最后一个 token 的 logits 用于生成下一个 token。 生成新 token 的输出 要生成新 token,我们只需要最新 toke
阅读全文
posted @ 2025-09-27 16:38 有何m不可
阅读(299)
评论(0)
推荐(0)
2025年9月25日
拆解 LLM 中的 SwiGLU
摘要: SwiGLU 作为一种高效的激活函数,近几年已被广泛应用于许多 LLM 中,例如 Llama 系列、DeepSeek LLM 和 Qwen 1.5 等。在了解 SwiGLU 之前,需要先了解它的几个重要 “前身”,即 Swish、SiLU 和 GLU 激活函数。 Swish Swish 激活函数是由
阅读全文
posted @ 2025-09-25 22:22 有何m不可
阅读(183)
评论(0)
推荐(0)
下一页
公告