会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
gongzb
博客园
首页
新随笔
联系
订阅
管理
1
2
3
4
5
···
20
下一页
2025年10月21日
DeepSeek-MOE原理讲解
摘要: MOE是Mixture of Experts的缩写,也就是混合专家模型。 在预训练一个大模型时,如果你首先设定一个期望损失,也就设定你期望的模型表现效果,那么增大模型的参数量,在达到相同的期望效果时,花费的训练代价会更少,但是在推理阶段时,更大参数量的模型花费会更大。训练只有一次,但是推理是无数次的
阅读全文
posted @ 2025-10-21 17:22 有何m不可
阅读(21)
评论(0)
推荐(0)
2025年10月18日
LLM大语言模型到底能做啥?
摘要: 一、前言 有很多人会很困惑,LLM大语言模型到底能做啥?除了聊天以外,还能给我们带来什么价值? 首先要回答这个问题,我们先要了解transform能做啥? 二、Transformer模型 2.1 起源与发展 2017 年 Google 在《Attention Is All You Need》中提出了
阅读全文
posted @ 2025-10-18 11:10 有何m不可
阅读(25)
评论(0)
推荐(0)
2025年10月3日
为什么词嵌入可以和位置编码相加
摘要: 一、引言 一个非常朴素的直觉是: 词嵌入是语义,位置编码是词的位置。这两者本身是不同的量纲,就跟身高和体重一样,他们之间有关系,而且我们可以找到他们之间的关系,比如BMI,但是直接把身高(cm)和体重(kg)加起来,就很奇怪了。 所以在回答这个问题之前,我们必须先看看‘位置’这个信息是如何被编码的。
阅读全文
posted @ 2025-10-03 19:25 有何m不可
阅读(21)
评论(0)
推荐(0)
2025年9月27日
Attention进阶史(MHA, MQA, GQA, MLA)
摘要: 在深度学习领域,注意力机制(Attention Mechanism)自诞生以来便成为推动自然语言处理和计算机视觉等任务发展的核心动力。从最初的多头注意力(MHA)到如今的高效变体,如多查询注意力(MQA)、分组查询注意力(GQA)和多层注意力(MLA),注意力机制不断演进,旨在解决计算效率、内存占用
阅读全文
posted @ 2025-09-27 16:48 有何m不可
阅读(249)
评论(0)
推荐(0)
图解KV Cache
摘要: LLM中下一个token预测 Transformer 生成隐藏状态 Transformer 为所有 token 生成隐藏状态。 隐藏状态被投射到词汇空间。 最后一个 token 的 logits 用于生成下一个 token。 生成新 token 的输出 要生成新 token,我们只需要最新 toke
阅读全文
posted @ 2025-09-27 16:38 有何m不可
阅读(194)
评论(0)
推荐(0)
2025年9月25日
拆解 LLM 中的 SwiGLU
摘要: SwiGLU 作为一种高效的激活函数,近几年已被广泛应用于许多 LLM 中,例如 Llama 系列、DeepSeek LLM 和 Qwen 1.5 等。在了解 SwiGLU 之前,需要先了解它的几个重要 “前身”,即 Swish、SiLU 和 GLU 激活函数。 Swish Swish 激活函数是由
阅读全文
posted @ 2025-09-25 22:22 有何m不可
阅读(62)
评论(0)
推荐(0)
LLM MOE的进化之路
摘要: 1. 阅读前提 本次课一共讲解三个不同版本的 MOE,分别是基础版MOE,大模型训练用的 SparseMoE,还有 DeepSeek 用的比较多的 shared_expert 的 SparseMoE。 2. 版本1:基础版本MOE 输入是一个 Token, 输出是一个 Token Embedding
阅读全文
posted @ 2025-09-25 21:53 有何m不可
阅读(16)
评论(0)
推荐(0)
2025年9月18日
Flash Attenion算法原理
摘要: 1 Flash Attention算法原理 1.1 Flash Attention Step-by-Step 1.2 Native Softmax \( \text{softmax}(x_i) = \frac{e^{x_i}}{\sum_{k=1}^{N} e^{x_k}} \) torch标准实现
阅读全文
posted @ 2025-09-18 13:57 有何m不可
阅读(31)
评论(0)
推荐(0)
2025年9月17日
FlashAttention v1,v2, v3的优化
摘要: http://www.zh0ngtian.tech/posts/f6279a66.html FlashAttention 2 在 FlashAttention 的基础上进行了进一步的性能优化,其计算结果仍然是严格对齐的。本文仅包含对 FlashAttention 2 在前向推理上的优化,不包含反向传
阅读全文
posted @ 2025-09-17 19:30 有何m不可
阅读(89)
评论(0)
推荐(0)
Flash Attention是怎么做到又快又省显存的?
摘要: 转自:https://zhuanlan.zhihu.com/p/721973285 Flash Attention 并没有减少 Attention 的计算量,也不影响精度,但是却比标准的Attention运算快 2~4 倍的运行速度,减少了 5~20 倍的内存使用量。究竟是怎么实现的呢? Atten
阅读全文
posted @ 2025-09-17 13:31 有何m不可
阅读(130)
评论(0)
推荐(0)
1
2
3
4
5
···
20
下一页
公告