会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
gongzb
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
···
21
下一页
2025年9月25日
LLM MOE的进化之路
摘要: 1. 阅读前提 本次课一共讲解三个不同版本的 MOE,分别是基础版MOE,大模型训练用的 SparseMoE,还有 DeepSeek 用的比较多的 shared_expert 的 SparseMoE。 2. 版本1:基础版本MOE 输入是一个 Token, 输出是一个 Token Embedding
阅读全文
posted @ 2025-09-25 21:53 有何m不可
阅读(32)
评论(0)
推荐(0)
2025年9月18日
Flash Attenion算法原理
摘要: 1 Flash Attention算法原理 1.1 Flash Attention Step-by-Step 1.2 Native Softmax \( \text{softmax}(x_i) = \frac{e^{x_i}}{\sum_{k=1}^{N} e^{x_k}} \) torch标准实现
阅读全文
posted @ 2025-09-18 13:57 有何m不可
阅读(48)
评论(0)
推荐(0)
2025年9月17日
FlashAttention v1,v2, v3的优化
摘要: http://www.zh0ngtian.tech/posts/f6279a66.html FlashAttention 2 在 FlashAttention 的基础上进行了进一步的性能优化,其计算结果仍然是严格对齐的。本文仅包含对 FlashAttention 2 在前向推理上的优化,不包含反向传
阅读全文
posted @ 2025-09-17 19:30 有何m不可
阅读(198)
评论(0)
推荐(0)
Flash Attention是怎么做到又快又省显存的?
摘要: 转自:https://zhuanlan.zhihu.com/p/721973285 Flash Attention 并没有减少 Attention 的计算量,也不影响精度,但是却比标准的Attention运算快 2~4 倍的运行速度,减少了 5~20 倍的内存使用量。究竟是怎么实现的呢? Atten
阅读全文
posted @ 2025-09-17 13:31 有何m不可
阅读(171)
评论(0)
推荐(0)
2025年9月13日
大模型基础|位置编码|RoPE|ALiBi
摘要: 转自:https://zhuanlan.zhihu.com/p/650469278 Transformer 模型在处理序列数据时,其自注意力机制使得模型能够全局地捕捉不同元素之间的依赖关系,但这样做的代价是丧失了序列中的元素顺序信息。由于自注意力机制并不考虑元素在序列中的位置,所以在输入序列的任何置
阅读全文
posted @ 2025-09-13 14:17 有何m不可
阅读(75)
评论(0)
推荐(0)
基于Transformer的预训练大语言模型,如何区分文本位置?
摘要: 一、Transformer位置编码问题 Transformer的自注意力机制本质上是一种基于内容相似度的匹配操作,其核心计算过程与词序无关。给定输入序列中任意两个词元 token,其注意力分数仅依赖于它们的语义相关性,而与它们在序列中的绝对或相对位置无关。具体表现为: 1. 查询-键相关性计算: 通
阅读全文
posted @ 2025-09-13 12:07 有何m不可
阅读(33)
评论(0)
推荐(0)
RoPE使用复数乘法的原因
摘要: RoPE(Rotary Position Embedding)选择用复数乘法实现旋转,核心原因是复数运算的天然旋转特性与工程实现的高效性完美适配了位置编码的需求,具体可以从以下几个角度理解: 1. 复数乘法天然对应 “旋转” 的几何意义 复数在复平面上的乘法运算,本质就是 “旋转 + 缩放”。对于复
阅读全文
posted @ 2025-09-13 11:14 有何m不可
阅读(36)
评论(0)
推荐(0)
2025年9月12日
一文看懂DeepSpeed:用ZeRO训练大模型原理解析及参数含义解释
摘要: 实际训练中Deepspeed参数配置ZeRO各stage含义是什么,offload以及gradient checkpoint是如何起作用的,本篇基于ZeRO不同stage含义,以及实践时参数含义来阐述Deepspeed原理。 这几天在做大模型的微调,发现几乎所有都用到了deepspeed,这里给大家
阅读全文
posted @ 2025-09-12 10:57 有何m不可
阅读(311)
评论(0)
推荐(1)
2025年9月2日
Transformer数学推导——Q38 旋转位置编码(RoPE)的复数形式 对注意力分数的几何影响分析
摘要: 1. RoPE 背景与复数形式引入在自然语言处理领域,Transformer 架构凭借自注意力机制成为主流模型,但该架构本身不具备捕捉序列顺序信息的能力,因此位置编码是不可或缺的组成部分。传统位置编码方法如绝对位置编码和相对位置编码存在一定局限性,例如绝对位置编码难以建模长距离依赖,相对位置编码在处
阅读全文
posted @ 2025-09-02 13:57 有何m不可
阅读(55)
评论(0)
推荐(0)
十分钟读懂旋转编码(RoPE)
摘要: 转自:https://www.zhihu.com/tardis/bd/art/647109286 1. 旋转编码 RoPE 1.1 基本概念 在介绍 RoPE 之前,先给出一些符号定义,以及基本背景。 首先定义一个长度为 的输入序列为: 其中 表示输入序列中第 个 token,而输入序列 对应的 e
阅读全文
posted @ 2025-09-02 12:10 有何m不可
阅读(310)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
···
21
下一页
公告