上一页 1 2 3 4 5 6 ··· 21 下一页
摘要: 1. 阅读前提 本次课一共讲解三个不同版本的 MOE,分别是基础版MOE,大模型训练用的 SparseMoE,还有 DeepSeek 用的比较多的 shared_expert 的 SparseMoE。 2. 版本1:基础版本MOE 输入是一个 Token, 输出是一个 Token Embedding 阅读全文
posted @ 2025-09-25 21:53 有何m不可 阅读(32) 评论(0) 推荐(0)
摘要: 1 Flash Attention算法原理 1.1 Flash Attention Step-by-Step 1.2 Native Softmax \( \text{softmax}(x_i) = \frac{e^{x_i}}{\sum_{k=1}^{N} e^{x_k}} \) torch标准实现 阅读全文
posted @ 2025-09-18 13:57 有何m不可 阅读(48) 评论(0) 推荐(0)
摘要: http://www.zh0ngtian.tech/posts/f6279a66.html FlashAttention 2 在 FlashAttention 的基础上进行了进一步的性能优化,其计算结果仍然是严格对齐的。本文仅包含对 FlashAttention 2 在前向推理上的优化,不包含反向传 阅读全文
posted @ 2025-09-17 19:30 有何m不可 阅读(198) 评论(0) 推荐(0)
摘要: 转自:https://zhuanlan.zhihu.com/p/721973285 Flash Attention 并没有减少 Attention 的计算量,也不影响精度,但是却比标准的Attention运算快 2~4 倍的运行速度,减少了 5~20 倍的内存使用量。究竟是怎么实现的呢? Atten 阅读全文
posted @ 2025-09-17 13:31 有何m不可 阅读(171) 评论(0) 推荐(0)
摘要: 转自:https://zhuanlan.zhihu.com/p/650469278 Transformer 模型在处理序列数据时,其自注意力机制使得模型能够全局地捕捉不同元素之间的依赖关系,但这样做的代价是丧失了序列中的元素顺序信息。由于自注意力机制并不考虑元素在序列中的位置,所以在输入序列的任何置 阅读全文
posted @ 2025-09-13 14:17 有何m不可 阅读(75) 评论(0) 推荐(0)
摘要: 一、Transformer位置编码问题 Transformer的自注意力机制本质上是一种基于内容相似度的匹配操作,其核心计算过程与词序无关。给定输入序列中任意两个词元 token,其注意力分数仅依赖于它们的语义相关性,而与它们在序列中的绝对或相对位置无关。具体表现为: 1. 查询-键相关性计算: 通 阅读全文
posted @ 2025-09-13 12:07 有何m不可 阅读(33) 评论(0) 推荐(0)
摘要: RoPE(Rotary Position Embedding)选择用复数乘法实现旋转,核心原因是复数运算的天然旋转特性与工程实现的高效性完美适配了位置编码的需求,具体可以从以下几个角度理解: 1. 复数乘法天然对应 “旋转” 的几何意义 复数在复平面上的乘法运算,本质就是 “旋转 + 缩放”。对于复 阅读全文
posted @ 2025-09-13 11:14 有何m不可 阅读(36) 评论(0) 推荐(0)
摘要: 实际训练中Deepspeed参数配置ZeRO各stage含义是什么,offload以及gradient checkpoint是如何起作用的,本篇基于ZeRO不同stage含义,以及实践时参数含义来阐述Deepspeed原理。 这几天在做大模型的微调,发现几乎所有都用到了deepspeed,这里给大家 阅读全文
posted @ 2025-09-12 10:57 有何m不可 阅读(311) 评论(0) 推荐(1)
摘要: 1. RoPE 背景与复数形式引入在自然语言处理领域,Transformer 架构凭借自注意力机制成为主流模型,但该架构本身不具备捕捉序列顺序信息的能力,因此位置编码是不可或缺的组成部分。传统位置编码方法如绝对位置编码和相对位置编码存在一定局限性,例如绝对位置编码难以建模长距离依赖,相对位置编码在处 阅读全文
posted @ 2025-09-02 13:57 有何m不可 阅读(55) 评论(0) 推荐(0)
摘要: 转自:https://www.zhihu.com/tardis/bd/art/647109286 1. 旋转编码 RoPE 1.1 基本概念 在介绍 RoPE 之前,先给出一些符号定义,以及基本背景。 首先定义一个长度为 的输入序列为: 其中 表示输入序列中第 个 token,而输入序列 对应的 e 阅读全文
posted @ 2025-09-02 12:10 有何m不可 阅读(310) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 ··· 21 下一页