有何m不可 - 博客园

2025年9月25日

摘要： 1. 阅读前提本次课一共讲解三个不同版本的 MOE，分别是基础版MOE，大模型训练用的 SparseMoE，还有 DeepSeek 用的比较多的 shared_expert 的 SparseMoE。 2. 版本1：基础版本MOE 输入是一个 Token, 输出是一个 Token Embedding 阅读全文

posted @ 2025-09-25 21:53 有何m不可阅读(43) 评论(0) 推荐(0)

2025年9月18日

Flash Attenion算法原理

摘要： 1 Flash Attention算法原理 1.1 Flash Attention Step-by-Step 1.2 Native Softmax \( \text{softmax}(x_i) = \frac{e^{x_i}}{\sum_{k=1}^{N} e^{x_k}} \) torch标准实现阅读全文

posted @ 2025-09-18 13:57 有何m不可阅读(68) 评论(0) 推荐(0)

2025年9月17日

FlashAttention v1,v2, v3的优化

摘要： http://www.zh0ngtian.tech/posts/f6279a66.html FlashAttention 2 在 FlashAttention 的基础上进行了进一步的性能优化，其计算结果仍然是严格对齐的。本文仅包含对 FlashAttention 2 在前向推理上的优化，不包含反向传阅读全文

posted @ 2025-09-17 19:30 有何m不可阅读(288) 评论(0) 推荐(0)

Flash Attention是怎么做到又快又省显存的？

摘要：转自：https://zhuanlan.zhihu.com/p/721973285 Flash Attention 并没有减少 Attention 的计算量，也不影响精度，但是却比标准的Attention运算快 2~4 倍的运行速度，减少了 5~20 倍的内存使用量。究竟是怎么实现的呢？ Atten 阅读全文

posted @ 2025-09-17 13:31 有何m不可阅读(190) 评论(0) 推荐(0)

2025年9月13日

大模型基础｜位置编码｜RoPE｜ALiBi

摘要：转自：https://zhuanlan.zhihu.com/p/650469278 Transformer 模型在处理序列数据时，其自注意力机制使得模型能够全局地捕捉不同元素之间的依赖关系，但这样做的代价是丧失了序列中的元素顺序信息。由于自注意力机制并不考虑元素在序列中的位置，所以在输入序列的任何置阅读全文

posted @ 2025-09-13 14:17 有何m不可阅读(90) 评论(0) 推荐(0)

基于Transformer的预训练大语言模型，如何区分文本位置？

摘要：一、Transformer位置编码问题 Transformer的自注意力机制本质上是一种基于内容相似度的匹配操作，其核心计算过程与词序无关。给定输入序列中任意两个词元 token，其注意力分数仅依赖于它们的语义相关性，而与它们在序列中的绝对或相对位置无关。具体表现为： 1. 查询-键相关性计算：通阅读全文

posted @ 2025-09-13 12:07 有何m不可阅读(44) 评论(0) 推荐(0)

RoPE使用复数乘法的原因

摘要： RoPE（Rotary Position Embedding）选择用复数乘法实现旋转，核心原因是复数运算的天然旋转特性与工程实现的高效性完美适配了位置编码的需求，具体可以从以下几个角度理解： 1. 复数乘法天然对应 “旋转” 的几何意义复数在复平面上的乘法运算，本质就是 “旋转 + 缩放”。对于复阅读全文

posted @ 2025-09-13 11:14 有何m不可阅读(40) 评论(0) 推荐(0)

2025年9月12日

一文看懂DeepSpeed：用ZeRO训练大模型原理解析及参数含义解释

摘要：实际训练中Deepspeed参数配置ZeRO各stage含义是什么，offload以及gradient checkpoint是如何起作用的，本篇基于ZeRO不同stage含义，以及实践时参数含义来阐述Deepspeed原理。这几天在做大模型的微调，发现几乎所有都用到了deepspeed，这里给大家阅读全文

posted @ 2025-09-12 10:57 有何m不可阅读(423) 评论(0) 推荐(1)

2025年9月2日

Transformer数学推导——Q38 旋转位置编码（RoPE）的复数形式对注意力分数的几何影响分析

摘要： 1. RoPE 背景与复数形式引入在自然语言处理领域，Transformer 架构凭借自注意力机制成为主流模型，但该架构本身不具备捕捉序列顺序信息的能力，因此位置编码是不可或缺的组成部分。传统位置编码方法如绝对位置编码和相对位置编码存在一定局限性，例如绝对位置编码难以建模长距离依赖，相对位置编码在处阅读全文

posted @ 2025-09-02 13:57 有何m不可阅读(83) 评论(0) 推荐(0)

十分钟读懂旋转编码（RoPE）

摘要：转自:https://www.zhihu.com/tardis/bd/art/647109286 1. 旋转编码 RoPE 1.1 基本概念在介绍 RoPE 之前，先给出一些符号定义，以及基本背景。首先定义一个长度为的输入序列为：其中表示输入序列中第个 token，而输入序列对应的 e 阅读全文

posted @ 2025-09-02 12:10 有何m不可阅读(371) 评论(0) 推荐(0)

gongzb

公告