1 2 3 4 5 ··· 20 下一页
摘要: MOE是Mixture of Experts的缩写,也就是混合专家模型。 在预训练一个大模型时,如果你首先设定一个期望损失,也就设定你期望的模型表现效果,那么增大模型的参数量,在达到相同的期望效果时,花费的训练代价会更少,但是在推理阶段时,更大参数量的模型花费会更大。训练只有一次,但是推理是无数次的 阅读全文
posted @ 2025-10-21 17:22 有何m不可 阅读(21) 评论(0) 推荐(0)
摘要: 一、前言 有很多人会很困惑,LLM大语言模型到底能做啥?除了聊天以外,还能给我们带来什么价值? 首先要回答这个问题,我们先要了解transform能做啥? 二、Transformer模型 2.1 起源与发展 2017 年 Google 在《Attention Is All You Need》中提出了 阅读全文
posted @ 2025-10-18 11:10 有何m不可 阅读(25) 评论(0) 推荐(0)
摘要: 一、引言 一个非常朴素的直觉是: 词嵌入是语义,位置编码是词的位置。这两者本身是不同的量纲,就跟身高和体重一样,他们之间有关系,而且我们可以找到他们之间的关系,比如BMI,但是直接把身高(cm)和体重(kg)加起来,就很奇怪了。 所以在回答这个问题之前,我们必须先看看‘位置’这个信息是如何被编码的。 阅读全文
posted @ 2025-10-03 19:25 有何m不可 阅读(21) 评论(0) 推荐(0)
摘要: 在深度学习领域,注意力机制(Attention Mechanism)自诞生以来便成为推动自然语言处理和计算机视觉等任务发展的核心动力。从最初的多头注意力(MHA)到如今的高效变体,如多查询注意力(MQA)、分组查询注意力(GQA)和多层注意力(MLA),注意力机制不断演进,旨在解决计算效率、内存占用 阅读全文
posted @ 2025-09-27 16:48 有何m不可 阅读(249) 评论(0) 推荐(0)
摘要: LLM中下一个token预测 Transformer 生成隐藏状态 Transformer 为所有 token 生成隐藏状态。 隐藏状态被投射到词汇空间。 最后一个 token 的 logits 用于生成下一个 token。 生成新 token 的输出 要生成新 token,我们只需要最新 toke 阅读全文
posted @ 2025-09-27 16:38 有何m不可 阅读(194) 评论(0) 推荐(0)
摘要: SwiGLU 作为一种高效的激活函数,近几年已被广泛应用于许多 LLM 中,例如 Llama 系列、DeepSeek LLM 和 Qwen 1.5 等。在了解 SwiGLU 之前,需要先了解它的几个重要 “前身”,即 Swish、SiLU 和 GLU 激活函数。 Swish Swish 激活函数是由 阅读全文
posted @ 2025-09-25 22:22 有何m不可 阅读(62) 评论(0) 推荐(0)
摘要: 1. 阅读前提 本次课一共讲解三个不同版本的 MOE,分别是基础版MOE,大模型训练用的 SparseMoE,还有 DeepSeek 用的比较多的 shared_expert 的 SparseMoE。 2. 版本1:基础版本MOE 输入是一个 Token, 输出是一个 Token Embedding 阅读全文
posted @ 2025-09-25 21:53 有何m不可 阅读(16) 评论(0) 推荐(0)
摘要: 1 Flash Attention算法原理 1.1 Flash Attention Step-by-Step 1.2 Native Softmax \( \text{softmax}(x_i) = \frac{e^{x_i}}{\sum_{k=1}^{N} e^{x_k}} \) torch标准实现 阅读全文
posted @ 2025-09-18 13:57 有何m不可 阅读(31) 评论(0) 推荐(0)
摘要: http://www.zh0ngtian.tech/posts/f6279a66.html FlashAttention 2 在 FlashAttention 的基础上进行了进一步的性能优化,其计算结果仍然是严格对齐的。本文仅包含对 FlashAttention 2 在前向推理上的优化,不包含反向传 阅读全文
posted @ 2025-09-17 19:30 有何m不可 阅读(89) 评论(0) 推荐(0)
摘要: 转自:https://zhuanlan.zhihu.com/p/721973285 Flash Attention 并没有减少 Attention 的计算量,也不影响精度,但是却比标准的Attention运算快 2~4 倍的运行速度,减少了 5~20 倍的内存使用量。究竟是怎么实现的呢? Atten 阅读全文
posted @ 2025-09-17 13:31 有何m不可 阅读(130) 评论(0) 推荐(0)
1 2 3 4 5 ··· 20 下一页