茴香豆的茴

2026年4月7日

摘要：前置知识：嵌入层和位置编码、编码器的实现、解码器和输出部分的实现。之前的文章已经把构建 Transformer 所需的所有组件构建完了，这篇文章开始构建整个编码器-解码器结构。 1 编码器-解码器的代码实现 class EncoderDecoder(nn.Module): def __init__ 阅读全文

posted @ 2026-04-07 16:10 茴香豆的茴阅读(164) 评论(0) 推荐(0)

2026年4月5日

手撕 Transformer (4)：解码器和输出部分的实现

摘要：我们在《Transformer的结构拆解》那篇文章中介绍过，Transformer 可以分为四个部分：输入、输出、编码器、解码器。上篇文章介绍了编码器的实现，这篇文章介绍一下解码器的实现。我们回顾一下 Transformer 的解码器的构成。它由 N 个解码器层堆叠而成，每个解码器层由三个子层连接阅读全文

posted @ 2026-04-05 09:45 茴香豆的茴阅读(63) 评论(0) 推荐(0)

2026年4月4日

手撕 Transformer (3)：编码器的实现

摘要：我们在结构拆解那篇文章中讲过，Transformer 可分为四个部分：输入、输出、编码器、解码器。上篇文章介绍了输入部分的代码实现和原理讲解。本文介绍编码器部分的代码实现和原理讲解。回顾一下，我们之前介绍过 Transformer 的编码器。它由 N 个编码器层堆叠而成；每个编码器层由 2 个子层阅读全文

posted @ 2026-04-04 11:06 茴香豆的茴阅读(165) 评论(0) 推荐(1)

2026年4月2日

手撕 Transformer (2)：嵌入层和位置编码的实现

摘要：本文详细讲解了Transformer输入部分的实现，包括嵌入层和位置编码。嵌入层将词汇数字表示转换为向量表示，并通过乘以$\sqrt{d_{model}}$来放大信号。位置编码为并行处理的Transformer补充顺序信息，与嵌入向量相加后输入模型。文章通过PyTorch代码演示了嵌入层的实现细节，包括随机初始化、训练更新机制以及填充处理(padding_idx)。同时解释了位置编码的必要性，指出其用于解决Transformer因并行处理而缺乏顺序感知的问题。阅读全文

posted @ 2026-04-02 09:08 茴香豆的茴阅读(263) 评论(1) 推荐(1)

2026年3月31日

手撕 Transformer (1)：Transformer 的结构拆解

摘要：本文拆解了Transformer模型的基本结构，将其分为四个主要部分：输入部分（包含文本嵌入层和位置编码）、输出部分（由Linear和Softmax组成）、编码器（N个编码器层，含多头自注意力和前馈网络）和解码器（N个解码器层，含掩码自注意力、交叉注意力和前馈网络）。文章着重于结构解析，后续将详细说明各部分功能，并提供了系列文章的链接地址供读者深入阅读。阅读全文

posted @ 2026-03-31 21:00 茴香豆的茴阅读(138) 评论(0) 推荐(0)

2026年3月30日

Transformer 掩码张量全解析：从核心作用到代码实现

摘要：掩码(Mask)是 Transformer 能正确工作的核心机制之一。它用来控制哪些位置可以被注意力看到。Transformer 中有两种典型掩码：填充掩码(Padding Mask)和未来信息掩码(Subsequent Mask)。Transformer 中使用填充掩码和未来信息掩码的位置（注意力阅读全文

posted @ 2026-03-30 09:48 茴香豆的茴阅读(145) 评论(0) 推荐(0)

2026年3月13日

浅谈正余弦位置编码的数学原理

摘要： Transformer的位置编码采用正余弦函数形式，通过不同频率的正弦波叠加实现多尺度位置表示。设计目标包括唯一性、相对位置线性可表示性和多尺度编码。频率按维度指数衰减（底数10000为经验值），偶数维用正弦、奇数维用余弦，形成对称表示。这种编码既能区分绝对位置，又便于学习相对位置关系，是Transformer处理序列顺序的关键机制。阅读全文

posted @ 2026-03-13 21:38 茴香豆的茴阅读(237) 评论(0) 推荐(0)

2026年3月1日

转码刷 LeetCode 笔记[3]：151. 反转字符串中的单词（Python）

摘要：

反转字符串中的单词是经典的字符串操作问题，常规解法（如" ".join(reversed(s.split()))）虽能通过测试，但额外空间复杂度为 O (N)，无法满足 “O (1) 额外空间复杂度下原地操作” 的进阶要求。本文将拆解 “原地反转单词” 的核心思路 —— 先去除字符串中多余空格，再整体反转字符串，最后逐个反转单词内部字符，并通过快慢指针、双指针等核心技巧，详细分析实现过程中易踩坑的细节，最终给出符合进阶要求的完整原地解法。阅读全文

posted @ 2026-03-01 15:20 茴香豆的茴阅读(24) 评论(0) 推荐(0)

2024年12月15日

反复出现 idf.py: command not found 的解决办法

摘要：使用ESP-IDF时不用反复安装编译链、设置环境，而用 get_idf 命令代替之。阅读全文

posted @ 2024-12-15 19:39 茴香豆的茴阅读(1388) 评论(0) 推荐(0)

2024年9月3日

解决No module named 'triton'的问题

摘要：问题描述：在Windows系统中，pip install triton时会报错： ERROR: Could not find a version that satisfies the requirement triton (from versions: none) ERROR: No matchi 阅读全文

posted @ 2024-09-03 17:09 茴香豆的茴阅读(6782) 评论(0) 推荐(0)

公告