摘要: 注意力评分函数(Attention Scoring Function) 注意力机制的核心在于根据查询(query)和键(key)之间的关系,计算出每个值(value)对应的注意力权重,然后使用这些权重对值进行加权求和,得到最终的输出。 关键概念: 注意力权重: 通过注意力评分函数 $ a(\math 阅读全文
posted @ 2025-05-23 10:29 玉米面手雷王 阅读(46) 评论(0) 推荐(0)
摘要: 在 PyTorch 中,处理张量维度的操作是非常常见的。这里简要介绍如何增加和减少维度,以及 cat, stack, squeeze, 和 unsqueeze 的使用方法。 增加维度 unsqueeze: 在指定位置增加一个维度(即,将一维变为二维,二维变为三维等)。例如,有一个形状为 (2, 3) 阅读全文
posted @ 2025-05-23 09:44 玉米面手雷王 阅读(111) 评论(0) 推荐(0)
摘要: 🧪 1. 生成数据集 我们首先构造一个非线性回归问题: \[y_i = 2\sin(x_i) + x_i^{0.8} + \epsilon, \quad \epsilon \sim \mathcal{N}(0, 0.5) \]✅ 实现代码: import torch import matplotl 阅读全文
posted @ 2025-05-21 17:20 玉米面手雷王 阅读(36) 评论(0) 推荐(0)
摘要: 完整的 RNN 前向传播流程,包括: 输入的 one-hot 编码处理; 传入 RNN 模块; 使用全连接层(线性层)输出每个时间步对应的词表预测; 返回输出和最终的隐藏状态。 下面我们对这段代码逐行进行详细解释,并结合你之前的变量形状推导,帮助你理解每一步发生了什么。 📌 代码片段 X = F. 阅读全文
posted @ 2025-05-21 16:34 玉米面手雷王 阅读(34) 评论(0) 推荐(0)
摘要: 编码器-解码器架构 编码器 在编码器接口中,我们只指定长度可变的序列作为编码器的输入X。 任何继承这个Encoder基类的模型将完成代码实现。 from torch import nn #@save class Encoder(nn.Module): """编码器-解码器架构的基本编码器接口""" 阅读全文
posted @ 2025-05-20 18:01 玉米面手雷王 阅读(46) 评论(0) 推荐(0)
摘要: 不同采样方法的状态初始化 序列数据的两种采样方法(顺序分区和随机采样)会导致隐状态初始化逻辑的显著差异。 顺序分区(Sequential Partitioning) 隐状态初始化策略:仅在每个迭代周期的起始位置初始化隐状态。由于相邻小批量的子序列在时间上是连续的(如第i个小批量的最后一个样本与下一个 阅读全文
posted @ 2025-05-13 15:18 玉米面手雷王 阅读(40) 评论(0) 推荐(0)
摘要: 自回归模型与序列建模学习笔记 一、自回归模型(Autoregressive Models) 核心思想: 定义: 自回归模型是一种利用过去观测值来预测当前值的统计模型。 形式化表达: \(x_t = f(x_{t-1}, x_{t-2}, \ldots, x_1) + \epsilon_t\),其中 阅读全文
posted @ 2025-05-12 17:39 玉米面手雷王 阅读(58) 评论(0) 推荐(0)
摘要: 批量归一化(Batch Normalization)缓解梯度问题 批量归一化(Batch Normalization,简称BN)是深度学习中一个非常有效的技术,它通过规范化每一层的输入来加速训练,并帮助缓解梯度消失和梯度爆炸的问题。接下来,我会用通俗易懂的方式解释为什么批量归一化能做到这一点。 为什 阅读全文
posted @ 2025-05-08 17:29 玉米面手雷王 阅读(125) 评论(0) 推荐(0)
摘要: 我们来详细推导并计算卷积层的前向传播和反向传播在计算成本(乘法与加法次数)和内存占用方面的表达式。 📌 基本设定 输入尺寸:$ c_i \times h \times w $ 卷积核尺寸:$ c_o \times c_i \times k_h \times k_w $ 填充:$ (p_h, p_w 阅读全文
posted @ 2025-05-08 14:26 玉米面手雷王 阅读(49) 评论(0) 推荐(0)
摘要: 问题:假设我们有两个卷积核,大小分别为\(k_1\)和\(k_2\)(中间没有非线性激活函数)。 证明运算可以用单次卷积来表示。 这个等效的单个卷积核的维数是多少呢? 反之亦然吗? 在卷积神经网络(CNN)中,实际使用的操作是“互相关”(cross-correlation),而不是标准意义上的“卷积 阅读全文
posted @ 2025-05-08 11:34 玉米面手雷王 阅读(58) 评论(0) 推荐(0)