最爱丁珰

2025年2月25日

摘要：我觉得这个问题的核心在于理解为什么在实际应用中，尽管 RNN 可以动态处理不同长度的序列，我们还是需要截断和填充。RNN 本身确实可以通过循环结构处理任意长度的序列，但实际应用中，我们通常需要批量处理数据，而批量数据的形状需要固定。如果每个序列的长度不同，GPU 无法高效地进行并行计算，因为每次循环阅读全文

posted @ 2025-02-25 14:04 最爱丁珰阅读(11) 评论(0) 推荐(0)

10.7.4 编码器

摘要：在TransformerEncoder中，要将嵌入表示先乘以嵌入维度的平方根的原因我觉得是让位置编码和特征维度的数值大小匹配，因为嵌入矩阵通常通过均匀分布初始化，例如在 PyTorch 的 nn.Embedding 中，默认使用均匀分布\([-\sqrt{\frac{3}{d}},\sqrt{\fr 阅读全文

posted @ 2025-02-25 08:56 最爱丁珰阅读(5) 评论(0) 推荐(0)

10.7.3 残差连接和层规范化

摘要：这个nn.LayerNorm有点搞笑我觉得，有个参数normalized_shape，输入想要归一化张量的最后几个维度，然后就将最后几个维度的元素看做一个整体进行归一化，如下 import torch import torch.nn as nn # 定义输入张量 (batch_size, seque 阅读全文

posted @ 2025-02-25 08:11 最爱丁珰阅读(19) 评论(0) 推荐(0)

2025年2月24日

191 Transform网络

摘要： Transform网络首先构建编码器如下首先将输入进行多头注意力转换，然后放入前向传播网络。这个过程会重复\(N\)次（\(N\)的取值一般为\(6\)）在翻译的时候，我们首先将句子开始标识作为输入，输入进解码器，解码器首先会将输入进行多头注意力转换，然后会将编码器的输出一起，再进行多头注意力的阅读全文

posted @ 2025-02-24 23:19 最爱丁珰阅读(29) 评论(0) 推荐(0)

190 多头注意力机制

摘要：多头注意力其实就是将普通注意力机制进行多次，每次都得到一个结果，然后最终将这些结果直接用pd.concat拼接起来，然后再乘以一个矩阵即可，如下实际中，我们不会采取for循环计算多个头，而是直接采取并行计算阅读全文

posted @ 2025-02-24 22:54 最爱丁珰阅读(35) 评论(0) 推荐(0)

189 自注意力机制

摘要：假设现在有一个句子：Jane visited Afica last September. 那么到底是将Afica当做一个大洲处理还是当做一个度假胜地处理呢？这个是要就要去考察上下文了。普通的RNN是没办法考虑下文的，双向RNN又只能一个词一个词的计算，而自注意力机制就可以并行计算，如下自注意力要计阅读全文

posted @ 2025-02-24 15:46 最爱丁珰阅读(13) 评论(0) 推荐(0)

10.6.3 位置编码

摘要：注意CNN也是有位置信息的，同一个卷积运算中可能没有位置信息，但是不同卷积运算由于窗口的移动，也是有位置信息的正文的第一句话“在处理词元序列时，循环神经网络是逐个的重复地处理词元的，而自注意力则因为并行计算而放弃了顺序操作。”的意思见10.6.1的博文。所以自注意力丢失了对序列固有顺序的显式依赖阅读全文

posted @ 2025-02-24 14:40 最爱丁珰阅读(9) 评论(0) 推荐(0)

10.6.1 自注意力

摘要：首先，RNN是逐个处理词元的，这个部分应该是指传统的RNN模型，比如LSTM或GRU，它们是按时间步依次处理输入序列的，每个时间步只处理一个词元，并且当前的输出依赖于前一个时间步的隐藏状态。所以它的处理是顺序的，不能同时处理后面的词元，必须一个接着一个来。这样做的好处是能够捕捉到序列中的时间依赖关系阅读全文

posted @ 2025-02-24 14:24 最爱丁珰阅读(25) 评论(0) 推荐(0)

2025年2月23日

10.5.2 实现

摘要： valide_lens是二维数组，假设其如下 tensor([[ 0, 1, 2, 3, 4], [ 5, 6, 7, 8, 9], [10, 11, 12, 13, 14], [15, 16, 17, 18, 19]]) 那么对其在第零维进行repeat_interleave后，如下 tensor 阅读全文

posted @ 2025-02-23 17:26 最爱丁珰阅读(7) 评论(0) 推荐(0)

10.3.2 加性注意力

摘要：这里查询，键和值的形状不要看书上，看我下面写的文字对于查询来说，第一维的确是批量大小，可以忽略不管；第二维是一个批量中查询\(z\)的个数；第三维是每个查询\(z\)的特征维度（代码中的query_size）对于键来说，第一维的确是批量大小，可以忽略不管；第二维是键值对个数，也就是键的个数，也就阅读全文

posted @ 2025-02-23 16:03 最爱丁珰阅读(27) 评论(0) 推荐(0)

公告