深度学习 - 随笔分类(第5页) - 最爱丁珰

9.7.4 训练

摘要：这里的翻译好像有点问题，强制教学不是不包括eos，而是不包括最后一个词元（因为解码器接受的输入长度是固定的，这里要插入bos，就要忽视最后一个词元）。代码是这么表示的，英文版也是这么写的 l.sum().backward()可能改成l.mean().backward()更标准一点阅读全文

posted @ 2025-02-15 19:30 最爱丁珰阅读(13) 评论(0) 推荐(0)

9.7.3 损失函数

摘要：回忆一下，super(MaskedSoftmaxCELoss, self).forward就相当于直接计算损失函数，这是nn.Module的普遍做法；还要注意nn.CrossEntropyLoss会对传入的数据做\(\text{Softmax}\)，不需要我们传入一个已经做了\(\text{Soft 阅读全文

posted @ 2025-02-15 16:54 最爱丁珰阅读(18) 评论(0) 推荐(0)

9.1.3 简洁实现

摘要：这里的nn.GRU只传入了参数num_inputs和num_hiddens，那么为什么没有num_outputs呢？难道跟从零开始实现的代码一样，有num_inputs=num_outputs吗？实际上不是的，我们的GRU只会输出隐状态，最终的输出状态是需要再连接一个全连接层什么的。我们去看d2l. 阅读全文

posted @ 2025-02-15 16:18 最爱丁珰阅读(12) 评论(0) 推荐(0)

9.7.2 解码器

摘要：训练时解码器使用目标句子作为输入，这样即使某一个时间步预测错了也不要紧，我们输入的目标句子一定是对的 repeat这个函数就是广播张量，但是具体机制好像很复杂，只解释书上那一句代码。现在X的形状是(num_steps,batch_size,embed_size)，而在广播之前，context的形状是阅读全文

posted @ 2025-02-13 16:03 最爱丁珰阅读(40) 评论(0) 推荐(0)

9.7.1 编码器

摘要：编码器是一个没有输出的RNN 这里的nn.Embbeding见下下面我们用一个具体的例子说明 PyTorch 中 nn.Embedding 的输出。假设： import torch import torch.nn as nn # 创建嵌入层 # 参数说明： # num_embeddings=3 → 阅读全文

posted @ 2025-02-13 15:58 最爱丁珰阅读(24) 评论(0) 推荐(0)

11.2.3 约束

摘要：“惩罚”那里，相当于对\(L_2\)正则化换了一种理解方法，我们给定了超参数\(\lambda\)（假设\(\lambda\)是最优的），去求解\(w\)，相当于在求解极大极小问题，根据对偶性，可以转成极小极大问题，于是可以转换成带有约束的最优化问题，而这个约束就是限制\(w\)的\(L_2\)范数阅读全文

posted @ 2025-02-13 15:27 最爱丁珰阅读(13) 评论(0) 推荐(0)

11.1.1 优化和目标

摘要：这里的\(f\)就是期望函数，而\(g\)就是在\(f\)的基础上加了噪声，所以是经验风险阅读全文

posted @ 2025-02-13 12:40 最爱丁珰阅读(10) 评论(0) 推荐(0)

14.1.1 为何独热向量是一个糟糕的选择

摘要：我们之前都是用独热编码表示单词的，可能会出现下面的问题显然，对于第二个句子的空格，我们也应该填写"juice"，但是目前没有任何的机制表明"apple"与"orange"的关系比"apple"与"man"等的关系更近，所以我们不一定填的出来此时可以使用词嵌入，如下绝对值大小表示相关性。此时一个阅读全文

posted @ 2025-01-31 21:21 最爱丁珰阅读(28) 评论(0) 推荐(0)

1.6 深度学习的成功案例

摘要：深度神经网络的工作模式见上，浅层的神经元在找一些很简单的特征（因为接触的是最原始的数据，所以相当于在浓缩），比如边缘检测（哪里有一条边），深层的神经元就是把浅层的神经元的浓缩数据合起来（不同的边结合起来就可以变成一个眼睛鼻子等等）再举一个语音识别的例子。当神经网络拿到一个音频的时候，浅层的神经元在阅读全文

posted @ 2025-01-24 10:53 最爱丁珰阅读(24) 评论(0) 推荐(0)

最爱丁珰

随笔分类 - 深度学习

公告