随笔分类 -  深度学习

摘要:这里的翻译好像有点问题,强制教学不是不包括eos,而是不包括最后一个词元(因为解码器接受的输入长度是固定的,这里要插入bos,就要忽视最后一个词元)。代码是这么表示的,英文版也是这么写的 l.sum().backward()可能改成l.mean().backward()更标准一点 阅读全文
posted @ 2025-02-15 19:30 最爱丁珰 阅读(13) 评论(0) 推荐(0)
摘要:回忆一下,super(MaskedSoftmaxCELoss, self).forward就相当于直接计算损失函数,这是nn.Module的普遍做法;还要注意nn.CrossEntropyLoss会对传入的数据做\(\text{Softmax}\),不需要我们传入一个已经做了\(\text{Soft 阅读全文
posted @ 2025-02-15 16:54 最爱丁珰 阅读(18) 评论(0) 推荐(0)
摘要:这里的nn.GRU只传入了参数num_inputs和num_hiddens,那么为什么没有num_outputs呢?难道跟从零开始实现的代码一样,有num_inputs=num_outputs吗?实际上不是的,我们的GRU只会输出隐状态,最终的输出状态是需要再连接一个全连接层什么的。我们去看d2l. 阅读全文
posted @ 2025-02-15 16:18 最爱丁珰 阅读(12) 评论(0) 推荐(0)
摘要:训练时解码器使用目标句子作为输入,这样即使某一个时间步预测错了也不要紧,我们输入的目标句子一定是对的 repeat这个函数就是广播张量,但是具体机制好像很复杂,只解释书上那一句代码。现在X的形状是(num_steps,batch_size,embed_size),而在广播之前,context的形状是 阅读全文
posted @ 2025-02-13 16:03 最爱丁珰 阅读(40) 评论(0) 推荐(0)
摘要:编码器是一个没有输出的RNN 这里的nn.Embbeding见下 下面我们用一个具体的例子说明 PyTorch 中 nn.Embedding 的输出。假设: import torch import torch.nn as nn # 创建嵌入层 # 参数说明: # num_embeddings=3 → 阅读全文
posted @ 2025-02-13 15:58 最爱丁珰 阅读(24) 评论(0) 推荐(0)
摘要:“惩罚”那里,相当于对\(L_2\)正则化换了一种理解方法,我们给定了超参数\(\lambda\)(假设\(\lambda\)是最优的),去求解\(w\),相当于在求解极大极小问题,根据对偶性,可以转成极小极大问题,于是可以转换成带有约束的最优化问题,而这个约束就是限制\(w\)的\(L_2\)范数 阅读全文
posted @ 2025-02-13 15:27 最爱丁珰 阅读(13) 评论(0) 推荐(0)
摘要:这里的\(f\)就是期望函数,而\(g\)就是在\(f\)的基础上加了噪声,所以是经验风险 阅读全文
posted @ 2025-02-13 12:40 最爱丁珰 阅读(10) 评论(0) 推荐(0)
摘要:我们之前都是用独热编码表示单词的,可能会出现下面的问题 显然,对于第二个句子的空格,我们也应该填写"juice",但是目前没有任何的机制表明"apple"与"orange"的关系比"apple"与"man"等的关系更近,所以我们不一定填的出来 此时可以使用词嵌入,如下 绝对值大小表示相关性。此时一个 阅读全文
posted @ 2025-01-31 21:21 最爱丁珰 阅读(28) 评论(0) 推荐(0)
摘要:深度神经网络的工作模式见上,浅层的神经元在找一些很简单的特征(因为接触的是最原始的数据,所以相当于在浓缩),比如边缘检测(哪里有一条边),深层的神经元就是把浅层的神经元的浓缩数据合起来(不同的边结合起来就可以变成一个眼睛鼻子等等) 再举一个语音识别的例子。当神经网络拿到一个音频的时候,浅层的神经元在 阅读全文
posted @ 2025-01-24 10:53 最爱丁珰 阅读(24) 评论(0) 推荐(0)