上一页 1 ··· 32 33 34 35 36 37 38 39 40 ··· 132 下一页
摘要: 这里的预测过程不是图\(9\)-$14,应该是下面这幅图,这里有误 阅读全文
posted @ 2025-02-15 20:08 最爱丁珰 阅读(14) 评论(0) 推荐(0)
摘要: 这里的翻译好像有点问题,强制教学不是不包括eos,而是不包括最后一个词元(因为解码器接受的输入长度是固定的,这里要插入bos,就要忽视最后一个词元)。代码是这么表示的,英文版也是这么写的 l.sum().backward()可能改成l.mean().backward()更标准一点 阅读全文
posted @ 2025-02-15 19:30 最爱丁珰 阅读(15) 评论(0) 推荐(0)
摘要: 回忆一下,super(MaskedSoftmaxCELoss, self).forward就相当于直接计算损失函数,这是nn.Module的普遍做法;还要注意nn.CrossEntropyLoss会对传入的数据做\(\text{Softmax}\),不需要我们传入一个已经做了\(\text{Soft 阅读全文
posted @ 2025-02-15 16:54 最爱丁珰 阅读(24) 评论(0) 推荐(0)
摘要: 这里的nn.GRU只传入了参数num_inputs和num_hiddens,那么为什么没有num_outputs呢?难道跟从零开始实现的代码一样,有num_inputs=num_outputs吗?实际上不是的,我们的GRU只会输出隐状态,最终的输出状态是需要再连接一个全连接层什么的。我们去看d2l. 阅读全文
posted @ 2025-02-15 16:18 最爱丁珰 阅读(16) 评论(0) 推荐(0)
摘要: 训练时解码器使用目标句子作为输入,这样即使某一个时间步预测错了也不要紧,我们输入的目标句子一定是对的 repeat这个函数就是广播张量,但是具体机制好像很复杂,只解释书上那一句代码。现在X的形状是(num_steps,batch_size,embed_size),而在广播之前,context的形状是 阅读全文
posted @ 2025-02-13 16:03 最爱丁珰 阅读(50) 评论(0) 推荐(0)
摘要: 编码器是一个没有输出的RNN 这里的nn.Embbeding见下 下面我们用一个具体的例子说明 PyTorch 中 nn.Embedding 的输出。假设: import torch import torch.nn as nn # 创建嵌入层 # 参数说明: # num_embeddings=3 → 阅读全文
posted @ 2025-02-13 15:58 最爱丁珰 阅读(27) 评论(0) 推荐(0)
摘要: “惩罚”那里,相当于对\(L_2\)正则化换了一种理解方法,我们给定了超参数\(\lambda\)(假设\(\lambda\)是最优的),去求解\(w\),相当于在求解极大极小问题,根据对偶性,可以转成极小极大问题,于是可以转换成带有约束的最优化问题,而这个约束就是限制\(w\)的\(L_2\)范数 阅读全文
posted @ 2025-02-13 15:27 最爱丁珰 阅读(16) 评论(0) 推荐(0)
摘要: 这里的\(f\)就是期望函数,而\(g\)就是在\(f\)的基础上加了噪声,所以是经验风险 阅读全文
posted @ 2025-02-13 12:40 最爱丁珰 阅读(10) 评论(0) 推荐(0)
摘要: 目录导入数据将训练数据与测试数据合并查看数据描述性统计查看是否有异常值查看特征与标签之间的关系查看标签是否有偏态数据预处理填充缺失值特征工程特征创造同组识别筛选子集建模 导入数据 将训练数据与测试数据合并 查看数据 描述性统计查看是否有异常值 看看各个数据是否偏态,最值是否异常 查看特征与标签之间的 阅读全文
posted @ 2025-02-12 12:13 最爱丁珰 阅读(35) 评论(0) 推荐(0)
摘要: 利用极大似然估计计算概率 对于先验概率\(P(Y)\),似然函数为\(L=\underset{i=1}{\overset{m}{\prod}}P(Y=y_i)\),对数似然函数为\(l=\underset{i=1}{\overset{m}{\sum}}\log P(Y=y_i)\),注意到有约束条件 阅读全文
posted @ 2025-02-11 22:30 最爱丁珰 阅读(81) 评论(0) 推荐(0)
上一页 1 ··· 32 33 34 35 36 37 38 39 40 ··· 132 下一页