上一页 1 ··· 29 30 31 32 33 34 35 36 37 ··· 130 下一页
摘要: 首先复习一下有放回抽样和无放回抽样的等价性。假设现在有\(n\)个不同物体,我们从中抽取\(B\)个物体。计算第\(i\)次抽到某个特定物品的概率。对于有放回抽样,概率为\(\frac{1}{n}\);对于无放回抽样,概率为\(\frac{A^{B-1}_{n-1}}{A^{B}_n}=\frac{ 阅读全文
posted @ 2025-02-16 18:58 最爱丁珰 阅读(15) 评论(0) 推荐(0)
摘要: 目录数据预处理导包查看数据特征工程目标变量特征衍生特征选择信用卡正常消费和盗刷对比交易金额和交易次数信用卡消费时间分析交易金额和交易时间的关系特征分布(非常重要,帮助筛选特征)特征缩放特征重要性模型训练过采样算法建模交叉验证模型评估精确度-召回率曲线ROC曲线各评估指标的对比 数据预处理 导包 除了 阅读全文
posted @ 2025-02-16 18:30 最爱丁珰 阅读(59) 评论(0) 推荐(0)
摘要: 式\((11.47)\)应该有误,不等号左边还应该有一个项\(-E[||x_T-x^{*}||^2]\),之所以没写估计是因为认为\(x_T\)非常接近\(x^{*}\),所以可以忽略;另外不等号右边的括号打错了,应该是 \[2\underset{t=1}{\overset{T}{\sum}}\et 阅读全文
posted @ 2025-02-16 10:38 最爱丁珰 阅读(49) 评论(0) 推荐(0)
摘要: 式\((11.78)\)的直观理解:最开始的时候梯度很大,为了防止震荡,我们需要减小步长,这是分母的作用,但是梯度大就表示参数更新也应该大,所以需要增大步长,这是分子的作用;迭代一段时间之后,梯度就变小了,此时为了加速收敛,我们需要增大步长,这是分母的作用(注意这里跟\(\text{AdaGrad} 阅读全文
posted @ 2025-02-15 23:29 最爱丁珰 阅读(19) 评论(0) 推荐(0)
摘要: \(\text{BLEU}\)分数的主要目的是在有多个比较好的翻译的情况下去进行选择 但是吴恩达给的\(\text{BLEU}\)分数好像有一点不同,如下 这是没有带惩罚项的项(惩罚项跟书上的相同) 阅读全文
posted @ 2025-02-15 20:18 最爱丁珰 阅读(7) 评论(0) 推荐(0)
摘要: 这里的预测过程不是图\(9\)-$14,应该是下面这幅图,这里有误 阅读全文
posted @ 2025-02-15 20:08 最爱丁珰 阅读(7) 评论(0) 推荐(0)
摘要: 这里的翻译好像有点问题,强制教学不是不包括eos,而是不包括最后一个词元(因为解码器接受的输入长度是固定的,这里要插入bos,就要忽视最后一个词元)。代码是这么表示的,英文版也是这么写的 l.sum().backward()可能改成l.mean().backward()更标准一点 阅读全文
posted @ 2025-02-15 19:30 最爱丁珰 阅读(7) 评论(0) 推荐(0)
摘要: 回忆一下,super(MaskedSoftmaxCELoss, self).forward就相当于直接计算损失函数,这是nn.Module的普遍做法;还要注意nn.CrossEntropyLoss会对传入的数据做\(\text{Softmax}\),不需要我们传入一个已经做了\(\text{Soft 阅读全文
posted @ 2025-02-15 16:54 最爱丁珰 阅读(13) 评论(0) 推荐(0)
摘要: 这里的nn.GRU只传入了参数num_inputs和num_hiddens,那么为什么没有num_outputs呢?难道跟从零开始实现的代码一样,有num_inputs=num_outputs吗?实际上不是的,我们的GRU只会输出隐状态,最终的输出状态是需要再连接一个全连接层什么的。我们去看d2l. 阅读全文
posted @ 2025-02-15 16:18 最爱丁珰 阅读(9) 评论(0) 推荐(0)
摘要: 训练时解码器使用目标句子作为输入,这样即使某一个时间步预测错了也不要紧,我们输入的目标句子一定是对的 repeat这个函数就是广播张量,但是具体机制好像很复杂,只解释书上那一句代码。现在X的形状是(num_steps,batch_size,embed_size),而在广播之前,context的形状是 阅读全文
posted @ 2025-02-13 16:03 最爱丁珰 阅读(25) 评论(0) 推荐(0)
上一页 1 ··· 29 30 31 32 33 34 35 36 37 ··· 130 下一页