最爱丁珰

2025年2月15日

摘要：这里的预测过程不是图$9$-$14，应该是下面这幅图，这里有误阅读全文

posted @ 2025-02-15 20:08 最爱丁珰阅读(14) 评论(0) 推荐(0)

摘要：这里的翻译好像有点问题，强制教学不是不包括eos，而是不包括最后一个词元（因为解码器接受的输入长度是固定的，这里要插入bos，就要忽视最后一个词元）。代码是这么表示的，英文版也是这么写的 l.sum().backward()可能改成l.mean().backward()更标准一点阅读全文

posted @ 2025-02-15 19:30 最爱丁珰阅读(15) 评论(0) 推荐(0)

9.7.3 损失函数

摘要：回忆一下，super(MaskedSoftmaxCELoss, self).forward就相当于直接计算损失函数，这是nn.Module的普遍做法；还要注意nn.CrossEntropyLoss会对传入的数据做$\text{Softmax}$，不需要我们传入一个已经做了\(\text{Soft 阅读全文

posted @ 2025-02-15 16:54 最爱丁珰阅读(24) 评论(0) 推荐(0)

9.1.3 简洁实现

摘要：这里的nn.GRU只传入了参数num_inputs和num_hiddens，那么为什么没有num_outputs呢？难道跟从零开始实现的代码一样，有num_inputs=num_outputs吗？实际上不是的，我们的GRU只会输出隐状态，最终的输出状态是需要再连接一个全连接层什么的。我们去看d2l. 阅读全文

posted @ 2025-02-15 16:18 最爱丁珰阅读(16) 评论(0) 推荐(0)

2025年2月13日

9.7.2 解码器

摘要：训练时解码器使用目标句子作为输入，这样即使某一个时间步预测错了也不要紧，我们输入的目标句子一定是对的 repeat这个函数就是广播张量，但是具体机制好像很复杂，只解释书上那一句代码。现在X的形状是(num_steps,batch_size,embed_size)，而在广播之前，context的形状是阅读全文

posted @ 2025-02-13 16:03 最爱丁珰阅读(50) 评论(0) 推荐(0)

9.7.1 编码器

摘要：编码器是一个没有输出的RNN 这里的nn.Embbeding见下下面我们用一个具体的例子说明 PyTorch 中 nn.Embedding 的输出。假设： import torch import torch.nn as nn # 创建嵌入层 # 参数说明： # num_embeddings=3 → 阅读全文

posted @ 2025-02-13 15:58 最爱丁珰阅读(27) 评论(0) 推荐(0)

11.2.3 约束

摘要： “惩罚”那里，相当于对$L_2$正则化换了一种理解方法，我们给定了超参数$\lambda$（假设$\lambda$是最优的），去求解$w$，相当于在求解极大极小问题，根据对偶性，可以转成极小极大问题，于是可以转换成带有约束的最优化问题，而这个约束就是限制$w$的$L_2$范数阅读全文

posted @ 2025-02-13 15:27 最爱丁珰阅读(16) 评论(0) 推荐(0)

11.1.1 优化和目标

摘要：这里的$f$就是期望函数，而$g$就是在$f$的基础上加了噪声，所以是经验风险阅读全文

posted @ 2025-02-13 12:40 最爱丁珰阅读(10) 评论(0) 推荐(0)

2025年2月12日

第一课泰坦尼克号预测

摘要：目录导入数据将训练数据与测试数据合并查看数据描述性统计查看是否有异常值查看特征与标签之间的关系查看标签是否有偏态数据预处理填充缺失值特征工程特征创造同组识别筛选子集建模导入数据将训练数据与测试数据合并查看数据描述性统计查看是否有异常值看看各个数据是否偏态，最值是否异常查看特征与标签之间的阅读全文

posted @ 2025-02-12 12:13 最爱丁珰阅读(35) 评论(0) 推荐(0)

2025年2月11日

4.2 朴素贝叶斯法的参数估计

摘要：利用极大似然估计计算概率对于先验概率$P(Y)$，似然函数为$L=\underset{i=1}{\overset{m}{\prod}}P(Y=y_i)$，对数似然函数为$l=\underset{i=1}{\overset{m}{\sum}}\log P(Y=y_i)$，注意到有约束条件阅读全文

posted @ 2025-02-11 22:30 最爱丁珰阅读(81) 评论(0) 推荐(0)

公告