摘要:
下面介绍一下坐标系中协变量偏移的情况 如上图,绿色的曲线是正确的曲线。我们训练的数据是左图,测试的数据是右图。按照左图的数据学习是学不出来绿色曲线的,就会导致右图的数据的准确率很低,这就是协变量偏移 一定要注意,在训练阶段,不要用来自不同分布的训练集和验证集。比如现在从\(8\)个不同地区中采集数据 阅读全文
posted @ 2025-03-10 22:20
最爱丁珰
阅读(59)
评论(0)
推荐(0)
摘要:
Batch Norm就可以在一定程度上解决协变量偏移问题,其通过将每一层的\(\text{z}^{[l]}\)标准化,可以大概固定\(\text{z}^{[l]}\),无论输入是怎么样的。也就是说,这样子在一定程度上让各层的输入数据是独立的(输入数据都可以看做时来自均值为\(0\)方差为\(1\)的 阅读全文
posted @ 2025-03-10 22:18
最爱丁珰
阅读(11)
评论(0)
推荐(0)
摘要:
以前我们对局部最优解的理解不是非常准确。实际上,在高维空间中的某一个点的梯度为\(0\),意味着其四面八方的极小一段区域都是平的,但是不代表其是极值点,因为要让每个极小区域都向上或者向下的概率是非常小的,我们更多遇到的应该是鞍点,如下 也就是一些方向是向上的,另一些方向是向下的 也就是局部最优点不太 阅读全文
posted @ 2025-03-10 21:56
最爱丁珰
阅读(7)
评论(0)
推荐(0)
摘要:
看看批量梯度下降和小批量梯度下降的图形,与我们的理解是相符的 注意到小批量梯度下降不是严格单减的,只是趋势是单调减少的(图中的纵轴Cost指的是对于整个训练数据的损失) 每次的批量的大小显然是一个超参数。当批量大小为\(1\)的时候叫做随机梯度下降,当批量大小为\(m\)的时候叫做批量梯度下降。前者 阅读全文
posted @ 2025-03-10 21:45
最爱丁珰
阅读(8)
评论(0)
推荐(0)
摘要:
介绍一种正则化的方法叫做早停法。其实很简单,就是训练的轮数越多,训练误差肯定会单调下降,但是验证误差是一个凹函数,我们停在测试误差的极值点就好了。注意运用早停法的话就不要用其他正则化方法了,所以早停法有个缺点就是训练误差可能比较大,优点就是需要的计算资源比较少,因为超参数少了 阅读全文
posted @ 2025-03-10 21:29
最爱丁珰
阅读(18)
评论(0)
推荐(0)
摘要:
这种方法的优点显而易见,就是得到新数据的开销更小,缺点也很明显,就是这种方法得到的新数据的新信息量不如完全新的数据的信息量多 下面是各个代码的解释 \(2.\) 改变颜色apply(img, torchvision.transforms.ColorJitter( brightness=0.5, # 阅读全文
posted @ 2025-03-10 21:28
最爱丁珰
阅读(7)
评论(0)
推荐(0)
摘要:
复习一下为什么我们需要训练集,验证集和测试集 对于同一种算法,有很多种超参数可以选择。在固定了一种超参数之后,我们就得到了一个具体的模型。对于这个模型,我们在训练集上进行训练,并在验证集上进行评估。在不同的超参数之间选择验证集评估分数最高的超参数,得到我们模型最终的超参数,然后再将训练集和验证集合并 阅读全文
posted @ 2025-03-10 21:12
最爱丁珰
阅读(30)
评论(0)
推荐(0)
摘要:
\((1)\) 答案中,为什么随着隐藏单元数的增多,训练集精确度不是单调增加? 当隐藏单元数目增多时,训练集精确度不单调增加的可能原因如下: 优化困难: 模型容量增加后,参数空间维度显著增大,优化器可能更难找到全局最优解,甚至陷入局部极小值或鞍点,导致训练收敛不稳定。 学习率不匹配: 更大的网络需要 阅读全文
posted @ 2025-03-10 21:01
最爱丁珰
阅读(44)
评论(0)
推荐(0)
摘要:
nn.Linear不是可以自动展平吗?为什么还要添加nn.Flatten()?实际上,这两者的展平是不同的,前者的展平主要用在Seq2Seq里面,是最后一维不同,前两维合并,而后者的展平是第一维不同,后两维合并。具体用法如下 在 PyTorch 中,nn.Flatten() 是一个用于将张量(Ten 阅读全文
posted @ 2025-03-10 15:51
最爱丁珰
阅读(81)
评论(0)
推荐(0)

浙公网安备 33010602011771号