05 2024 档案
摘要:虽然我们认为训练样本是独立同分布的,但是在实际训练过程中,我们会划分 batch 来提高训练效率,此时不同的 batch 之间可能不再是同分布,从而影响模型的训练效果。 深度学习模型往往都具有较多的层,网络越深越容易出现梯度消失和梯度爆炸的问题,导致模型不稳定,不容易收敛。 对于深层的模型,如果不做
阅读全文
摘要:超参数优化 超参数在很大程度上可以决定模型的训练效果,例如学习率影响学习效率,正则化影响泛化能力等。 对超参数的优化也一直是一个受人关注的问题,尤其是可调整的超参数越来越多,手动调参的消耗越来越大,迫切需要一些可以自动化搜索最佳超参数的算法。 本文将介绍几种常用的超参数优化算法。 Grid Sear
阅读全文
摘要:什么是偏差和方差 偏差描述预测值和真实值之间的差距,偏差越大,越偏离真实值。 方差描述预测值的变化范围,也可以描述预测值和其期望值之间的差距,方差越大,数据越分散。 对于深度学习模型,我们最关注模型的泛化能力,或者说泛化误差,而泛化误差可以分解为 偏差+方差+噪音。 由于我们的用于训练模型的数据有限
阅读全文
摘要:学习率的作用 学习率是梯度下降的重要参数,可以直接影响学习效果。 在梯度下降公式中 \[w=w-\alpha\frac{d}{dw}J(w) \]\(\alpha\)就是学习率,决定了每次更新的“步幅”。 如果学习率太小,权重更新过慢,则需要很多步才能达到损失函数最小值。如果学习率过大,权重会更新的
阅读全文

浙公网安备 33010602011771号