随笔档案「2024年5月」 - RubySIU

DeepLearning---层归一化（LayerNorm）与批量归一化（BatchNorm）的区别

摘要：虽然我们认为训练样本是独立同分布的，但是在实际训练过程中，我们会划分 batch 来提高训练效率，此时不同的 batch 之间可能不再是同分布，从而影响模型的训练效果。深度学习模型往往都具有较多的层，网络越深越容易出现梯度消失和梯度爆炸的问题，导致模型不稳定，不容易收敛。对于深层的模型，如果不做阅读全文

posted @ 2024-05-22 14:16 RubySIU 阅读(1112) 评论(0) 推荐(0)

DeepLearning---Hyper Parameters Optimization

摘要：超参数优化超参数在很大程度上可以决定模型的训练效果，例如学习率影响学习效率，正则化影响泛化能力等。对超参数的优化也一直是一个受人关注的问题，尤其是可调整的超参数越来越多，手动调参的消耗越来越大，迫切需要一些可以自动化搜索最佳超参数的算法。本文将介绍几种常用的超参数优化算法。 Grid Sear 阅读全文

posted @ 2024-05-12 13:32 RubySIU 阅读(116) 评论(0) 推荐(0)

DeepLearning---Bias&Variance

摘要：什么是偏差和方差偏差描述预测值和真实值之间的差距，偏差越大，越偏离真实值。方差描述预测值的变化范围，也可以描述预测值和其期望值之间的差距，方差越大，数据越分散。对于深度学习模型，我们最关注模型的泛化能力，或者说泛化误差，而泛化误差可以分解为偏差+方差+噪音。由于我们的用于训练模型的数据有限阅读全文

posted @ 2024-05-11 17:25 RubySIU 阅读(94) 评论(0) 推荐(0)

DeepLearning---学习率（Pytorch）

摘要：学习率的作用学习率是梯度下降的重要参数，可以直接影响学习效果。在梯度下降公式中 \[w=w-\alpha\frac{d}{dw}J(w) \]\(\alpha\)就是学习率，决定了每次更新的“步幅”。如果学习率太小，权重更新过慢，则需要很多步才能达到损失函数最小值。如果学习率过大，权重会更新的阅读全文

posted @ 2024-05-08 20:33 RubySIU 阅读(196) 评论(0) 推荐(0)

RubySIU

05 2024 档案

公告