摘要: 1.学习率 (learning rate) 学习率 (learning rate),控制模型的学习进度 : 学习率(Learning Rate,常用η表示。)是一个超参数,考虑到损失梯度,它控制着我们在多大程度上调整网络的权重。值越低,沿着向下的斜率就越慢。虽然这可能是一个好主意(使用低学习率),以 阅读全文
posted @ 2020-07-30 17:04 雨后观山色 阅读(9730) 评论(0) 推荐(0)
摘要: 1.优化器算法简述 首先来看一下梯度下降最常见的三种变形 BGD,SGD,MBGD,这三种形式的区别就是取决于我们用多少数据来计算目标函数的梯度,这样的话自然就涉及到一个 trade-off,即参数更新的准确率和运行时间。 2.Batch Gradient Descent (BGD) 梯度更新规则: 阅读全文
posted @ 2020-07-30 16:28 雨后观山色 阅读(5818) 评论(0) 推荐(0)