11.7.1 稀疏特征和学习率

AdaGrad的两个好处的第一个解释如下
第一个benefit的含义是
Adagrad通过自动累加历史梯度平方值来调整学习率,省去了人为设定“梯度多大才算大”的阈值(threshold)

具体解释

  • 原始方法的问题:例如在某些优化算法中,可能需要手动设定一个阈值,当梯度超过该值时,才调整学习率或参数更新幅度。这种手动选择阈值的方式既不灵活,也容易因设定不当导致训练效果差。
  • Adagrad的改进:通过直接累加所有历史梯度的平方(( s(i, t) = \sum (\partial_i f(x))^2 )),系统能自动根据梯度的实际大小动态调整学习率
    • 梯度较大的参数,其累积平方值会迅速增大,从而显著降低学习率(因学习率通常与累积值的平方根成反比)。
    • 梯度较小的参数,累积值增长缓慢,学习率调整幅度较小。
  • 核心优势:无需人工干预判断“梯度何时足够大”,完全由算法自适应完成,既简化了调参过程,又提升了鲁棒性。

类比理解
传统方法像手动调节水龙头水量大小(需反复尝试合适的水流),而Adagrad像智能水龙头,根据历史用水量自动调节水流,既省力又高效。

posted @ 2025-02-17 14:57  最爱丁珰  阅读(37)  评论(0)    收藏  举报