8:梯度
1:导数/偏微分/梯度

区别:
(1)
导数是一个没有方向之分的标量。
偏微分是一个有多个方向的标量。
梯度是一个向量。
(2)
导数反应的是变化量
2:如何搜索极小值:可能影响优化器的几种因素
(1)局部极小值

实际中的局部最小值实例:

(2)鞍点

(3)初始状态/学习率/动量

(3.1.1)初始状态


【注】不同的初始状态可能会使搜索陷入不同的局部最小值
(3.1.2)学习率

【注】当学习率过大时,可能会导致跳过极小值。好的情况下,会出现震荡,震荡到极小值。
(3.1.3)动量:添加动量逃离局部极小值

【注】可以把其理解为惯性。当到图中x=0处,会综合梯度,其综合梯度会帮助逃离局部极小值。

浙公网安备 33010602011771号