梯度
梯度:
梯度是一个向量求导的导数:f的梯度是包含所有偏导数的向量。向量的导数还是一个向量,所以梯度既是导数又是向量。
梯度的方向:与这个函数在该点增长最快的方向一致。梯度的大小:|梯度|=max(方向导数)
梯度下降法作用:求损失函数(loss function) 最小值
吴恩达笔记:沿着下坡走,找到局部最小值,下坡方向就是梯度反方向,最小值就是loss function的
深度学习花书笔记:
一维时
y=f(x)
f(x+ε)≈ f(x)+εf’(x)
因为f(x-εsign(f’(x)))是比f(x)小的,往导数反方向走
多维时
则是往所有向量的偏导数方向走。
————————————————
版权声明:本文为CSDN博主「当霸气遇到侧漏」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_32166779/article/details/82812060
梯度
简单来说,例如有
像这样的全部由变量的偏导数组成的向量称为梯度(gradient)。
实际上,梯度会指向各点处的函数值降低的方向。更严格的讲,梯度指示的方向是各点处的函数值减少最多的方向。
为什么这么说,因为方向导数=cos()×梯度,而是方向导数的方向和梯度方向的夹角。所以,所有的下降方向中,梯度方向下降的最多。
————————————————
版权声明:本文为CSDN博主「Answerlzd」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/Answer3664/article/details/91346838
梯度法
神经网络的主要任务是在学习时找到最优的参数(权重和偏置),这个最优参数也就是损失函数最小时的参数。但是,一般情况下,损失函数比较复杂,参数也很多,无法确定在哪里取得最小值。所以通过梯度来寻找最小值(或者尽可能小的值)的方法就是梯度法。
需要注意的是,梯度表示的是各点处的函数值减少最多的方向,所以梯度的方向并不一定指向最小值。但是沿着它的方向能够最大限度地减少函数的值。因此,在寻找函数的最小值(或者尽可能小的值)的位置的时候,要以梯度的信息为线索,决定前进的方向。
此时梯度法就派上用场了。在梯度法中,函数的取值从当前位置沿着梯度方向前进一定距离,然后在新的方向重新求梯度,再沿着新梯度方向前进,如此反复。
像这样,通过不断地沿梯度方向前进,逐渐减小函数值的过程就是梯度法(gradient mothod)。一般来说,神经网络(深度学习)中,梯度法主要是指梯度下降法(gradient descent mothod)
————————————————
版权声明:本文为CSDN博主「Answerlzd」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/Answer3664/article/details/91346838

浙公网安备 33010602011771号