梯度

梯度：
梯度是一个向量求导的导数：f的梯度是包含所有偏导数的向量。向量的导数还是一个向量，所以梯度既是导数又是向量。
梯度的方向：与这个函数在该点增长最快的方向一致。梯度的大小：|梯度|=max(方向导数)

梯度下降法作用：求损失函数（loss function）最小值
吴恩达笔记：沿着下坡走，找到局部最小值,下坡方向就是梯度反方向，最小值就是loss function的

深度学习花书笔记：
一维时
y=f(x)
f(x+ε)≈ f(x)+εf’(x)
因为f(x-εsign(f’(x)))是比f(x)小的，往导数反方向走

多维时
则是往所有向量的偏导数方向走。
————————————————
版权声明：本文为CSDN博主「当霸气遇到侧漏」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_32166779/article/details/82812060

梯度
简单来说，例如有

像这样的全部由变量的偏导数组成的向量称为梯度（gradient）。

实际上，梯度会指向各点处的函数值降低的方向。更严格的讲，梯度指示的方向是各点处的函数值减少最多的方向。

为什么这么说，因为方向导数=cos()×梯度，而是方向导数的方向和梯度方向的夹角。所以，所有的下降方向中，梯度方向下降的最多。
————————————————
版权声明：本文为CSDN博主「Answerlzd」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/Answer3664/article/details/91346838

梯度法
神经网络的主要任务是在学习时找到最优的参数（权重和偏置），这个最优参数也就是损失函数最小时的参数。但是，一般情况下，损失函数比较复杂，参数也很多，无法确定在哪里取得最小值。所以通过梯度来寻找最小值（或者尽可能小的值）的方法就是梯度法。

需要注意的是，梯度表示的是各点处的函数值减少最多的方向，所以梯度的方向并不一定指向最小值。但是沿着它的方向能够最大限度地减少函数的值。因此，在寻找函数的最小值（或者尽可能小的值）的位置的时候，要以梯度的信息为线索，决定前进的方向。

此时梯度法就派上用场了。在梯度法中，函数的取值从当前位置沿着梯度方向前进一定距离，然后在新的方向重新求梯度，再沿着新梯度方向前进，如此反复。

像这样，通过不断地沿梯度方向前进，逐渐减小函数值的过程就是梯度法（gradient mothod）。一般来说，神经网络（深度学习）中，梯度法主要是指梯度下降法（gradient descent mothod）
————————————————
版权声明：本文为CSDN博主「Answerlzd」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/Answer3664/article/details/91346838

posted @ 2022-04-12 14:41 小时光7777 阅读(608) 评论(0) 收藏举报

刷新页面返回顶部

小时光7777

梯度

公告