深度学习基础

一、临界点及其种类

1.鞍点

2.局部极小值

3.局部极大值

临界点特点：当参数对损失微分为零的时候，梯度下降不会再更新参数，训练停止，损失不再下降。

二、判断临界值种类的方法

判断一个临界点是什么种类需要知道损失函数的形状

损失函数$L(\theta)$可以近似为

\[L(\theta) \approx L(\theta^{'}) +(\theta-\theta^{'} )^T g+\frac{1}{2}(\theta-\theta^{'} )^T H (\theta-\theta^{'} ) \]

其中$g$表示梯度，$H$表示海森矩阵

\[g_i=\frac{\partial L(\theta^{'})}{\partial \theta_i} , H_{ij}=\frac{\partial^2}{\partial\theta_i\partial\theta_j}L(\theta^{'}) \]

我们用向量$v$表示$\theta - \theta^{'},(\theta-\theta^{'})^T H (\theta-\theta^{'})$可改写为$ v^THv $

1.局部极小值：如果对所有$v,v^THv>0$,这意味着对任意$\theta,L(\theta)>L(\theta^{'})$,只要$\theta$在$\theta^{'}$附近，$L(\theta)$都大于$L(\theta^{'})$,这代表$L(\theta^{'})$是附近的一个最低点，所以它是局部极小值

2.局部极大值：如果对所有$v,v^THv<0$,这意味着对任意$\theta,L(\theta)<L(\theta^{'})$,只要$\theta$在$\theta^{'}$附近，$L(\theta)$都小于$L(\theta^{'})$,这代表$L(\theta^{'})$是附近的一个最高点，所以它是局部极大值

3.鞍点：如果对于$v,v^THv$有时候大于零，有时候小于零，这意味着在$\theta^{'}$附近，有时候$L(\theta)>L(\theta^{'})$,有时候$L(\theta)<L(\theta^{'})$,因此在$\theta^{'}$附近，$L(\theta^{'})$既不是局部极大值，也不是局部极小值，而是鞍点

三、逃离鞍点方法

从经验上看起来，局部极小值并没有那么常见。多数的时候，我们训练到一个梯度很小的地方，参数不再更新，往往遇到了鞍点。为解决参数不更新，训练停止的问题，所以我们需要有逃离鞍点的办法措施。

核心是找到有效的优化方向。

参考：《LeeDL Tutorial》版本：1.1.8 第三章深度学习基础 3.1 局部极小值与鞍点

posted @ 2024-08-24 12:49 心使阅读(91) 评论(0) 收藏举报

刷新页面返回顶部

人工智能，数据挖掘，大数据，数学，其它问题记录

人工智能，数据挖掘,，大数据，数学，其它问题记录

深度学习基础

深度学习基础

一、临界点及其种类

二、判断临界值种类的方法

三、逃离鞍点方法

公告