Optimization: Basic Algorithm Concepts

CanChen ggchen@mail.ustc.edu.cn

第一篇文章主要是讲了最优化的问题定义，这里主要说说最优化的基本概念。因为好多英文术语我不熟，所以这篇就用中文来更新。

下降方向

这里下降方向就是说在当前点，沿着这个方向走，只要步子足够小，那么就可以下降。
同时，一般用的比较广泛的是下降方向的子集D：即和梯度夹角大于90度的所有方向。我一开始看到这个问题，就想这个是真子集吗？后来看了看，因为这里有一阶导数，所以只要不考虑驻点和鞍点，两个集合确实是等价的。否则，一个反例是f(x,y)=-x2-y在(0,y0)处。

可行方向

F这里的就是，在当前点附近按照一个步子走，只要步子迈得不大，还是在可行域里。
在有约束问题中，在局部最优解处，F和D没有交叉。这件事情可以这么想，如果局部最优解不在边界，那么D一定是空集，因为肯定可以到处走，往下降；当局部最优解在边界的时候，F限制了不能往边界外走，所以仍然是空集。

迭代下降算法

按照KKT条件，确实理论上可以求解有约束的最优化问题，但是一般还是迭代来得快。

下降函数

下降函数.PNG-61.4kB
具体到DL里面，下降函数就是Loss func, 解集合就是模型最优的那些参数，算法映射就是梯度下降方法。前面的优化函数f是Loss func中一个重要组成部分。

算法收敛性

算法收敛性.PNG-107.1kB
这个定理就比较有意思了。
1是说我的loss func一定会收敛到一个值
2是说给定了解集合和迭代方式，我们要能找到一个loss func把参数点往解集合方向逼
3是说要想个办法让loss func一定能把参数点逼进解集合

posted @ 2020-05-05 11:23 Klaus-Chen 阅读(173) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部