CS231n Lecture3-Loss Functions and Optimization学习笔记

一、Visualizing the loss function

这部分讲述了损失函数的可视化。

二、Optimization ways

优化的目标是发现合适的权值W，使得损失函数最小化。

1. Random search

核心思想是随机初始化权值的参数，然后进行计算损失，如果发现损失之前的小，那么保存参数这一次的权值。
进行一千次迭代后，测试发现准确率只有15.5%，仅仅比随机猜10%高一点，可以看得出，这个办法是十分糟糕的。

2. Random Local Search

核心思想是，一开始随机初始化一组权重W，然后再这一一个步长step（一般比较小为0.0001），原来的w每次加上随机更新步长乘以随机初始化的一组权重W2，如果发现损失减小，保存更新后的参数。
效果相比于第一种方法的准确率有所提高，达到21.4%，但是还是不够理想。

3. Following the Gradient

我们期望以最快的速度，在向量空间中下降到谷底，而不是随机的，因此这里用到知识是梯度（gradient）。
这里用到函数的导数，一维情况下，多维就是偏导数，梯度就是在每个维度下的偏导向量，作用是可以以最快的速度下降到坡底。（公式插图）

三、Computing the gradient

这里介绍了两种方法计算梯度，一种是较慢的但是容易的方法数值梯度（numerical gradient）;还有一种是比较快的但是更易出错的方法，同时需要微积分分析梯度(analytic gradient)

1. Computing the gradient numerically with finite differences

首先应该计算梯度（这是一个大概的计算，也就是使用定义进行计算），然后根据梯度更新权重，这里关于更新权重，有更新的速率（学习率）。
Effect of step size, 确保一个合适的步长，也就是学习率，是一个重要的问题。（插图）
efficiency，考虑到成千上万的参数，这个方法的效率不高。

2. Computing the gradient analytically with Calculus

这里是使用微积分进行计算偏导数和梯度。结果是精确的，速度也是极快的。
插图

3. Gradient Descent

Mini-batch gradient descent，如果我们的数据集很大，全部计算梯度是麻烦的，并且是浪费计算资源的，所以会抽取一部分样本进行计算损失，然后进行梯度计算并更新权重。
SGD，这样随机抽取一部分样本，进行计算梯度更新参数的方法，叫做随机梯度下降方法。

posted @ 2020-03-26 23:05 睿晞阅读(209) 评论(0) 收藏举报

刷新页面返回顶部