CS231n Lecture3-Loss Functions and Optimization学习笔记

一、Visualizing the loss function

  1. 这部分讲述了损失函数的可视化。

二、Optimization ways

  • 优化的目标是发现合适的权值W,使得损失函数最小化。
  • 核心思想是随机初始化权值的参数,然后进行计算损失,如果发现损失之前的小,那么保存参数这一次的权值。
  • 进行一千次迭代后,测试发现准确率只有15.5%,仅仅比随机猜10%高一点,可以看得出,这个办法是十分糟糕的。
  • 核心思想是,一开始随机初始化一组权重W,然后再这一一个步长step(一般比较小为0.0001),原来的w每次加上随机更新步长乘以随机初始化的一组权重W2,如果发现损失减小,保存更新后的参数。
  • 效果相比于第一种方法的准确率有所提高,达到21.4%,但是还是不够理想。

3. Following the Gradient

  • 我们期望以最快的速度,在向量空间中下降到谷底,而不是随机的,因此这里用到知识是梯度(gradient)。
  • 这里用到函数的导数,一维情况下,多维就是偏导数,梯度就是在每个维度下的偏导向量,作用是可以以最快的速度下降到坡底。(公式插图)

三、Computing the gradient

  • 这里介绍了两种方法计算梯度,一种是较慢的但是容易的方法数值梯度(numerical gradient);还有一种是比较快的但是更易出错的方法,同时需要微积分分析梯度(analytic gradient)

1. Computing the gradient numerically with finite differences

  • 首先应该计算梯度(这是一个大概的计算,也就是使用定义进行计算),然后根据梯度更新权重,这里关于更新权重,有更新的速率(学习率)。
  • Effect of step size, 确保一个合适的步长,也就是学习率,是一个重要的问题。(插图)
  • efficiency,考虑到成千上万的参数,这个方法的效率不高。

2. Computing the gradient analytically with Calculus

  • 这里是使用微积分进行计算偏导数和梯度。结果是精确的,速度也是极快的。
  • 插图

3. Gradient Descent

  • Mini-batch gradient descent, 如果我们的数据集很大,全部计算梯度是麻烦的,并且是浪费计算资源的,所以会抽取一部分样本进行计算损失,然后进行梯度计算并更新权重。
  • SGD, 这样随机抽取一部分样本,进行计算梯度更新参数的方法,叫做随机梯度下降方法。
posted @ 2020-03-26 23:05  睿晞  阅读(185)  评论(0编辑  收藏  举报