机器学习的相关知识-梯度下降

这个知识点之前也是来来回回看了好久，我的理解是，因为没有办法一次性算出符合所有样本的目标函数，所以就只能每次一小步一小步地接近最优解，要知道其实一个样本就可以算出最优解了，但是还要兼顾其他样本。
还是做的500问的笔记

核心思想归纳：

初始化参数，随机选取取值范围内的任意数；
迭代操作：
a）计算当前梯度；
b）修改新的变量；
c）计算朝最陡的下坡方向走一步；
d）判断是否需要终止，如否，返回a）；
得到全局最优解或者接近全局最优解。

我理解就是，代价函数或者损失函数找最小值，那就是可以求一些参数的偏导，偏导为零那就是极值。随机一个参数，计算偏导数，大于零的话，说明是递增的，反方向取，小于零递减的，也是反方向取。取完之后算算值，下一次接着走，直到最优解，或者说代价函数或损失函数最小。

偏导可以认为是梯度
梯度就是导数

举个例子？

假设有 $m$ 个 $(x, y)$ ，每个 $x$ 向量包含 $n$ 个数，线性回归函数为 $h_\theta(x_1,x_2,...,x_n)=\theta_0+\theta_1x_1+...+\theta_nx_n$ 随机初始化 $\theta_i$ ，损失函数就是 $J(\theta_0,\theta_1,...,\theta_n)=\frac{1}{2m}\sum^{m}_{j=0}(h_\theta (x^{(j)}_0 ,x^{(j)}_1,...,x^{(j)}_n)-y_j)^2$ 然后就是求极值，直接算太麻烦了，一步一步来，第一步就求所有参数 $\theta_i$ 偏导的和，也就是在损失函数中看下当前位置的梯度（可以把 $x, y$ 看成已知量，我们最终目的是求 $\theta_i$ ）。 $\frac{\partial}{\partial \theta_i}J({\theta}_0,{\theta}_1,...,{\theta}_n)=\frac{1}{2m}\sum^{m}_{j=0}(h_\theta (x^{(j)}_0 ,x^{(j)}_1,...,x^{(j)}_n)-y_j)^2$ 第二步计算下次 $\theta_i$ 的选值，既然要取极值，那肯定是要往偏导为零的方向走，那就是和现在偏导相反就是取负就可以，方向定了，移动多少呢？定义每次移动的步长就好了如下 ${\varphi}_i={\alpha} \frac{\partial}{\partial \theta_i}J({\theta}_0,{\theta}_1,...,{\theta}_n)$ ${\alpha}$ 就是每次移动的步长，一般设的蛮小的。一般在这个时候，会算下终止条件，就是说确定是否所有 ${\theta}_i$ 梯度下降的距离 ${\varphi}_i$ 都小于终止距离 ${\zeta}$ ，如果都小于 ${\zeta}$ ，则算法终止，不终止就继续。有了下次移动的距离，那么下次的 $\theta_i$ 也就可以算出来了 ${\theta}_i={\theta}_i-\alpha \frac{\partial}{\partial \theta_i}J({\theta}_0,{\theta}_1,...,{\theta}_n)$ 刷新完 $\theta_i$ 再从第一步进行操作，直到跳出循环。

可以看出来每次循环都要把 $m$ 个样本都压进去，这样有点耗时，接下来就是优化了。

随机梯度下降（SGD）

$J(\theta_0, \theta_1, ... , \theta_n) = \frac{1}{m} \sum^{m}_{j=0}(y^j - h_\theta (x^{j}_0 ,x^{j}_1,...,x^{j}_n))^2 = \frac{1}{m} \sum^{m}_{j=0} cost(\theta,(x^j,y^j))$
应该是从 $m$ 个样本中，随机拿了一个 $j$ ，做 $\theta_i = \theta_i + (y^j - h_\theta (x^{j}_0, x^{j}_1, ... ,x^{j}_n))$
批量就是拿全部，随机就是拿一个，那可不就快了莫

小批量（Mini-Batch）梯度下降

$\theta_i = \theta_i - \alpha \sum^{t+n-1}_{j=t} ( h_\theta (x^{j}_{0}, x^{j}_{1}, ... , x^{j}_{n} ) - y^j ) x^{j}_{i}$ 不拿一个，拿若干个，嗯也差不多。

方法	特点
批量梯度下降	a）采用所有数据来梯度下降。 b）批量梯度下降法在样本量很大的时候，训练速度慢。
随机梯度下降	a）随机梯度下降用一个样本来梯度下降。 b）训练速度很快。 c）随机梯度下降法仅仅用一个样本决定梯度方向，导致解有可能不是全局最优。 d）收敛速度来说，随机梯度下降法一次迭代一个样本，导致迭代方向变化很大，不能很快的收敛到局部最优解。

	BGD	SGD	Mini-batch GD	Online GD
训练集	固定	固定	固定	实时更新
单次迭代样本数	整个训练集	单个样本	训练集的子集	根据具体算法定
算法复杂度	高	低	一般	低
时效性	低	一般	一般	高
收敛性	稳定	不稳定	较稳定	不稳定

posted @ 2022-03-30 20:51 赫凯阅读(35) 评论(0) 收藏举报

刷新页面返回顶部

赫凯

机器学习的相关知识-梯度下降

核心思想归纳：

举个例子？

​随机梯度下降（SGD）

小批量（Mini-Batch）梯度下降

公告

随机梯度下降（SGD）