CS229：线性回归与梯度下降（Linear regression and gradient descent)

构建一个最基础的监督学习模型

监督学习的过程是将由输入特征X和目标变量Y组成的训练集输入，利用机器学习输出一个假设模型，使其能够用于处理新的输入，并得出符合训练集中的规律的目标变量。

特征X的数目为n，在线性回归中，我们得到一个类似y=θ0+θ1X1+θ2X2的线性模型，则为了统一，设参数向量θ=[θ0、θ1、θ2]的n+1维向量，则相应的，输入特征X也为对应的n+1维向量，其中X₀=1。

监督学习模型就是要确定这样的θ。其依据应当是使得在训练集中，h(xⁱ)的值与yⁱ的值要尽可能接近。故而我们建立一个这样的成本函数：

其中的1/2是为了简化数学形式。

我们使用梯度下降算法：

从某些的值开始（0向量是一个合理的默认起点）

继续改变以减小成本函数值，更新方法是：

其中α为学习率，描述了参数的更新速度。这一更新应当对所有θ进行。

将求导项展开得到：

得到对单个样本的最小均方更新规则（LMS）为：

对所有样本组成的训练集，这一方法将变为：

（1）批量梯度下降法：每一次调整都使用到每一个测试项。

由于梯度下降法很容易被局部最小值影响，但是在这个线性回归的参数优化问题中，全局最小值只有一个，且优化函数是一个凸二次函数，故不用担心陷入局部最优。

缺点是，如果数据集过大，每次更新都需要遍历整个数据集，会带来非常大的时间开销。

（2）随机梯度下降法：每次调整只读入一个训练组，并用此来更新。

使用更加广泛，会使算法更快的获得进展（n通常比数据集小得多），但是收敛路径更嘈杂随机，将始终保持轻微的振荡，可能无法达到理论全局最优，但是会接近，且经常随着学习进行降低学习率以减小振荡。

特殊解法：法方程，但只适用于线性回归

先介绍矩阵导数和矩阵迹的一些性质

接下来将之前的模型用矩阵记号重新表述：

至此我们找到了原优化函数的矩阵表述。根据之前的矩阵导数和迹的性质，我们得到：

故有：

当这一导数矩阵为0向量时，达到了全局最优。这样构成的一组方程为法方程。其解为：

posted @ 2021-09-25 20:34 Phile-matology 阅读(104) 评论(0) 收藏举报

刷新页面返回顶部

Phile-matology