（笔记）斯坦福机器学习第二讲--监督学习应用与梯度下降

本讲内容：

1.linear regression(线性回归）

2.gradient descent（梯度下降）

3.normal equations（正规方程组）

首先引入一些符号：

(1) 训练样本的数量

(2) 输入变量/ 输入特征

(3) 输出变量/ 目标变量

(4) 第i个训练样本

(5) 训练集

(6) 特征的数量

监督学习流程图

首先找到一个训练集合（m个样本），提供给学习算法，得到一个输出函数h，称之为假设（hypothesis），这个假设可以对新数据x（不在训练集中的）得到一个新的估计y，即假设h的作用是将输入x映射到输出y。

1.线性回归

问题引入

房屋价格预测

通常情况下许多回归问题都需要多个输入特征，例如房屋价格问题，除了房屋面积之外，还可能有卧室数目这一特征。

在这个例子中，x1表示房屋的size，x2表示卧室数目

因此假设可以这样写：

给定房子的特征x，得到预测的开销

为了便捷显示，定义所以可以表示为

其中或者称之为学习算法的参数， 利用训练集合选择或学习得到合适的参数值，是学习算法的任务。

那么，如何选择参数，使得我们的假设可以对所有房屋做出准确的预测？

引入成本函数的概念，我们希望我们选择的 可以使得假设对于每一个输入特征得到的预测值与样本真实标签之间的平方差尽可能小.

定义

那么该学习算法的任务即为

2.梯度下降法

在选定线性回归模型后，只需要确定参数 θ，就可以将模型用来预测。然而 θ 需要在 J(θ) 最小的情况下才能确定。因此问题归结为求极小值问题，使用梯度下降法。

梯度下降算法的步骤：

(1) start with some (say = )

(2) keep chaning to reduce

改变的值由对的偏导数决定。因为求得是的极小值，因此向着偏导数的反方向更新。

梯度下降公式：

注意符号 “:=” 意味着将符号右侧的值赋给左侧

　　　　　“=” 意味着真值断言（左侧的值等于右侧）

　　　　

因此

repeat until convergence

对于有m个训练样本的梯度下降法，更一般的更新公式为

该方法称为批梯度下降 (batch gradient descent)。

如果m是一个百万级的数，即训练集合非常大的时候，使用批梯度下降，收敛速度将是非常慢的。

迭代更新的方式有两种：批梯度下降和随机梯度下降。

随机梯度下降 (stochastic gradient descent) 或者增量梯度下降定义如下:

repeat until convergence

{

　　for j = 1 to m

　　　　{

　　　　for all i

　　　　　　do

　　　　}

}

当训练集合非常大的时候，随机梯度下降要比批梯度下降算法快得多。

定义新的矩阵求导符号：

　　

则 (是n+1维的数组)

3.正规方程组

对于最小二乘回归问题，不需要采用梯度下降更新参数，而可以直接推出参数的解析表达式。

引入一些事实：

　(1) 如果，

　(2)

(3)

(4) 函数f以矩阵A为输入，以实数为输出，所以

　(5) 如果,

(6)

利用上述事实快速求出使取最小值的

所以

显然

因此求解，即可解出的解析表达式：

因为是一个实数，而实数的迹等于实数本身。

因此上式继续推导

　　　　

利用之前的结论(6)

利用之前的结论(4)

解得

　　　　　　　　

　　　　　　　　

该方法的缺陷：X列满秩，而且当特征的数量特别大的时候，求矩阵的逆会非常的慢。

第二讲完。

　　　　　　　　　　　　　　　　　　

posted @ 2017-05-24 00:14 madrabbit 阅读(1086) 评论(1) 收藏举报

刷新页面返回顶部