（笔记）斯坦福机器学习第三讲--欠拟合与过拟合

本讲内容：

1.locally weighted regression （局部加权回归算法）

2.Probabilistic interpretation of linear regression （线性回归的概率解释）

3.Logistic regression （逻辑回归算法）

4.Digression Perceptron （感知器算法）

欠拟合与过拟合

对于只包含这7个点的数据集来说，左2图（二次模型）最好的拟合了数据的特性。左1（线性模型）忽视了数据中的某些二次成分，而右1（6次模型）又过分地拟合了这七个点。

过大（右1）的特征集合，会使得到的模型过于复杂，这种情况称之为overfitting（过拟合）;

过小（左1）的特征集合，会使得到的模型过于简单，这种情况称之为underfitting（欠拟合）;

因此，特征的选择，对于算法的性能，是至关重要的。

那么问题是，怎样选取合适的特征，可以得到拟合特性最好的模型？

（1）在之后某一讲中，会提到特征选择算法，这是一类自动化的算法，可以在这类回归问题中选择要用到的特征。

（2）non-parametric learning algorithms 非参数化学习算法，可以在一定程度上缓解对于选取特征的需求。

定义：parametric learning algorithms 参数化学习算法，是一类有固定数目的参数，以用来进行数据拟合的算法。

线性回归属于参数化学习算法。线性回归中，有一个固定的集合，一定可以拟合数据。

non-parametric learning algorithms 非参数化学习算法

定义：non-parametric learning algorithms 非参数化学习算法，是一类参数数量会随着m增长的算法，m代表训练集合的大小。

局部加权回归属于非参数化学习算法。

1.局部加权回归 /Loess

对于确定的查询点x，在x处对假设h进行求值：

对于线性回归：

(1) fit to minimize

(2) return

对于局部加权回归，工作有点不同：

对于查询点x，检查数据集合，然后只考虑位于x周围固定区域内的数据点，之后对这个数据子集使用线性回归来拟合出一条直线。

(1) fit to minimize

where

if small, then

if large, then

称为权值，对于和x离得近的点，赋予较大的权值；和x离得远的点，赋予较小的权值。

(2) return

更一般地，

称作波长函数，控制权值随距离下降的速率。

2.线性模型的概率解释

提出问题：在回归问题中，为什么选择最小二乘估计作为我们的优化目标？

首先假设输出和输入有如下的映射关系：

在房屋问题中，除了面积或者卧室数量之外，可能还存在一些我们没有捕获的特征，他们也对房屋的价格存在影响，这种影响可以看做随机噪声。

意味着误差项，即我们未捕获特征以及其他随机噪声对房屋价格的影响总和。

假设服从高斯分布，即

这表示，在给定参数的时候，房屋的价格也服从高斯分布:

假设独立同分布

公式

称为参数的似然性

　　

极大似然估计(Maximum likelihood):选择使得数据出现的可能性尽可能大

定义对数似然函数

　　　　

　　　　

因此等价于

等价于最小化注意到最终结果与无关

该函数即为我们上一讲选择的成本函数

3.逻辑回归

分类：回归问题预测的变量y是连续变量，而分类问题中预测的变量y是离散变量。这里讨论二元分类，即限定

对分类问题使用线性回归可能是一个糟糕的主意。线性回归的预测值可能大于1，也可能小于0，而我们希望我们的假设预测的输出值在0,1 之间。

所以我们不选择线性函数作为假设，而选择

称为sigmoid function 或者 logistic function.

的图像如下

概率意义上的解释：

将上述二式写在一起：

做参数的极大似然估计

　　　

为了使对数似然函数最大化，采样梯度上升法更新的值，之所以是上升而不是下降，是因为这里需要的是的极大值

　　　　

4.感知器算法

代替 logstic function：

该函数生成的值只有0,1，所以为该函数赋予概率意义十分困难。

使用梯度上升法更新参数

第三讲完。

posted @ 2017-05-25 09:51 madrabbit 阅读(513) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部