(笔记)斯坦福机器学习第三讲--欠拟合与过拟合

本讲内容:

1.locally weighted regression (局部加权回归算法)

2.Probabilistic interpretation of linear regression  (线性回归的概率解释)

3.Logistic regression    (逻辑回归算法)

4.Digression Perceptron (感知器算法)

 

欠拟合与过拟合


对于只包含这7个点的数据集来说,左2图(二次模型)最好的拟合了数据的特性。左1(线性模型)忽视了数据中的某些二次成分,而右1(6次模型)又过分地拟合了这七个点。

过大(右1)的特征集合,会使得到的模型过于复杂,这种情况称之为overfitting(过拟合);

过小(左1)的特征集合,会使得到的模型过于简单,这种情况称之为underfitting(欠拟合);

因此,特征的选择,对于算法的性能,是至关重要的。

那么问题是,怎样选取合适的特征,可以得到拟合特性最好的模型?

(1)在之后某一讲中,会提到特征选择算法,这是一类自动化的算法,可以在这类回归问题中选择要用到的特征。

(2)non-parametric learning algorithms 非参数化学习算法,可以在一定程度上缓解对于选取特征的需求。

定义:parametric learning algorithms 参数化学习算法, 是一类有固定数目的参数,以用来进行数据拟合的算法。

线性回归属于参数化学习算法。线性回归中,有一个固定的集合,一定可以拟合数据。

non-parametric learning algorithms 非参数化学习算法

定义:non-parametric learning algorithms 非参数化学习算法,是一类参数数量会随着m增长的算法,m代表训练集合的大小。

局部加权回归属于非参数化学习算法。 

 

1.局部加权回归 /Loess

对于确定的查询点x,在x处对假设h进行求值:

对于线性回归:

(1) fit  to minimize  

(2) return 

对于局部加权回归,工作有点不同:

对于查询点x,检查数据集合,然后只考虑位于x周围固定区域内的数据点,之后对这个数据子集使用线性回归来拟合出一条直线。

 

(1) fit  to minimize 

 

where   

 

if   small, then 

if   large, then 

 称为权值,对于和x离得近的点,赋予较大的权值;和x离得远的点,赋予较小的权值。

(2) return 

 

更一般地,

 

称作波长函数,控制权值随距离下降的速率。

 

 

2.线性模型的概率解释 

提出问题:在回归问题中,为什么选择最小二乘估计作为我们的优化目标?

首先假设输出和输入有如下的映射关系:

在房屋问题中,除了面积或者卧室数量之外,可能还存在一些我们没有捕获的特征,他们也对房屋的价格存在影响,这种影响可以看做随机噪声。

 意味着误差项,即我们未捕获特征以及其他随机噪声对房屋价格的影响总和。

假设 服从高斯分布,即 

这表示,在给定参数的时候,房屋的价格也服从高斯分布:

假设 独立同分布

公式

 称为参数的似然性

     

         

极大似然估计(Maximum likelihood):选择 使得数据出现的可能性尽可能大

定义 对数似然函数

      

      

因此等价于

 

等价于最小化   注意到最终结果与无关

 

该函数即为我们上一讲选择的成本函数

 

 

3.逻辑回归

分类:回归问题预测的变量y是连续变量,而分类问题中预测的变量y是离散变量。这里讨论二元分类,即限定

对分类问题使用线性回归可能是一个糟糕的主意。线性回归的预测值可能大于1,也可能小于0,而我们希望我们的假设预测的输出值在0,1 之间。

所以我们不选择线性函数作为假设,而选择

 称为sigmoid function 或者 logistic function.

的图像如下

概率意义上的解释:

将上述二式写在一起:

做参数的极大似然估计

   

        

       

 

为了使对数似然函数最大化,采样梯度上升法更新的值,之所以是上升而不是下降,是因为这里需要的是的极大值

 

  

  

        

               

 

    

         

 

 

4.感知器算法    

 

代替 logstic function: 

 

该函数生成的值只有0,1,所以为该函数赋予概率意义十分困难。

使用梯度上升法更新参数

 

第三讲完。

posted @ 2017-05-25 09:51  madrabbit  阅读(513)  评论(0编辑  收藏  举报