统计学习方法1:统计学习方法概论

1、特点

统计学习以数据为研究对象(数据驱动),以方法为中心,目的是为了对数据进行预测与分析。

2、方法

统计学习包括监督学习,非监督学习,半监督学习,强化学习。(以监督学习为主进行介绍)

统计学习的方法包括模型的假设空间、模型选择的准则以及模型学习的方法。

统计学习方法三要素:

  •  模型:模型的假设空间 
  • 策略:模型选择的准则 
  • 算法:模型学习的算法

统计学习方法步骤

  1. 得到一个有限训练数据集
  2. 确定包含所有可能的模型假设空间,即学习模型的集合
  3. 确定模型选择的准则,即学习的策略
  4. 实现求解最优模型的算法,即学习的方法
  5. 通过学习方法选择最优模型
  6. 利用学习的最优模型对新数据进行预测与分析


监督学习

其任务是学习一个模型,使模型能够对于任意给定的输入,对其对用的输出做出一个好的预测(此处的输入输出为系统的输入输出,与学习的输入输出不同)

 

统计学习三要素

方法=模型+策略+算法

统计学习首要考虑的问题是学习什么样的模型,接着考虑按照什么样的准则学习或选择最优的模型。

策略:用经验风险估计期望风险。

经验风险是模型关于训练样本集的平均损失;

期望风险是模型关于联合分布的期望损失;

但是经验风险估计期望风险往往不理想,要对经验风险进行矫正,这关系到监督学习的两个基本策略:经验风险最小化和结构风险最小化。

 

损失函数:

 

 

 

风险函数

 

风险函数(期望损失)可以度量平均意义下模型预测的好坏。也就是对于整个输入输出空间的损失函数的期望。 
这里写图片描述

这是理论上模型f(x)关于联合分布P(X, Y)的平均意义下的损失,称为风险函数(risk function)或期望损失(expected loss)。需要特别说明一下。在监督学习当中,我们假设输入和输出的随机变量和服从联合概率分布P(X, Y)。但是这个分布对于我们来说,是不可知的,如果可知,我们就可以直接通过P(X, Y)来求解P(Y/X),而不需要使用统计学习方法了。 显然,对应我们来说,学习的目标就是选择期望风险最小的模型(即最好的策略就是找到让风险函数最小的模型)。可是,风险函数的计算需要用到P(X, Y),我们对它又不可知,所以监督学习就成了一个病态问题(ill-formed problem)。 
———在统计学中有一个大数定律,如果我在输入输出空间中取一个足够大的样本,用这个样本来近似的计算风险函数R_{exp}(f)。基于这样的想法,我们对于含有N组数据的训练集,定义经验损失函数: 
模型f(x)关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失(empirical loss),记作Remp。 
这里写图片描述 
期望风险Rexp(f)是模型关于联合分布的期望损失,经验风险Remp(f)是模型关于训练样本集的平均损失。根据大数定律,当样本容量N趋于无穷时,经验风险Rempf(x)趋于期望风险Rexpf(x),所以一个很自然的想法是用经验风险估计期望风险。但是,由于现实中训练样本数目有限甚至很小,所以用经验风险估计期望风险常常并不理想,常常会导致过拟合。为了防止过拟合现象,结构风险最小化这个策略被提了出来。

 

 

经验风险最小化

 

在假设空间,损失函数以及训练数据集确定的情况下,经验风险函数式就可以确定,经验风险最小化(empirical risk minimizatiion, ERM)的策略认为,经验风险最小的模型是最优模型。 
这里写图片描述 

当样本容量是够大时,经验风险最小化能保证有很好的学习效果,在现实中被广泛应用,比如,极大似然估计(maximum likelihood estimation)就是经验风险最小化的一个例子,当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。但是,当样本容量很小时,经验风险最小化学习的效果就未必很好,会产生“过拟合(over-fitting)”现象。

结构化风险最小化

结构化风险最小化(structural risk minimization, SRM)是为了防止过拟合而提出来的策略。结构风险在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term)。在假设空间,损失函数以及训练数据集确定的情况下,结构风险的定义是: 
这里写图片描述 
其中J(f)为模型的复杂度,是定义在假设空间 F 上的泛函,模型 f 越复杂,复杂度J(f)就越大;反之,模型 f 越简单,复杂度J(f)就越小,也就是说,复杂度表示了对复杂模型的惩罚,λ≥0是系数,用以权衡经验风险和模型复杂度,结构风险小需要经验风险与模型复杂度同时小,结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测。 
结构风险最小化的策略认为结构风险最小的模型是最优的模型: 
这里写图片描述

模型评估与选择

方法:正则化和交叉验证

正则化:在经验风险上加正则化项

交叉验证(在数据不充足时使用):当数据充足时,将数据随机分为训练集(训练模型)、验证集(选择模型)、测试集(评估最终的学习方法),选择对验证集有最小预测误差的模型。数据不充足时用交叉验证,基本思想为重复利用数据。

 

 

泛化能力

泛化误差是所学习到的模型的期望误差。

泛化误差上界:通过比较两种学习方法的泛化误差上界的大小来比较优劣。泛化误差上界有以下性质:它是样本容量的函数,当样本容量增加时,泛化误差上界趋于0;它是假设空间容量的函数,假设空间容量越大,模型越难学,泛化误差上界就越大。

 

生成模型与判别模型

生成方法由数据学习联合概率分布P(X,Y)P(X,Y),然后求出条件概率分布作为预测的模型,即生成模型: 
P(Y|X)=P(X,Y)P(X)P(Y|X)=P(X,Y)P(X) 
典型的生成方法有:朴素贝叶斯和隐马尔科夫模型。

优点:可以还原出联合概率分布P(X,Y)P(X,Y);学习收敛速度更快,存在隐变量时,仍然可以使用。 
判别方法由数据直接学习决策函数或者条件概率分布函数作为预测的模型,即判别模型。

典型的判别模型包括:k近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法和条件随机场等。

判别方法:直接面对预测,往往学习的准确率更高;同时可以简化学习问题。

分类

分类是监督学习的一个核心问题。当输出变量去有限个离散值时,预测问题便成为分类问题(输入可以是离散的也可以是连续的);分类问题分为学习和分类两个过程

标注

输入变量与输出变量均为变量序列的预测问题(输入是一个观测序列,输出是一个标记序列或状态序列)

回归

回归用于预测输入变量与输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量是值随之发生的变化。分为学习和预测两个过程

posted @ 2018-04-18 12:45  QueenJulia  阅读(59)  评论(0)    收藏  举报