统计学习方法(一)统计学习方法概论
1.统计学习
当人们提及机器学习时,往往指的是统计机器学习。
统计学习的目的是对数据进行预测和分析。
学习:如果一个系统能够通过执行某个过程改进它的性能,这就是学习。
统计学习关于数据的基本假设:同类数据具有一定的统计规律性。
统计学习的方法:模型、策略、方法。
统计学习包括:监督学习、非监督学习、半监督学习、强化学习。
2.监督学习
监督学习是从训练数据集中学习模型,对测试数据进行预测。
输入变量X和输出变量Y有不同的类型:
- 输入变量X和输出变量Y均为连续变量的预测问题称为回归问题。
- 输出变量Y为有限个离散变量的预测问题称为分类问题。
- 输入与输出均为变量序列的预测问题称为标注问题。
监督学习关于数据的基本假设是:输入与输出的随机变量X和Y遵循联合概率粉扑P(X,Y)。P(X,Y)表示分布函数,或分布密度函数。
3.统计学习三要素
方法 = 模型 + 策略 + 方法
3.1模型
在监督学习中,模型就是所要学习的条件概率分布或决策函数。
3.2策略
策略就是考虑按照什么样的准则学习或选择最优模型。
统计学习的目标:从假设空间中选取最优模型。
损失函数和风险函数:损失函数度量模型一次预测的好坏;风险函数度量平均意义下模型预测的好坏。
统计学习常用的损失函数有:
- 0-1损失函数
- 平方损失函数
- 绝对值损失函数
- 对数损失函数
损失函数的期望(所有的每次预测的损失相加),是理论上联合分布P(X,Y)的平均意义下的损失,称为风险函数或期望损失。
学习的目标就是选择期望风险最小的模型。
监督学习的两个基本策略:经验风险最小化、结构风险最小化。
EM 经验风险最小化
贝叶斯估计 结构风险最小化。
结构风险最小化是在经验风险最小化的基础上加上表示模型复杂度的正则化项或罚项。
3.3算法
考虑用什么样的计算方法求解最优模型。
通常利用已有的最优化算法,有时也需要开发独自的最优化算法。
4.模型评估与模型选择
训练误差:模型关于训练数据集的平均损失。
测试误差:模型关于测试数据集的平均损失。
经验风险:模型关于训练数据集的平均损失。(与训练误差等价)
当损失函数是0-1损失的时候,测试误差就变成了常见的测试集上的误差率。
测试误差反应了学习方法对未知的测试数据集的预测能力。
通常将学习方法对未知数据的预测能力成为泛化能力。
过拟合:是指学习时选择的模型所包含的参数过多,以至于出现这一模型对已知的数据预测得很好,但对未知数据预测很差的现象。【训练误差小,测试误差大】

两种常见的模型选择方法:正则化与交叉验证。
5.正则化与交叉验证
正则化是结构风险最小化策略的实现。是在经验风险(训练误差)上加上一个正则化项(罚项)。正则化项一般是单增函数,模型复杂度越复杂,正则化项越大。
经验风险+正则化项
正则化项通常是参数向量的L2范数(岭回归)、L1范数(Lasso)。
正则化复合奥卡姆剃刀原理:在所有可选择的模型中,能够很好解释已知数据并且十分简单才是最好的模型。
交叉验证:
1.简单交叉验证
随机将数据分为两部分,一部分作为训练集,一部分作为测试集
2.S折交叉验证
随机将数据分为S份。利用S-1个子集作为训练,利用剩下的子集用于测试。如果有n个模型,需要训练n*s次。
3.留一交叉验证
在数据缺乏的情况下使用。留下一个作为测试集。循环测试。
6.泛化能力
泛化能力是指该学习方法学习到的模型对未知数据的预测能力,是学习方法本质上最重要的本质。
7.生成模型和判别模型
判别模型
该模型主要对p(y|x)建模,通过x来预测y。在建模的过程中不需要关注联合概率分布。只关心如何优化p(y|x)使得数据可分。通常,判别式模型在分类任务中的表现要好于生成式模型。但判别模型建模过程中通常为有监督的,而且难以被扩展成无监督的。
常见的判别式模型有:
Logisticregression
Lineardiscriminant analysis
Supportvector machines
Boosting
Conditionalrandom fields
Linearregression
Neuralnetworks
生成模型
该模型对观察序列的联合概率分布p(x,y)建模,在获取联合概率分布之后,可以通过贝叶斯公式得到条件概率分布。生成式模型所带的信息要比判别式模型更丰富。除此之外,生成式模型较为容易的实现增量学习。
常见的生成式模型有:
Gaussian mixture model and othertypes of mixture model
HiddenMarkov model
NaiveBayes
AODE
LatentDirichlet allocation
RestrictedBoltzmann Machine
由上可知,判别模型与生成模型的最重要的不同是,训练时的目标不同,判别模型主要优化条件概率分布,使得x,y更加对应,在分类中就是更可分。而生成模型主要是优化训练数据的联合分布概率。而同时,生成模型可以通过贝叶斯得到判别模型,但判别模型无法得到生成模型。前面提到过,输入变量和输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入变量与输出变量均为变量序列的预测问题称为标注问题。
对于二分类问题,常用的评价指标是精确率和召回率。通常以关注的类为正类,其他类为负类,分类器在测试数据集上的预测或正确或不正确,4中情况出现的总数分别记为:
TP——将正类预测为正类数;
FN——将正类预测为负类数;
FP——将负类预测为正类数;
TN——将负类预测为负类数。
则,精确率定义为:
许多统计方法可以用于分类,包括k近邻法、感知机、朴素贝叶斯法、决策树、决策列表、逻辑斯谛回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、Winnow等。
标注问题的输入是一个观测序列,输出是一个标记序列。标注问题在信息抽取、自然语言处理等领域被广泛采用。例如,自然语言处理中的词性标注就是一个典型的标注问题:给定一个由单词组成的句子,对这个句子中的每一个单词进行词性标注,即对一个单词序列预测其对应的词性标记序列。标注常用的统计学习方法有:隐马尔科夫模型、条件随机场。
回归问题的学习等价于函数拟合:选择一条函数曲线使其很好的拟合已知数据且很好地预测未知数据。回归问题按照输入变量的个数分为一元回归和多元回归,按照输入变量和输出变量之间的关系的类型即模型的类型,分为线性回归和非线性回归。回归学习最常用的损失函数时平方损失函数,在此情况下,回归问题可以用著名的最小二乘法求解。

浙公网安备 33010602011771号