统计学习方法概论

统计学习的

　　特点是：关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科

对象是：数据

　　目的是：进行预测与分析

　　目标是：从假设空间中选取最优模型

　　方法是：监督学习（重点），非监督学习，半监督学习，强化学习

　　　　　　三要素：模型，策略，算法

　　研究是：统计学习方法，理论，应用

　　重要性是：~~~在各个领域都取得了很多成就。。。不解释，哈哈哈

　　了解了以上的内容，就要开始学习统计学习的方法啦，因为计算机的基本操作就是给定一个输入产生一个输出，监督学习符合计算机的“习性”，所以我们把学习的重点放在监督学习上

监督学习：（利用训练数据集学习一个模型，再对测试样本进行预测；过程中需要训练数据集，而训练数据集往往是人工给出的，所以称之为监督学习）

目的是：学习一个由输入到输出的映射

概念是：

输入空间：输入和输出所有可能取值的集合；每个具体的输入是一个实例（instance），用特征向量（feature vector）表示；

特征向量存在的空间成特征空间（feature space）；

模型实际都是定义在特征空间上的。

输入实例x的特征向量：；

训练集记为：，输出变量(Y(大写))的取值记为y（小写）；

输入与输出都为连续变量的预测问题称为回归问题；

输出为有限个离散变量的预测问题为分类问题；

两者都为变量序列的预测问题称为标注问题；

联合概率分布：两个事件共同发生的概率，表示为P(A，B)或者P（AB）

模型是：概率模型P(Y|X)或者决策函数Y=f(X)

过程是：学习和预测

问题的形式化：

统计学习三要素：

模型：

就是：所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数

假设空间可以定义为决策函数的集合：，当然也可以定义为条件概率的集合：

策略：

有了模型的假设空间，我们就需要一个策略来选择一个合适的模型。那么我们就需要一个衡量模型好坏程度的一个标准，这里我们引入损失函数和风险函数。

损失函数是f（X）和Y的非负实值函数，记为：L(Y,f(X))

常用的损失函数：

模型的（X,Y）是随机变量，遵循联合分布P（X,Y），所以损失函数的期望是：

*监督学习存在病态问题

那么，模型关于训练数据集的平均损失称为：经验风险或经验损失函数公式：

经验风险最小化函数公式：

比如：极大似然估计就是经验风险最小化的一个例子。当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计。（如何证明？）

结构风险最小化（SRM）等于正则化；

定义：，J（f）是模型的复杂度，模型f越复杂，J（f）就越大，表示了对复杂模型的惩罚，是惩罚系数

应用：贝叶斯估计中的最大后验概率估计（MAP）就是ＳＲＭ的一个例子。

监督学习问题就变成了经验风险或MAP问题啦…^_^

算法：

　　是指：学习模型的具体计算方法。

模型估计与模型选择

5.正则化与交叉验证

regularization 是结构风险最小化策略的实现，是在经验风险上加一个正则化项（regularizer）或罚项（penalty term）

正则化一般具有的形式：，第一项是经验风险，第二项式是正则化项，是调整两者之间的系数。

cross validation 随机的将数据集分为训练集验证集测试集三者交叉验证。

6.泛化能力

学习方法的generalization ability 是指由该方法学习到的模型对未知数据的预测能力。

评价标准：通过测试误差来评价泛化能力

泛化误差，反应了泛化能力。

学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的，也就是泛化误差上界（generalization error bound），具体来说，就是通过比较两种学习方法

的泛化误差上界的大小来比较它们的优劣

7.生成模型与判别模型

前面的学习我们已经知道监督学习的两种模型。

监督学习方法分为：生成方法和判别方法

生成方法：是由数据学习联合概率分布，然后求出条件概率分布作为预测的模型，也就是生成模型：

典型的有：朴素贝叶斯法和隐马尔可夫模型

判别方法：由数据直接学习决策函数或者条件概率分布作为预测的模型，也就是判别模型。

典型的判别模型有：k近邻法，感知机，决策树，svm，条件随机场等

三大预测任务

8.分类问题（前面已经提到过）

分类是监督学习的一个核心问题。

分类器对新的输入进行输出的预测称为分类，可能的输出称为类（class）。

评价分类器性能的指标一般是分类准确率，分类器正确分类的样本与总样本数之比，也就是损失函数是0-1损失时测试数据集上的准确率

二分类问题的评价指标是：精确率与召回率。通常以关注的类为正类，其他类为负类。

9.标准问题

标准问题的输入是一个观测序列，输出是一个标记序列或状态序列。

标注常用的统计学习方法有：隐马尔可夫模型，条件随机场

10.回归问题

特别是当输入变量的值发生变化时，输出变量的值随之发生的变化

回归学习最常用的损失函数是平方损失函数，回归问题可以由著名的最小二乘法（least squares）求解。

习题：

看到的一篇博文：http://blog.csdn.net/icecutie/article/details/51597779