公告

笔记来源于《统计学习方法》——李航著

统计机器学习（1）-统计学习方法概论

1.1统计学习

统计学习的对象是data，从数据出发，提取数据的特征，抽象出数学模型，发现数据中的知识，又回到对数据的分析和预测中去。

统计学习由监督学习，非监督学习，半监督学习和强化学习等组成。

监督学习：从给定的，有限的，用于学习的训练数据（training data）集合出发，假设数据独立同分布；并且假设要学习的模型属于某个函数的集合，称为假设空间（hypothesis space），应用于某个评价准则（evaluation criterion），从假设空间中选择一个最优的模型使得它対已知训练数据以及未知测试数据在给定的评价标准下有最优的预测；最优模型的选取由算法实现，这样，统计学习包括模型的假设空间，模型选择的准则以及模型学习的算法，称为统计学习的三要素

model	strategy	algorithm
模型	策略	算法

得到一个有限的训练数据的集合
确定包含所有可能的模型的假设空间
确定模型选择的准则（strategy）
实现求解最优模型的算法（algorithm）
通过学习方法选择最优模型
利用学习的最优模型对新数据预测或分析

1.2监督学习

Input Space：输入的所有可能值得集合

Output Space：输出地所有可能值得集合

每个具体的输入是一个实例（instance），通常由特征向量（feature vector）表示。

输入实例x的特征向量

\[x=(x^{(1)},x^{(2)},x^{(3)},\dots,x^{(n)})^{T} \]

\[x_i=(x_i^{(1)},x_i^{(2)},\cdots,x_i^{(n)})^T \]

\[T=\lbrace (x_1,y_1),\cdots (x_n,y_n)\rbrace \]

输入$x$和输出$y$有不同的类型，可以是连续的，也可以是离散的。
if 输入变量和输出变量均连续------>回归问题

if 输出变量为有限个离散变量的预测问题-------->分类问题

if 输入变量和输出变量均为变量序列的预测问题-------->标注问题

监督学习假设输入与输出的随机变量$X$和$Y$服从联合概率分布$P(X,Y)$,$P(X,Y)$表示分布函数（分布密度函数）

在学习过程中，假设这一联合概率分布存在，但对学习系统来讲，联合概率分布的具体定义是未知的。

$X$和$Y$具有联合概率分布的假设是监督学习关于数据的基本假设

监督学习的目的在于学习一个由输入到输出地映射，这一映射由模型来表示，监督学习的模型可以使概率模型或者是非概率模型，由条件概率分布$P(Y|X)$或决策函数$Y=f(X)$表示，对具体的输入进行相应的输出预测时，写作$P(y|x)$或$y=f(x)$。

条件概率分布$\widehat{P}(Y|X)$或决策函数$Y=\widehat{f}(X)$描述输入和输出向量之间的关系。

统计学习的三要素

模型

\[\mathcal{F}=\{f|Y=f(x)\} \]

$\mathcal{F}$定义为模型的假设空间，$X$和$Y$是定义在输入空间$\mathcal{X}$和输出空间$\mathcal{Y}$上的变量，这时的$\mathcal{F}$
通常是一个由参数向量来决定的函数族。

\[\mathcal{F}=\{f|Y=f_{\theta}(x)\} \]

参数向量$\theta$取值于$n$维欧式空间$R^{n}$称为参数空间

另外一种定义方式是：

\[\mathcal{F}=\{P|P(Y|X)\} \]

\[\mathcal{F}=\{P|P_{\theta}(Y|X)\} \]

策略

损失函数（loss function）：度量模型一次预测的好坏
风险函数（risk function）：度量平均意义下模型预测的好坏

0-1 loss function $$ \mathcal{L}(Y,f(X))=\left{
\begin{aligned}
&1 &Y\neq f(X)\
&0 & Y= f(X) \
\end{aligned}
\right.

\[>quadratic loss function $$\mathcal{L}(Y,f(X))=(Y-f(X))^2\]

absolute loss function

\[\mathcal{L}(Y,f(X))=|Y-f(x)| \]

logarithmic loss function

\[\mathcal{L}(Y,f(X))=-\log P(Y|X) \]

对于loss function的期望（expectation）

\[R_{\exp}(f)=E_p[\mathcal{L}(Y,f(X))]=\int_{X\cdot Y}\mathcal{L}(y,f(x))P(x,y)dxdy \]

这是理论上模型$f(X)$关于联合分布$P(X,Y)$的平均意义下地损失，称为风险函数（risk function）。

学习的目标就是选择风险函数最小的模型。由于联合分布$P(X,Y)$未知，$R_{\exp}(f)$不能直接计算，实际上，如果知道联合分布$P(X,Y)$可以从联合分布直接求出条件概率分布$P(Y|X)$，也就不需要学习了。

给定一个训练集$$T={(x_1,y
_1),\cdots,(x_N,y_N)}$$
模型$f(X)$关于训练数据集的平均损失称为经验风险（empirical risk）或经验损失（empirical loss），记作$R_{emp}$:

\[R_{emp}(f)=\frac{1}{N}\sum_{i=1}^N\mathcal{L}(y_i,f(x_i)) \]

期望风险$R_{\exp}(f)$是模型关于联合分布的期望损失，经验风险$R_emp(f)$是模型关于训练样本集的平均损失。根据大数定理，当样本容量N趋于无穷时，经验风险$R_{emp}$趋于$R_{\exp}$。

经验风险最小化和结构风险最小化

经验风险最小化（empirical risk minimization，ERM）的策略认为，经验风险最小的模型是最优的模型。根据这一策略，按照经验风险最小化求解模型就是求解最优化问题：

\[\min_{x \in R} \frac{1}{N}\sum_{i=1}^N\mathcal{L}(y_i,f(x_i)) \]

其中$\mathcal{L}$是假设空间。

极大似然估计（maximum likelihood estimation）就是经验风险最小化的一个例子。当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计。

但是，当样本容量很小时，经验风险最小化学习的效果未必很好，会产生过拟合现象。

结构风险最小化（structural risk minimization ，SRM）是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化（regularization）。在假设空间，损失函数以及训练数据集确定的情况下，结构风险的定义是：

\[R_{srm}(f)=\frac{1}{N}\sum_{i=1}^N\mathcal{L}(y_i,f(x_i))+\lambda J(f) \]

其中$J(f)$为模型的复杂度，是定义在假设空间$\mathcal{F}$上的泛函。模型f越复杂，复杂度$J(f)$就越高。结构风险小需要经验风险和模型复杂度同时小。结构风险小的模型往往对训练数据以及未知的数据都有较好的预测。

叶斯估计中的最大后验概率估计（maximum posterior probability estimation ，MAP）就是结构风险最小化的一个例子。当模型是条件概率分布，损失函数是对数损失函数，模型复杂度由模型的先验概率表示时，结构风险最小化就等价于最大后验估计。
同样的，等价于求解最优化问题：

\[\min_{f\in \mathcal{F}}\frac{1}{N}\mathcal{L}(y_i,f(x_i))+\lambda J(f) \]

算法

由于统计学习问题归结为最优化问题，统计学习的算法称为求解最优化问题的算法。一般而言是用数值的方法求解出全局最优解。

模型评估与模型选择

posted on 2015-09-18 16:32 mingzailao 阅读(190) 评论(0) 收藏举报

刷新页面返回顶部