【统计学习】统计学习三要素

统计学习方法三要素

模型

模型是所要学习的条件概率分布或者决策函数。

策略

统计学习的目的在于从假设空间中选取最优模型。故需要引入损失函数与风险函数。

损失函数:衡量模型一次预测的好坏。
风险函数:衡量平均意义模型预测的好坏。

损失函数和风险函数

  • 0-1损失函数

\[L(Y,f(X))=\begin{cases} 1, Y \neq f(X)\\ 0, Y = f(X)\\ \end{cases} \]

  • 平方损失函数

\[L(Y,f(X))=(Y - f(X))^2 \]

  • 绝对损失函数

\[L(Y,f(X))=|Y - f(X)| \]

  • 对数损失函数

\[L(Y,f(X))=-logP(Y|X) \]

损失函数值越小,模型就越好。
模型的输入、输出(X,Y)是随机变量,遵循联合分布P(X,Y),损失函数的期望

\[R_{exp}(f)=E_{P}[L(Y,f(X))] \]

期望风险与经验风险之间的关系

期望风险\(R_{exp}(d)\)是模型关于联合分布的期望损失,经验风险\(R_{emp}(f)\)是模型关于训练样本集的平均损失。根据大数定律,当样本N趋近于无穷时,经验风险趋于期望风险。

经验风险最小化与结构风险最小化

当样本容量足够大时,经验风险最小化能保证有很好的学习效果,极大似然估计就是经验风险最小化的例子(当模型是条件概率分布,损失函数是对数函数时,经验风险最小化就等价与极大似然估计)。
但当样本容量很小时,经验风险最小化的学习效果未必很好,会产生过拟合现象。
结构风险:在经验风险上加上模型复杂度的正则化项或惩罚项

\[R_{srm}(f) = \frac{1}{N}\sum_{i=1}^NL(y_{i},f(x_{i})) + \lambda J(f) \]

J(f)为模型复杂度:模型f越复杂,复杂度就越大;反之,模型f越简单,复杂度就越小。\(\lambda \geq 0\)是系数,用来权衡经验风险和模型复杂度
最大后验概率估计与结构风险最小化关系:当模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型的先验概率表示时,结构风险最小化等价于最大后验概率估计

算法

求解最优化问题的算法

posted @ 2021-01-27 22:35  逆风飞扬pro  阅读(270)  评论(0)    收藏  举报