统计学习及监督学习概论（2）

《统计学习方法》（第二版）1.3

1.3 统计学习方法的三要素

模型就是所要学习的条件概率分布或决策函数。

损失函数度量模型一次预测的好坏。

风险函数度量平均意义下模型预测的好坏。

0-1损失函数

\[L(Y, f(X)) = \left\{ \begin{aligned} 1 && Y \ne f(X) \\ 0 && Y = f(X) \\ \end{aligned} \right. \]
平方损失函数（回归问题）

\[L(Y, f(X)) = (Y-f(X))^2 \]
绝对损失函数

\[L(Y, f(X)) = |Y-f(X)| \]
对数损失函数 / 对数似然损失函数

\[L(Y, f(X)) = -logP(Y|X) \]

\[R_{exp}(f)=E_p[L(Y,f(X))]=\begin{equation*} \int_{X \times Y} L(y,f(x))P(x,y)dxdy \end{equation*} \]

\[R_{emp}(f)=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i)) \]

\[R_{srm}(f)=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))+\lambda J(f) \]

第1项是经验风险，第2项是正则化项，\(\lambda \ge 0\)为调整两者之间关系的系数。

其中\(J(f)\)为模型的复杂度。模型越复杂，\(J(f)\)就越大。复杂度表示了对复杂模型的惩罚。

思想：经验风险最小的模型是最优的模型

e.g.极大似然估计

缺点：样本容量很小时，容易过拟合（over-fitting）

思想：结构风险最小的模型是最优的模型；等价于正则化；在经验风险上加上表示模型复杂度的正则化项/罚项，结构风险小需要经验风险与模型复杂度同时都小。

e.g.贝叶斯估计中的最大后验概率估计

优点：防止过拟合，对训练数据以及未知的测试数据都有较好的预测。

学习模型的具体计算方法。

posted @ 2019-05-17 22:46 白芷呀阅读(363) 评论(0) 收藏举报

刷新页面返回顶部