机器学习基石笔记8——为什么机器可以学习(4)
Lecture 8: Noise and Error
8.1 Noise and Probabilistic Target
我们来讨论一下,在有 Noise 的情况下 VC Bound 是不是还有效。

图 8-1
我们将噪声想像成能变色的 marble ,整个罐子里面的黄绿 marble 的比例大致不变。通过 sample 出的球(包括变色龙球,变色龙球 sample
过程中不变颜色)来估计罐子里面黄绿比例。这样就回到前几章,可以证明在有噪声的情况下 VC Bound 也是有效的。
在有 Noise 情况下,VC Bound still valid 但这不代表噪声没有一点点作用!比如噪声会导致过拟合(过拟合:模型在训练集上表现好于测试集,过度训练模型让模型能识别噪声数据。但是噪声数据的偏向与无序,测试集中噪声数据和训练集上的噪声数据分布有茶比的。所以模型肯定会在训练集中翻车)。其它的看下图 8-2

图 8-2
现实中数据为含有大都有噪音的情况,数据服从概率分布。对有噪声的数据,我们要选择错误率最新的目标 mini-target。

图 8-3
现在我们的学习流程由图 8-4 变成图 8-5
图 8-4

图 8-5
8.2 Error Measure
之前我们接触的错误 Measure 都是 0/1 错误,具有三个特点 out-of-sample、pointwise、classfication。还有一种常见的错误衡量方式 squared Error , often for regression。
图 8-6 简单地对比了 0/1 Error 和 squared Error

图 8-6
此时,我们又要新一下 机器学习流程。重点看图 8-7 绿框

图 8-7
Error Measure Method 不局限 0/1 Error 或 squared Error。 有时为了可以用一个有其他性质的 Error function(比如可导,用 tanh 取代 sigmod)。
图 8-8 是 svm 用的损失函数(Error Measure)

图 8-8
8.3 Algorithmic Error Measure
本节主要谈代价敏感错误率,在《西瓜书》p35 有相关的讨论。 给我们一种启示,根据实际应用场景来设计适合的损失函数。而且在后学课程可以看到有时会用可导的损失函数来 replace current loss function。
如果噪声是高斯分布,可以用平方误差。根据需求选择适当的 tools(本节是 Error function) 这种思想在后续章节还能看出,比如对特殊的数据分布采取特殊的 regularized function。问题是如何设计呢?这个不太容易
现在,学习流程更新为图 8-9

图 8-9
8.4 Weighted Classification

图 8-10
图 8-10:等价问题是将原始问题中数据集D中标记为-1的所有数据样本都复制1000次,再将损失矩阵表示不含加权的损失矩阵。
题外话:
噪声这个话题是个很大的话题,在后续的章节里面还会涉及的。后面的 13 章 Overfitting 结合 datasize 等讨论 Nosie
涉及到的关键词:代价敏感
svm hinge 损失优良的性质
图 8-10: 好想法
T1: 第 14 节第 4 小节中有关于本节的话题 (target-dependent、plausible、friendly 三个准则)
T2:看个截自《西瓜书》的图

图 8-11

浙公网安备 33010602011771号