机器学习基石笔记8——为什么机器可以学习（4）

Lecture 8： Noise and Error

8.1 Noise and Probabilistic Target

我们来讨论一下，在有 Noise 的情况下 VC Bound 是不是还有效。

图 8-1

我们将噪声想像成能变色的 marble ，整个罐子里面的黄绿 marble 的比例大致不变。通过 sample 出的球（包括变色龙球，变色龙球 sample

过程中不变颜色）来估计罐子里面黄绿比例。这样就回到前几章，可以证明在有噪声的情况下 VC Bound 也是有效的。

在有 Noise 情况下，VC Bound still valid 但这不代表噪声没有一点点作用！比如噪声会导致过拟合（过拟合：模型在训练集上表现好于测试集，过度训练模型让模型能识别噪声数据。但是噪声数据的偏向与无序，测试集中噪声数据和训练集上的噪声数据分布有茶比的。所以模型肯定会在训练集中翻车）。其它的看下图 8-2

图 8-2

现实中数据为含有大都有噪音的情况，数据服从概率分布。对有噪声的数据，我们要选择错误率最新的目标 mini-target。

图 8-3

现在我们的学习流程由图 8-4 变成图 8-5

图 8-4

图 8-5

8.2 Error Measure

之前我们接触的错误 Measure 都是 0/1 错误，具有三个特点 out-of-sample、pointwise、classfication。还有一种常见的错误衡量方式 squared Error ， often for regression。

图 8-6 简单地对比了 0/1 Error 和 squared Error

图 8-6

此时，我们又要新一下机器学习流程。重点看图 8-7 绿框

图 8-7

Error Measure Method 不局限 0/1 Error 或 squared Error。有时为了可以用一个有其他性质的 Error function（比如可导，用 tanh 取代 sigmod）。

图 8-8 是 svm 用的损失函数（Error Measure）

图 8-8

8.3 Algorithmic Error Measure

　　本节主要谈代价敏感错误率，在《西瓜书》p35 有相关的讨论。给我们一种启示，根据实际应用场景来设计适合的损失函数。而且在后学课程可以看到有时会用可导的损失函数来 replace current loss function。

如果噪声是高斯分布，可以用平方误差。根据需求选择适当的 tools（本节是 Error function）这种思想在后续章节还能看出，比如对特殊的数据分布采取特殊的 regularized function。问题是如何设计呢？这个不太容易

现在，学习流程更新为图 8-9

图 8-9

8.4 Weighted Classification

图 8-10

图 8-10：等价问题是将原始问题中数据集D中标记为-1的所有数据样本都复制1000次，再将损失矩阵表示不含加权的损失矩阵。

题外话：

噪声这个话题是个很大的话题，在后续的章节里面还会涉及的。后面的 13 章 Overfitting 结合 datasize 等讨论 Nosie

涉及到的关键词：代价敏感

svm hinge 损失优良的性质

图 8-10：好想法

　　　　 T1：第 14 节第 4 小节中有关于本节的话题（target-dependent、plausible、friendly 三个准则）

T2：看个截自《西瓜书》的图

图 8-11

posted @ 2017-12-18 20:16 tmortred 阅读(137) 评论(0) 收藏举报

刷新页面返回顶部