机器学习基石笔记-Lecture 4 Learning is possible

hoeffding 不等式说明了在样本量足够大时，抽样估计能够接近真实值。

类比到ml中，对给定的一个假设空间中的h, 它在整个样本空间中的表现可以由在部分样本点上的表现来近似。也就是说样本足够多的时候，Ein与Eout近似相等。

现在已经知道对任意给定的h，在N足够大时，Ein近似于Eout，如果 Ein 非常小，那么Eout也就小，就说明这个 h 和真实的 f 在很大概率上是很接近的。

现在的一个问题是，如果在多个假设中，其中一个假设h针对训练数据的输出都是正确的，也就是Ein为0，是不是就应该选择这个h作为算法A的输出？

这里提出一个 bad data的概念，对一个数据集D，h的Ein和Eout差别很大，那么这个数据集D就是不好的。

hoeffding不等式其实是对样本空间的一个“抽样”穷举，然后在很多次的抽样中，只有很少次的抽样是bad data，也就是让Ein和Eout差别比较大。所有说很大概率上Ein和Eout近似。

对多个假设函数而言的bad data定义：

对每一行h，根据hoeffding不等式，bad data的概率是很小的

对每一列Di，如果在某些h上是bad data，那么A就不能自由的选择。

像D1126就是对整个假设空间H或者说算法A是一个好的数据集（个人理解）

对有M个h的假设空间，bad data出现的概率被限制住

至此，对有限基数的假设空间，只要N足够大，不管A如何选g，训练数据如何选取，g的训练错误率和真实的错误率都很接近。

只要算法A找到一个Ein很小的g，那么就能够用来接近真实f。这样算法就有可能学到有用的知识。

posted @ 2017-06-20 15:44 Akane 阅读(232) 评论(0) 收藏举报

刷新页面返回顶部

Akane