机器学习基石-笔记4
Feasibility of Learning 机器学习的可行性
1. 看起来似乎是不可学习的~
1)不同的g会得到不同的答案

a. 对称 得到的结果是+1 b. 左上角为黑色 得到的结果是-1
2)数据集内表现很好,数据集外表现不好

g ≈ f inside D: sure!
g ≈ f outside D: No! (but that’s really what we want!)
3. 根据上述分析,算法对于未知的数据不能满意的结果。但是在某些情况下,我们可以根据已知的数据集,对未知的数据进行分析。

一个瓶子里有一些绿色小球和橙色小球,我们从瓶子里取一部分小球(称为样本),然后计算绿色小球和橙色小球的比例。我们可以根据样本中绿色小球和橙色小球的比例来推断瓶子里绿色小球和橙色小球的比例吗?

我们能够利用小球样本对瓶子里的小球比例进行分析,前提是小球的独立同分布且总数足够大。

larger sample size N or looser gap
=⇒ higher probability for ‘ν ≈ µ’
接下来,我们讨论上述分析和学习算法的联系。 橙色球类比学习结果和目标函数结果不一致,即学习错误,绿色球类比学习结果和目标函数一致,即学习正确。


当有多个hypothesis时:




Hoeffding不等式,建立Ein和Eout的联系,证明对于某个h,当N足够大的时候,Ein和Eout是PAC的。最后,对于h个数很多的情况,只要有h个数M是有限的,且N足够大,就能保证Ein≈Eout,证明机器学习是可行的。

浙公网安备 33010602011771号