[FML]学习笔记三 Rademacher Complexity

该章节证明用到的不等式:Hoeffding不等式,McDiarmid不等式以及jensen不等式

Hoeffding's:

clip_image001

McDiarmid不等式是Hoeffding不等式的一个推广,用f(S)代替了和函数Sm,用ci代替了(bi-ai):

clip_image002

Jensen’s inequality:

If x is a random variable and φ is a convex function,then:

      φ(E(x))<=E(φ(x))

在前面PAC Learning Model的推广中,只证明了对于有限H的情况下PAC的有效性,那么对于H的大小是无限的情况,是否能够 进行有效的学习呢?在前一章中的矩阵的例子就是一个无限H大小的例子,并且已经被证明了是PAC-learnable的。本章中我们将要为无限大小的假设集H的情况推导general learning guarentees。

既然H的大小是无限的,那么我们就不能用H的大小来表示H的complexity,在这里引入Rademacher Complexity的概念来标记H的complexity。

g是一个损失函数将(x,y)映射至L(h(x),y),G是g的集合。

Rademacher Complexity通过测量一个假设集H能够fit随机噪点的程度来表达H的complexity:

clip_image004

        注意,б的取值是离散的{-1,1}

我们知道向量的内积可以表示两个向量的关系程度,empirical Rademacher complexity测量的就是函数集G在S上与random noise的关系程度。我们知道complexity越大的G就会有越多的gs,那么就能够更好的适应random noise。

clip_image005

下面基于Rademacher complexity给出第一个generalization bound:

clip_image006

clip_image007

clip_image008

将(3.13)得到的结论以及(3.5)带回(3.7),并且使用δ/2替代δ,就得到了(3.3)的推论。

clip_image009

clip_image010

这里有一点不太懂个,为什么changing one point in S changes Rs(G) by at most 1/m?????????

下面在具有0-1 loss function的binary classification上使用Redemacher Complexity:

clip_image011

也就是说,损失函数集G的经验Redemacher Complexity是假设集的经验Remacher Complexity的一半。

两边取期望可以得到对于任何一个样本集大小m>=1的binary classification,有:

clip_image012

证明很简单:

clip_image013

可以利用lemma 3.1对二项分类问题使用公式(3.3)(3.4)得到generalization bound:

clip_image014

注意这里的R(h)是损失函数不是Redemacher。

posted @ 2014-09-29 16:21  TimCheng  阅读(6350)  评论(0编辑  收藏  举报