【笔记】机器学习基础 - Ch3. Rademacher Complexity & VC-Dimension
🥰 | 😱
3.1 Rademacher Complexity
现在考虑无限集合 \(\cal H\),并给出几个 guarantee
损失函数为映射 \(L:\cal Y\times Y\to \mathbb{R}\);样本 \((x,y)\) 通过某个假设 \(h\in \cal H\) 再通过某个损失函数,可以视作一个从 \(\cal Z=X\times Y\) 到 \(\mathbb{R}\) 的映射 \(g\),其集合 \(\cal G\) 用以表示上述 “基于 \(\cal H\) 的损失函数集合”:\({\cal G}=\{g:(x,y)\mapsto L(h(x),y):h\in\cal H\}=\{g:\cal Z\to \mathbb{R}\}\)
Rademacher Complexity 通过刻画函数集合 “拟合噪声的能力”,进而刻画其丰富程度(captures the richness of a family of functions by measuring the degree to which a hypothesis set can fit random noise)
定义 Empirical Rademacher complexity
函数集合 \(\cal G=\{g: Z\to [a,b]\}\);样本 \(S=(z _1,\dotsb, z _m)\in \cal Z ^m\),定义 \(\cal G\) 就关于 \(S\) 的 “经验 Rademacher 复杂度” 为:
其中 “噪声” \(\boldsymbol{\sigma}=(\sigma _1,\dotsb,\sigma _m)'\),为 \(m\) 个独立服从 \(\{-1,+1\}\) 平均分布的变量,也称为 Rademacher 变量(后面证明里会提到这个谜之变量怎么出现的);我们用 \(g\) 对样本 \(S\) 的映射结果 \({\bf g} _S\) 作为拟合噪声,并用点积刻画拟合程度(既然映射结果是有界的,那么这么理解还是有道理的)。
可见 \(\widehat{\frak{R}} _S({\cal G})\) 表示 \(\cal G\) 中以采样 \(S\) “尽可能拟合”(通过 \(g\) 映射并取上界)各个噪声的平均能力(取期望值),从而反映 \(\cal G\) 的丰富程度。
进一步地,定义 \(\cal G\) 的 “Rademacher 复杂度” 为:
定义 Rademacher complexity
\(S\sim\cal D ^m\),对于任意正整数 \(m\),\(\cal G\) 的 Rademacher complexity 为其抽取 \(m\) 个样本得到经验 Rademacher 复杂度的期望值,也就是 “期望以随机采样” 拟合各个噪声的平均能力:
接下来就损失函数的期望,给出 generalization bound:
定理
函数集合 \({\cal G}=\{g: Z\to [0,1]\}\);以 i.i.d. 抽取 \(S=(z _1,\dotsb, z _m)\),对于任意 \(\delta>0\),以至少 \(1-\delta\) 的概率,对任意 \(g\in \cal G\) 都有其期望值 \(\mathbb{E}[g]\):
也就是说,以很大的概率,\(\cal G\) 里任意一个损失函数 \(g\) 的期望值 \(\mathbb{E}[g]\),通过采样,都被采样试探出的平均值 + 一个刻画 \(\cal G\) 多样性的值(或者 \(\cal G\) 单就在样本 \(S\) 上体现的多样性)+ 一个负相关于采样数量的值给上限住了。单个函数为什么会和总体多样性有关?感性理解这是 “任意” 带来的代价。
证明:
对于 \((1)\) 式,将 \(g\) 关于 \(S\) 的经验平均值记为 \(\widehat{\mathbb{E}} _S[g]=\frac{1}{m}\sum _{i=1}^m g(z _i)\),并移到左边:\(\mathbb{E}[g]-\widehat{\mathbb{E}} _S[g]\);定理对任意 \(g\) 的表述,等价刻画成左式看作关于 \(S\) 的函数并在 \(\cal G\) 取上界 \(\Phi(S)=\sup _{g\in \cal G}(\mathbb{E}[g]-\widehat{\mathbb{E}} _S[g])\),然后考虑对其放缩
考虑 McDiarmid 不等式(见补充)用在 \(\Phi(S)\) 上:对于仅有一个点改变的 \(S, S'\),由于上界的差不超过差的上界,有 \(\Phi(S')-\Phi(S)\le \sup _{g\in \cal G}(\widehat{\mathbb{E}} _S[g]-\widehat{\mathbb{E}} _{S'}[g])\le 1/m\),于是应用不等式,以至少 \(1-\delta/2\) 的概率,有 \(\Phi(S)\le \mathbb{E} _S[\Phi(S)]+\sqrt{\frac{\log(2/\delta)}{2m}}\),接下来考虑这个期望值:
注意证明里自从引入了谜之 Rademacher 变量,我们将对称的 \(S,S'\) 分开后可以摆脱正负号限制(随意变号),真是神奇的设计
从而 \((1)\) 式以至少 \(1-\delta\) 概率成立;对于 \((2)\) 式,只需要在 \((1)\) 式的基础上,注意到 \(\widehat{\frak{R}} _{S}(\cal G)\) 在改变一个样本点时最多改变 \(1/m\)(注意 \(g\) 只映射到 \([0,1]\))且 \(\mathbb{E} _S(\widehat{\frak{R}} _{S}(\cal G))={\frak{R}} _{m}(\cal G)\),故再次使用 McDiarmid 不等式,以至少 \(1-\delta/2\) 概率有 \({\frak{R}} _{m}(\cal G)\le \widehat{\frak{R}} _{S}(\cal G)+\sqrt{\frac{\log(2/\delta)}{2m}}\) 然后用 union bound 简单相加概率,即可证得 \((2)\) 式。
二分类:泛化误差的界
本文后面的内容中,我们基本都对二分类进行讨论
\({\cal H}=\{h:{\cal X\to Y}=\{-1,+1\}\}\),\(\cal G=\{(x,y)\mapsto 1 _{h(x)\ne y}:h\in \cal H \}\),记 \(S=(x _1,\dotsb, x _m), S'=((x _1, y _1),\dotsb,(x _m, y _m))\)
我们以 zero-one loss \(1 _{h(x)\ne y}\) 固定住 \(g\),从而使得基于 \(\cal H\) 的 \(\cal G\) 变成只是 \(\cal H\) 和固定映射的复合,然后回顾一下之前提到的概念:
\(\mathbb{E}[g]={\mathbb E} _{(x,y)}[1 _{h(x)\ne y}]=R(h)\) 即泛化误差;\(\widehat{\mathbb{E}} _S[g]=\frac{1}{m}\sum _{i=1}^{m} 1 _{h (x _i)\ne y_i}=\widehat{R} _S(h)\) 即经验误差;那么 \(\widehat{\frak{R}} _{S'}({\cal G})\) 又变成什么了呢?
同取期望有 \(2{\frak{R}} _m({\cal G})={\frak{R}} _m({\cal H})\),于是原定理变为对于任意 \(h\in \cal H\),以至少 \(1-\delta\) 概率有
且不论 \({\frak{R}} _m({\cal H})\),\(\widehat{\frak{R}} _{S}({\cal H})=\mathbb{E} _{\boldsymbol \sigma}[\sup _{h \in \cal H} \frac{1}{m}\sum _{i=1}^m \sigma _i h(x _i) ]\) 又怎么计算呢?固定 \(\boldsymbol \sigma\) 后等价于一个最小化经验风险的问题,往往是 computationally hard 的。接下来要做的是为它给出一个界。
3.2 Growth function
增长函数做出的进步是其不再依赖于数据分布,而是变为单纯组合的 combinatorial 形式
定义 Growth function
假设集合 \(\cal H\) 关于样本容量 \(m\) 的函数:增长函数 growth function \(\Pi _{\cal H}:\mathbb{N\to N}\),定义为输入空间 \(\cal X ^m\) 的任意一点被 \(\cal H\) 的所有元素映射出的象的最大个数:
称 \((h(x _1), \dotsb, h(x _m))\) 为 dichotomy,也就是假设能最多划分出的 dichotomy 的个数。显然对于二分类问题,\(\Pi _{\cal H}(m)\le 2 ^m\)
定理 Growth function generalization bound
对于映射到 \(\{-1,+1\}\) 的函数集合 \(\cal G\),记 \({\cal G} _{|S}=\{ g(S):g\in\cal G\}\),其元素的 2-范数上界为 \(\sqrt{m}\),应用 Massart's lemma 放缩(见补充)对集合求大小从而引入了 growth function:
从而以至少 \(1-\delta\) 的概率,对任意 \(h:{\cal X}\to \{-1,+1\}\in \cal H\),有
或者写成 \(\Pr[|R(h)-\widehat{R} _S(h)|>\epsilon]\le \Pi _{\cal H}(2m)\exp(-m\epsilon ^2/8)\)
求 \(\Pi _{\cal H}\) 也不容易,接下来进一步放宽上界以求得更简单的边界
3.3 VC-dimension
依然考虑二分类。当 \(\cal H\) 的元素能将 \(S\) 映射到所有可能的 dichotomies 时,称 \(S\) 被 \(\cal H\) 打散 shattered,此时 \(\Pi _{\cal H}(m)=2 ^m\)。据此定义 VC 维:
定义 VC-dimension
二分类。假设集合 \(\cal H\) 的 VC 维,定义为最大地能被 \(\cal H\) 打散的样本的容量:
当然,只要存在那么一个容量 \(m\) 的样本就行了。例如对于平面上的点,使用所有直线为假设集合时,VC 维为 3,因为只要 3 个点不共线就可以,而 4 个点形成矩形且相邻点不同的情况就是反例。证明 VC 维往往需要我们为其构造一个解,同时证明大于的情况都是不可行的。
记 \(\text{VCdim}({\cal H})=d\),现在我们可以用 Sauer's lemma 为 Growth function 给出组合形式的上界:\(\Pi _{\cal H}(m)\le\sum _{i=0}^{d} C _m^i\)
证明略。其实只要自己尝试构造一下就会发现这个上界是最紧的。我们不妨将其理解为 “\(m\) 个元素至多 \(d\) 个 \(1\) 的方案数”,由此它也暗示了一种构造方法:对于 \((x _1,\dotsb, x _m),m> d\),映射结果 \(\{(h(x _1,\dotsb, h(x _m)):h\in{\cal H})\}\) 满足对于任意 \((x _{k _1},\dotsb, x _{k _{d+1}})\),映射结果不能全部为 \(1\);如此自然 VC 维就不可能大于 \(d\),而这样的方案数恰好就是上面的式子。
用这个式子,当 \(m\ge d\) 时,我们继续放缩(还放啊):
可见对于 Growth function generalization bound,当 \(\cal H\) 没那么“万能”—— \(\text{VCdim}(\cal H)<+\infty\) 时,\(\Pi _{\cal H}(m)\) 会限制在多项式级别;但是 \(\text{VCdim}(\cal H)=+\infty\) 时就只剩指数级上界 \(2 ^m\) 了——大概过拟合就是过于万能的假设集合缺少上界造成的。总之,我们对于有限 VC 维,给出它的上界:
定理 VC-dimension generalization bound
假设集合 \(\cal H\) 映射到 \(\{-1, +1\}\),VC 维为 \(d\)。对任意 \(\delta> 0\),以至少 \(1-\delta\) 的概率,对任意 \(h\in \cal H\) 有:
也就是泛化界是 \(O(\sqrt{\frac{\log(m/d)}{m/d}})\),可见 \(m/d\) 越大越好,从而又一次验证了在经验误差基本一个水平的情况下,VC 维越小越好——假设越简单越好(Occam's razor)
另外不通过 Rademacher 复杂度也可以导出相同复杂度的上界 \(R(h)\le \widehat{R} _S(h)+\sqrt{(8d\log \frac{2em}{d}+8\log \frac{4}{\delta})/m}\)
3.4 Lower bounds
我们现在为泛化误差找下界,下界是因为总存在不好的分布和目标假设。分为两种情况:realizable setting 假设集合里存在期望误差为零的假设,而 non-realizable setting 不存在这种假设(比如 Ch2 提到的随机情景 stochastic scenario)。
定理 Lower bound, realizable case
假设集合 \(\cal H\),其 VC 维 \(d>1\)。于是,对于任意 \(m\ge 1\) 和任意算法 \(\cal A\),总存在分布 \(\cal D\) 和目标假设 \(f\in\cal H\) 使得:
观察式子,又是 \(d/m\),可见 VC 维确实好用。至于 VC 维无穷大的 realizable 情况,则 PAC 学习是不可行的。
证明:
我也不知道重不重要,先抄着吧。记被 \(\cal H\) shattered 的点为 \(\bar{\cal X}=\{x _0,x _1,\dotsb, x _{d-1}\}\),并取分布 \(\cal D\) 只落在这 \(d\) 个点上,满足 \(\Pr _{\cal D}[x _0]=1-8\epsilon, \Pr _{\cal D}[x _i]=8\epsilon/(d-1)\)
如此设计使得大部分样本点都落在 \(x _0\),算法对 \(x _0\) 肯定不会有误差了;对于训练集里没出现过的点,由于 \(\bar{\cal X}\) 被 shattered 也就是 \(\cal H\) 里啥都有,因此对 \(f\in H\) 在此处的假设不如直接让算法丢硬币;剩下的不是 \(x _0\) 的那些样本,我们记其集合为 \(\bar{S}\sube S\),可以认为它们的标签多少被算法记一些
定义 \({\cal S}=\{S:|S|=m,|\bar{S}|\le (d-1)/2\}\),从里头采样 \(S\),并且认为损失函数 \(f:\bar{X}\to\{0,1\}\) 等概率出现,于是计算期望误差:
对每个 \(S\) 均成立,在 \(\cal S\) 上取期望也成立,然后把交换期望顺序(Fubini's theorem),得到 \(\mathbb{E} _{f}[\mathbb{E} _{S\in {\cal S}}[R _{\cal D}(h _S, f)]]\ge 2\epsilon\),也就是存在一个 \(f _0\) 使得 \(\mathbb{E} _{S\in {\cal S}}[R _{\cal D}(h _S, f _0)]\ge 2\epsilon\);同时注意一个显然的事实:\(R _{\cal D}(h _S, f _0)\le \Pr _{\cal D}[\bar{X}/\{x _0\}]\),因为后者是除了 \(x _0\) 全部猜错的损失。放缩:
解方程,得到 \(\Pr _{S\in {\cal S}}[R _{\cal D}(h _S, f _0)\ge \epsilon]\ge 1/7\),然后对原式 \(\Pr _{S}[\cdot]\ge\Pr _{S\in {\cal S}}[\cdot]\Pr[{\cal S}]\ge \Pr[{\cal S}]/7\),再对 \(\Pr[{\cal S}]\) 用个什么 multiplicative Chernoff bound 放缩一下,最后得证。
总之这个证明还是一如既往地信息量很大,有些像是技巧又像是暴力的东西,很是跳跃
对于 non-realizable 情况,也给出下界:
定理 Lower bound, non-realizable case
假设集合 \(\cal H\),其 VC 维 \(d>1\)。于是,对于任意 \(m\ge 1\) 和任意算法 \(\cal A\),总存在 \(\cal X\times\{0,1\}\) 上的分布 \(\cal D\) 使得:
该式即之前提到的 agnostic PAC-learning,只不过给出的是误差下界;等价于 \(m\ge \frac{d}{320\epsilon ^2}\) 时很大概率误差会超过 \(\epsilon\);同时可知,当 VC 维无穷大时 agnostic PAC-learning 是不可行的。
Exercises
VC dimension of a vector space of real function
有限维向量空间(vector space,线性空间)\(F\) 的元素为映射 \(f:{\cal X}\to \mathbb{R}\),且 \(\dim(F)=r<\infty\)。取假设集合 \(H=\{\{x:f(x)\ge 0\}:f\in F\}\),证明 \(\text{VCdim}(H)\) 有限且小等于 \(r\)
思路:取 \(S=(x _1,\dotsb, x _{r+1})\),即证对任意 \(S\),\(H\) 都无法将其打散,可以试着证明所有 \(h\in H\) 都无法映射到某一个特定的象上
证明:对任意 \(S=(x _1,\dotsb, x _{r+1})\),取 \(l:F\to \mathbb{R} ^{r+1}\),为 \(l(f)=(f(x _1),\dotsb, f(x _{r+1}))\),显然 \(\mathbb{R} ^{r+1}\) 上的集合 \(L=\{l(f):f\in F\}\) 也构成一个向量空间且 \(\dim(L)\le r\),故存在非零 \(\boldsymbol{\alpha}\in \mathbb{R} ^{r+1}\) 与 \(L\) 正交:
令 \(\alpha _i\) 至少有一个小于零。接下来对于 \(S\),令 \(h(S)=\{x:f(x)\ge 0\}=\{x _i:x _i \text{ in LHS}\}\),那么上面等式里左式大等于零,右式小于零,矛盾,故无法取到这个映射结果。故得证。
补充
McDiarmid 不等式
\(m\) 维独立随机变量 \(S=(X _1,\dotsb, X _m)\in \cal X ^m\);若对于每个 \(i\in [m]\) 都存在一个 \(c _i>0\),使得多元函数 \(f:\cal X ^m\to\mathbb{R}\) 在任何时候单独以每一维取值变化时的函数值变化量不超过 \(c _i\)(于是若干维变化带来的函数值变化上界等于对应维度的上界和):
则 \(f(S)\) 的值以很大概率满足其与期望值足够接近:
引理 Massart's lemma
有限集合 \(\cal A\sube \mathbb{R} ^m\),其元素的 2-范数上界为 \(r=\max _{\bf x\in \cal A}\Vert\bf x\Vert _2\),那么有定理