【笔记】机器学习基础 - Ch3. Rademacher Complexity & VC-Dimension

🥰 | 😱

3.1 Rademacher Complexity

现在考虑无限集合 \(\cal H\),并给出几个 guarantee
损失函数为映射 \(L:\cal Y\times Y\to \mathbb{R}\);样本 \((x,y)\) 通过某个假设 \(h\in \cal H\) 再通过某个损失函数,可以视作一个从 \(\cal Z=X\times Y\)\(\mathbb{R}\) 的映射 \(g\),其集合 \(\cal G\) 用以表示上述 “基于 \(\cal H\) 的损失函数集合”:\({\cal G}=\{g:(x,y)\mapsto L(h(x),y):h\in\cal H\}=\{g:\cal Z\to \mathbb{R}\}\)
Rademacher Complexity 通过刻画函数集合 “拟合噪声的能力”,进而刻画其丰富程度(captures the richness of a family of functions by measuring the degree to which a hypothesis set can fit random noise)

定义 Empirical Rademacher complexity
函数集合 \(\cal G=\{g: Z\to [a,b]\}\);样本 \(S=(z _1,\dotsb, z _m)\in \cal Z ^m\),定义 \(\cal G\) 就关于 \(S\) 的 “经验 Rademacher 复杂度” 为:

\[\widehat{\frak{R}} _S({\cal G}) = \mathbb{E} _{\boldsymbol \sigma}\left[\sup _{g \in \cal G} \frac{1}{m}\sum _{i=1}^m \sigma _i g(z _i) \right]= \mathbb{E} _{\boldsymbol\sigma}\left[\sup _{g \in \cal G} \frac{{\boldsymbol \sigma}\cdot {\bf g} _S}{m} \right] \]

其中 “噪声” \(\boldsymbol{\sigma}=(\sigma _1,\dotsb,\sigma _m)'\),为 \(m\) 个独立服从 \(\{-1,+1\}\) 平均分布的变量,也称为 Rademacher 变量(后面证明里会提到这个谜之变量怎么出现的);我们用 \(g\) 对样本 \(S\) 的映射结果 \({\bf g} _S\) 作为拟合噪声,并用点积刻画拟合程度(既然映射结果是有界的,那么这么理解还是有道理的)。
可见 \(\widehat{\frak{R}} _S({\cal G})\) 表示 \(\cal G\) 中以采样 \(S\) “尽可能拟合”(通过 \(g\) 映射并取上界)各个噪声的平均能力(取期望值),从而反映 \(\cal G\) 的丰富程度。
进一步地,定义 \(\cal G\) 的 “Rademacher 复杂度” 为:

定义 Rademacher complexity
\(S\sim\cal D ^m\),对于任意正整数 \(m\)\(\cal G\)Rademacher complexity 为其抽取 \(m\) 个样本得到经验 Rademacher 复杂度的期望值,也就是 “期望以随机采样” 拟合各个噪声的平均能力:

\[{\frak{R}} _m({\cal G})=\mathbb{E} _{S\sim \cal D ^m}[\widehat{\frak{R}} _S({\cal G})] \]

接下来就损失函数的期望,给出 generalization bound:

定理
函数集合 \({\cal G}=\{g: Z\to [0,1]\}\);以 i.i.d. 抽取 \(S=(z _1,\dotsb, z _m)\),对于任意 \(\delta>0\),以至少 \(1-\delta\) 的概率,对任意 \(g\in \cal G\) 都有其期望值 \(\mathbb{E}[g]\)

\[\mathbb{E} _{z\sim \cal D}[g(z)]\le \frac{1}{m}\sum _{i=1} ^{m}g(z _i) + 2{\color{deeppink}{{\frak{R}} _{m}}}({\cal G})+\sqrt{\frac{\log \frac{1}{\delta}}{2m}} \tag{1} \]

\[\mathbb{E} _{z\sim \cal D}[g(z)]\le \frac{1}{m}\sum _{i=1} ^{m}g(z _i) + 2{\color{deeppink}{\widehat{\frak{R}} _{S}}}({\cal G})+3\sqrt{\frac{\log \frac{2}{\delta}}{2m}} \tag{2} \]

也就是说,以很大的概率,\(\cal G\)任意一个损失函数 \(g\) 的期望值 \(\mathbb{E}[g]\),通过采样,都被采样试探出的平均值 + 一个刻画 \(\cal G\) 多样性的值(或者 \(\cal G\) 单就在样本 \(S\) 上体现的多样性)+ 一个负相关于采样数量的值给上限住了。单个函数为什么会和总体多样性有关?感性理解这是 “任意” 带来的代价。
证明:
对于 \((1)\) 式,将 \(g\) 关于 \(S\) 的经验平均值记为 \(\widehat{\mathbb{E}} _S[g]=\frac{1}{m}\sum _{i=1}^m g(z _i)\),并移到左边:\(\mathbb{E}[g]-\widehat{\mathbb{E}} _S[g]\);定理对任意 \(g\) 的表述,等价刻画成左式看作关于 \(S\) 的函数并在 \(\cal G\) 取上界 \(\Phi(S)=\sup _{g\in \cal G}(\mathbb{E}[g]-\widehat{\mathbb{E}} _S[g])\),然后考虑对其放缩
考虑 McDiarmid 不等式(见补充)用在 \(\Phi(S)\) 上:对于仅有一个点改变的 \(S, S'\),由于上界的差不超过差的上界,有 \(\Phi(S')-\Phi(S)\le \sup _{g\in \cal G}(\widehat{\mathbb{E}} _S[g]-\widehat{\mathbb{E}} _{S'}[g])\le 1/m\),于是应用不等式,以至少 \(1-\delta/2\) 的概率,有 \(\Phi(S)\le \mathbb{E} _S[\Phi(S)]+\sqrt{\frac{\log(2/\delta)}{2m}}\),接下来考虑这个期望值:

\[\begin{aligned} \mathbb{E} _S[\Phi(S)] &= \mathbb{E} _S\left[ \sup _{g\in \cal G}\left(\mathbb{E}[g] - \widehat{\mathbb{E}} _S(g) \right) \right] \\ &= \mathbb{E} _S\left[ \sup _{g\in \cal G}\mathbb{E} _{S'}\left[\widehat{\mathbb{E}} _{S'}(g) - \widehat{\mathbb{E}} _S(g) \right] \right] &; \text{double sample trick 从而统一形式}\\ &\le \mathbb{E} _{S, S'}\left[ \sup _{g\in \cal G}\left(\widehat{\mathbb{E}} _{S'}(g) - \widehat{\mathbb{E}} _S(g) \right) \right] &; \sup\mathbb{E}[X]\le\mathbb{E}[\sup X] \\ &= \mathbb{E} _{S, S'}\left[ \sup _{g\in \cal G}\left(\frac{1}{m}\sum _{i=1}^m (g(z' _i)-g(z _i)) \right) \right] &;\text{接下来引入 Rademacher 变量!} \\ &= \mathbb{E} _{\boldsymbol{\sigma},S, S'}\left[ \sup _{g\in \cal G}\left(\frac{1}{m}\sum _{i=1}^m\sigma _i (g(z' _i)-g(z _i)) \right) \right] &; \text{$S,S'$ 对称,任意交换 $z, z'$} \\ &\le 2\cdot \mathbb{E} _{\boldsymbol{\sigma},S}\left[ \sup _{g\in \cal G}\left(\frac{1}{m}\sum _{i=1}^m\sigma _i g(z' _i) \right) \right]=2{\frak{R}} _m({\cal G}) &;\sup(A+B)\le \sup A + \sup B \end{aligned} \]

注意证明里自从引入了谜之 Rademacher 变量,我们将对称的 \(S,S'\) 分开后可以摆脱正负号限制(随意变号),真是神奇的设计
从而 \((1)\) 式以至少 \(1-\delta\) 概率成立;对于 \((2)\) 式,只需要在 \((1)\) 式的基础上,注意到 \(\widehat{\frak{R}} _{S}(\cal G)\) 在改变一个样本点时最多改变 \(1/m\)(注意 \(g\) 只映射到 \([0,1]\))且 \(\mathbb{E} _S(\widehat{\frak{R}} _{S}(\cal G))={\frak{R}} _{m}(\cal G)\),故再次使用 McDiarmid 不等式,以至少 \(1-\delta/2\) 概率有 \({\frak{R}} _{m}(\cal G)\le \widehat{\frak{R}} _{S}(\cal G)+\sqrt{\frac{\log(2/\delta)}{2m}}\) 然后用 union bound 简单相加概率,即可证得 \((2)\) 式。

二分类:泛化误差的界
本文后面的内容中,我们基本都对二分类进行讨论
\({\cal H}=\{h:{\cal X\to Y}=\{-1,+1\}\}\)\(\cal G=\{(x,y)\mapsto 1 _{h(x)\ne y}:h\in \cal H \}\),记 \(S=(x _1,\dotsb, x _m), S'=((x _1, y _1),\dotsb,(x _m, y _m))\)
我们以 zero-one loss \(1 _{h(x)\ne y}\) 固定住 \(g\),从而使得基于 \(\cal H\)\(\cal G\) 变成只是 \(\cal H\) 和固定映射的复合,然后回顾一下之前提到的概念:
\(\mathbb{E}[g]={\mathbb E} _{(x,y)}[1 _{h(x)\ne y}]=R(h)\) 即泛化误差;\(\widehat{\mathbb{E}} _S[g]=\frac{1}{m}\sum _{i=1}^{m} 1 _{h (x _i)\ne y_i}=\widehat{R} _S(h)\) 即经验误差;那么 \(\widehat{\frak{R}} _{S'}({\cal G})\) 又变成什么了呢?

\[\begin{aligned} 2\widehat{\frak{R}} _{S'}({\cal G}) &= 2 \mathbb{E} _{\boldsymbol \sigma}\left[\sup _{h \in \cal H} \frac{1}{m}\sum _{i=1}^m \sigma _i 1 _{h(x _i)\ne y _i} \right]&; 1 _{h(x)\ne y}=\frac{1-h(x)y}{2} \\ &= \mathbb{E} _{\boldsymbol \sigma}\left[\sup _{h \in \cal H} \frac{1}{m}\sum _{i=1}^m -\sigma _i h(x _i) y _i \right]&; \text{$\sigma$ 随意变号} \\ &= \mathbb{E} _{\boldsymbol \sigma}\left[\sup _{h \in \cal H} \frac{1}{m}\sum _{i=1}^m \sigma _i h(x _i) \right] = \widehat{\frak{R}} _{S}({\cal H}) \end{aligned} \]

同取期望有 \(2{\frak{R}} _m({\cal G})={\frak{R}} _m({\cal H})\),于是原定理变为对于任意 \(h\in \cal H\),以至少 \(1-\delta\) 概率有

\[R(h)\le \widehat{R} _S(h) + {\frak{R}} _m({\cal H})+\sqrt{\frac{\log \frac{1}{\delta}}{2m}} \\ R(h)\le \widehat{R} _S(h) + \widehat{\frak{R}} _{S}({\cal H}) +3\sqrt{\frac{\log \frac{2}{\delta}}{2m}} \]

且不论 \({\frak{R}} _m({\cal H})\)\(\widehat{\frak{R}} _{S}({\cal H})=\mathbb{E} _{\boldsymbol \sigma}[\sup _{h \in \cal H} \frac{1}{m}\sum _{i=1}^m \sigma _i h(x _i) ]\) 又怎么计算呢?固定 \(\boldsymbol \sigma\) 后等价于一个最小化经验风险的问题,往往是 computationally hard 的。接下来要做的是为它给出一个界。

3.2 Growth function

增长函数做出的进步是其不再依赖于数据分布,而是变为单纯组合的 combinatorial 形式

定义 Growth function
假设集合 \(\cal H\) 关于样本容量 \(m\) 的函数:增长函数 growth function \(\Pi _{\cal H}:\mathbb{N\to N}\),定义为输入空间 \(\cal X ^m\) 的任意一点被 \(\cal H\) 的所有元素映射出的象的最大个数:

\[\forall m\in \mathbb{N},\quad\Pi _{\cal H}(m)=\max _{(x _1,\dotsb, x _m)\in \cal X ^m} \left|\Big\{(h(x _1), \dotsb, h(x _m)):h\in \cal H\Big\} \right| \]

\((h(x _1), \dotsb, h(x _m))\)dichotomy,也就是假设能最多划分出的 dichotomy 的个数。显然对于二分类问题,\(\Pi _{\cal H}(m)\le 2 ^m\)

定理 Growth function generalization bound
对于映射到 \(\{-1,+1\}\) 的函数集合 \(\cal G\),记 \({\cal G} _{|S}=\{ g(S):g\in\cal G\}\),其元素的 2-范数上界为 \(\sqrt{m}\),应用 Massart's lemma 放缩(见补充)对集合求大小从而引入了 growth function:

\[{\frak{R}} _m({\cal G})=\mathbb{E} _S\left[\mathbb{E} _{\boldsymbol \sigma}\left[\sup _{{\bf u} \in{\cal G} _{|S}} \frac{{\boldsymbol{\sigma}\cdot{\bf u}}}{m} \right]\right]\le \mathbb{E} _S\left[\frac{\sqrt{m}\sqrt{2\log |{\cal G} _{|S}|}}{m} \right]=\sqrt{\frac{2\log \Pi _{\cal G}(m)}{m}} \]

从而以至少 \(1-\delta\) 的概率,对任意 \(h:{\cal X}\to \{-1,+1\}\in \cal H\),有

\[R(h)\le \widehat{R} _S(h) + \sqrt{\frac{2\log \Pi _{\cal H}(m)}{m}}+\sqrt{\frac{\log \frac{1}{\delta}}{2m}} \]

或者写成 \(\Pr[|R(h)-\widehat{R} _S(h)|>\epsilon]\le \Pi _{\cal H}(2m)\exp(-m\epsilon ^2/8)\)
\(\Pi _{\cal H}\) 也不容易,接下来进一步放宽上界以求得更简单的边界

3.3 VC-dimension

依然考虑二分类。当 \(\cal H\) 的元素能将 \(S\) 映射到所有可能的 dichotomies 时,称 \(S\)\(\cal H\) 打散 shattered,此时 \(\Pi _{\cal H}(m)=2 ^m\)。据此定义 VC 维:

定义 VC-dimension
二分类。假设集合 \(\cal H\) 的 VC 维,定义为最大地能被 \(\cal H\) 打散的样本的容量:

\[\text{VCdim}({\cal H})=\max \{m:\Pi _{\cal H}(m)=2 ^m\} \]

当然,只要存在那么一个容量 \(m\) 的样本就行了。例如对于平面上的点,使用所有直线为假设集合时,VC 维为 3,因为只要 3 个点不共线就可以,而 4 个点形成矩形且相邻点不同的情况就是反例。证明 VC 维往往需要我们为其构造一个解,同时证明大于的情况都是不可行的。
\(\text{VCdim}({\cal H})=d\),现在我们可以用 Sauer's lemma 为 Growth function 给出组合形式的上界:\(\Pi _{\cal H}(m)\le\sum _{i=0}^{d} C _m^i\)
证明略。其实只要自己尝试构造一下就会发现这个上界是最紧的。我们不妨将其理解为 “\(m\) 个元素至多 \(d\)\(1\) 的方案数”,由此它也暗示了一种构造方法:对于 \((x _1,\dotsb, x _m),m> d\),映射结果 \(\{(h(x _1,\dotsb, h(x _m)):h\in{\cal H})\}\) 满足对于任意 \((x _{k _1},\dotsb, x _{k _{d+1}})\),映射结果不能全部为 \(1\);如此自然 VC 维就不可能大于 \(d\),而这样的方案数恰好就是上面的式子。
用这个式子,当 \(m\ge d\) 时,我们继续放缩(还放啊):

\[\begin{aligned} \Pi _{\cal H}(m)&\le\sum _{i=1} ^d C _m ^i \le \sum _{i=1} ^m C _m ^i (\frac{m}{d}) ^{d-i}=(\frac{m}{d}) ^d (1+\frac{d}{m}) ^m \\ &\le (\frac{m}{d}e) ^d \end{aligned} \]

可见对于 Growth function generalization bound,当 \(\cal H\) 没那么“万能”—— \(\text{VCdim}(\cal H)<+\infty\) 时,\(\Pi _{\cal H}(m)\) 会限制在多项式级别;但是 \(\text{VCdim}(\cal H)=+\infty\) 时就只剩指数级上界 \(2 ^m\) 了——大概过拟合就是过于万能的假设集合缺少上界造成的。总之,我们对于有限 VC 维,给出它的上界:

定理 VC-dimension generalization bound
假设集合 \(\cal H\) 映射到 \(\{-1, +1\}\),VC 维为 \(d\)。对任意 \(\delta> 0\),以至少 \(1-\delta\) 的概率,对任意 \(h\in \cal H\) 有:

\[R(h)\le \widehat{R} _S(h) + \sqrt{\frac{2d\log\frac{em}{d}}{m}} + \sqrt{\frac{\log\frac{1}{\delta}}{2m}} \]

也就是泛化界是 \(O(\sqrt{\frac{\log(m/d)}{m/d}})\),可见 \(m/d\) 越大越好,从而又一次验证了在经验误差基本一个水平的情况下,VC 维越小越好——假设越简单越好(Occam's razor)
另外不通过 Rademacher 复杂度也可以导出相同复杂度的上界 \(R(h)\le \widehat{R} _S(h)+\sqrt{(8d\log \frac{2em}{d}+8\log \frac{4}{\delta})/m}\)

3.4 Lower bounds

我们现在为泛化误差找下界,下界是因为总存在不好的分布和目标假设。分为两种情况:realizable setting 假设集合里存在期望误差为零的假设,而 non-realizable setting 不存在这种假设(比如 Ch2 提到的随机情景 stochastic scenario)。

定理 Lower bound, realizable case
假设集合 \(\cal H\),其 VC 维 \(d>1\)。于是,对于任意 \(m\ge 1\)任意算法 \(\cal A\),总存在分布 \(\cal D\) 和目标假设 \(f\in\cal H\) 使得:

\[\mathbb{P} _{S\sim\cal D ^m}\left[R _{\cal D}(h _S, f)>\frac{d-1}{32m} \right]\ge 0.01 \]

观察式子,又是 \(d/m\),可见 VC 维确实好用。至于 VC 维无穷大的 realizable 情况,则 PAC 学习是不可行的。
证明:
我也不知道重不重要,先抄着吧。记被 \(\cal H\) shattered 的点为 \(\bar{\cal X}=\{x _0,x _1,\dotsb, x _{d-1}\}\),并取分布 \(\cal D\) 只落在这 \(d\) 个点上,满足 \(\Pr _{\cal D}[x _0]=1-8\epsilon, \Pr _{\cal D}[x _i]=8\epsilon/(d-1)\)
如此设计使得大部分样本点都落在 \(x _0\),算法对 \(x _0\) 肯定不会有误差了;对于训练集里没出现过的点,由于 \(\bar{\cal X}\) 被 shattered 也就是 \(\cal H\) 里啥都有,因此对 \(f\in H\) 在此处的假设不如直接让算法丢硬币;剩下的不是 \(x _0\) 的那些样本,我们记其集合为 \(\bar{S}\sube S\),可以认为它们的标签多少被算法记一些
定义 \({\cal S}=\{S:|S|=m,|\bar{S}|\le (d-1)/2\}\),从里头采样 \(S\),并且认为损失函数 \(f:\bar{X}\to\{0,1\}\) 等概率出现,于是计算期望误差:

\[\begin{aligned} \mathbb{E} _{f}[R _{\cal D}(h _S, f)]&=\sum _f\sum _{x\in \bar{X}} 1 _{h _S(x)\ne f(x)} \Pr[x]\Pr[f] \\ &\ge \sum _f\sum _{x\notin \bar{S}} 1 _{h _S(x)\ne f(x)} \Pr[x]\Pr[f] &;\text{算法顶多把 $\bar{S}$ 的全记下来了} \\ &=\sum _{x\notin \bar{S}}\left( \sum _f 1 _{h _S(x)\ne f(x)} \Pr[f] \right)\Pr[x]=\frac{1}{2} \sum _{x\notin \bar{S}}\Pr[x] &;\text{没见过的点就抛硬币} \\ &\ge \frac{1}{2}\frac{d-1}{2}\frac{8\epsilon}{d-1}=2\epsilon \end{aligned} \]

对每个 \(S\) 均成立,在 \(\cal S\) 上取期望也成立,然后把交换期望顺序(Fubini's theorem),得到 \(\mathbb{E} _{f}[\mathbb{E} _{S\in {\cal S}}[R _{\cal D}(h _S, f)]]\ge 2\epsilon\),也就是存在一个 \(f _0\) 使得 \(\mathbb{E} _{S\in {\cal S}}[R _{\cal D}(h _S, f _0)]\ge 2\epsilon\);同时注意一个显然的事实:\(R _{\cal D}(h _S, f _0)\le \Pr _{\cal D}[\bar{X}/\{x _0\}]\),因为后者是除了 \(x _0\) 全部猜错的损失。放缩:

\[\begin{aligned} 2\epsilon\le\mathbb{E} _{S\in {\cal S}}[R _{\cal D}(h _S, f _0)]&=\sum _{S:R _{\cal D}(h _S, f _0)\ge \epsilon}R _{\cal D}(h _S, f _0)\Pr[R _{\cal D}(h _S, f _0)] \\ &\quad +\sum _{S:R _{\cal D}(h _S, f _0)< \epsilon}R _{\cal D}(h _S, f _0)\Pr[R _{\cal D}(h _S, f _0)] \\ &\le \Pr _{\cal D}[\bar{X}/\{x _0\}] \Pr _{S\in {\cal S}}[R _{\cal D}(h _S, f _0)\ge \epsilon]&;\text{求和号内放缩,提出去} \\ &\quad + \epsilon\Pr _{S\in {\cal S}}[R _{\cal D}(h _S, f _0)< \epsilon]&;\text{使用条件放缩} \\ &\le 8\epsilon \Pr _{S\in {\cal S}}[R _{\cal D}(h _S, f _0)\ge \epsilon]\\ &\quad +\epsilon(1-\Pr _{S\in {\cal S}}[R _{\cal D}(h _S, f _0)\ge \epsilon]) \end{aligned} \]

解方程,得到 \(\Pr _{S\in {\cal S}}[R _{\cal D}(h _S, f _0)\ge \epsilon]\ge 1/7\),然后对原式 \(\Pr _{S}[\cdot]\ge\Pr _{S\in {\cal S}}[\cdot]\Pr[{\cal S}]\ge \Pr[{\cal S}]/7\),再对 \(\Pr[{\cal S}]\) 用个什么 multiplicative Chernoff bound 放缩一下,最后得证。
总之这个证明还是一如既往地信息量很大,有些像是技巧又像是暴力的东西,很是跳跃

对于 non-realizable 情况,也给出下界:

定理 Lower bound, non-realizable case
假设集合 \(\cal H\),其 VC 维 \(d>1\)。于是,对于任意 \(m\ge 1\)任意算法 \(\cal A\),总存在 \(\cal X\times\{0,1\}\) 上的分布 \(\cal D\) 使得:

\[\mathbb{P} _{S\sim\cal D ^m}\left[R _{\cal D}(h _S)-\inf _{h\in \cal H}R _{\cal D}(h)>\sqrt{\frac{d}{320m}} \right]\ge 1/64 \]

该式即之前提到的 agnostic PAC-learning,只不过给出的是误差下界;等价于 \(m\ge \frac{d}{320\epsilon ^2}\) 时很大概率误差会超过 \(\epsilon\);同时可知,当 VC 维无穷大时 agnostic PAC-learning 是不可行的。

Exercises

VC dimension of a vector space of real function
有限维向量空间(vector space,线性空间)\(F\) 的元素为映射 \(f:{\cal X}\to \mathbb{R}\),且 \(\dim(F)=r<\infty\)。取假设集合 \(H=\{\{x:f(x)\ge 0\}:f\in F\}\),证明 \(\text{VCdim}(H)\) 有限且小等于 \(r\)

思路:取 \(S=(x _1,\dotsb, x _{r+1})\),即证对任意 \(S\)\(H\) 都无法将其打散,可以试着证明所有 \(h\in H\) 都无法映射到某一个特定的象上

证明:对任意 \(S=(x _1,\dotsb, x _{r+1})\),取 \(l:F\to \mathbb{R} ^{r+1}\),为 \(l(f)=(f(x _1),\dotsb, f(x _{r+1}))\),显然 \(\mathbb{R} ^{r+1}\) 上的集合 \(L=\{l(f):f\in F\}\) 也构成一个向量空间且 \(\dim(L)\le r\),故存在非零 \(\boldsymbol{\alpha}\in \mathbb{R} ^{r+1}\)\(L\) 正交:

\[\forall f\in F,\quad \sum _{i=1}^m \alpha _i f(x _i)=0\implies \sum _{i:\alpha _i\ge 0}\alpha _i f(x _i)=-\sum _{i:\alpha _i< 0}\alpha _i f(x _i) \]

\(\alpha _i\) 至少有一个小于零。接下来对于 \(S\),令 \(h(S)=\{x:f(x)\ge 0\}=\{x _i:x _i \text{ in LHS}\}\),那么上面等式里左式大等于零,右式小于零,矛盾,故无法取到这个映射结果。故得证。

补充

McDiarmid 不等式
\(m\) 维独立随机变量 \(S=(X _1,\dotsb, X _m)\in \cal X ^m\);若对于每个 \(i\in [m]\) 都存在一个 \(c _i>0\),使得多元函数 \(f:\cal X ^m\to\mathbb{R}\) 在任何时候单独以每一维取值变化时的函数值变化量不超过 \(c _i\)(于是若干维变化带来的函数值变化上界等于对应维度的上界和):

\[\left|f(x _1,\dotsb, x _i, \dotsb, x _m)-f(x _1,\dotsb, x' _i, \dotsb, x _m)\right|\le c _i \]

\(f(S)\) 的值以很大概率满足其与期望值足够接近:

\[\begin{aligned} \Pr[f(S)-\mathbb{E}[f(S)]\ge\epsilon]\le \exp\left(\frac{-2 \epsilon ^2}{\sum _{i=1} ^m c _i ^2}\right) \\ \Pr[f(S)-\mathbb{E}[f(S)]\le-\epsilon]\le \exp\left(\frac{-2 \epsilon ^2}{\sum _{i=1} ^m c _i ^2}\right) \end{aligned} \]

引理 Massart's lemma
有限集合 \(\cal A\sube \mathbb{R} ^m\),其元素的 2-范数上界为 \(r=\max _{\bf x\in \cal A}\Vert\bf x\Vert _2\),那么有定理

\[\mathbb{E} _{\boldsymbol{\sigma}}\left[\frac{1}{m}\sup _{\bf x\in \cal A}\sum _{i=1} ^m\sigma _i x _i \right]\le\frac{r\sqrt{2\log |{\cal A}|}}{m} \]

posted @ 2023-08-11 00:17  zrkc  阅读(233)  评论(1编辑  收藏  举报