霍夫丁(Hoeffding)不等式

1. 霍夫丁引理

   设 $X$ 是均值为 0 的随机变量,即 $E(X) = 0$,且 $X \in [a,b]$, $\lambda \in R$ ,可以得到一个关于区间长度 $b-a$ 的不等式

$$E(e^{\lambda X}) \leq exp \left \{ \frac{\lambda ^{2}(b-a)^{2}}{8} \right \}$$

   由于随机变量的期望为 0,所以必定有 $a < 0,b > 0$

   引理证明:

   $e^{\lambda X}$ 在区间 $[a,b]$ 上是凹函数,由凹函数(函数凹凸性)的定义可得

$$e^{\lambda X} \leq \frac{b-X}{b-a}e^{\lambda a} + \frac{X-a}{b-a}e^{\lambda b}$$

   对不等式两边求数学期望有

$$E\left ( e^{\lambda X} \right ) \leq \frac{b-E(X)}{b-a}e^{\lambda a} + \frac{E(X)-a}{b-a}e^{\lambda b}$$

   由于 $E(X) = 0$,则

$$E\left ( e^{\lambda X} \right ) \leq \frac{b}{b-a}e^{\lambda a} - \frac{a}{b-a}e^{\lambda b}$$

   考察上式不等式右侧,代入期望后,右侧的表达式只含有未知变量 $\lambda$,结合 $a < 0,b > 0$

$$\frac{b}{b-a}e^{\lambda a} - \frac{a}{b-a}e^{\lambda b} > 0$$

$$\frac{b}{b-a}e^{\lambda a} - \frac{a}{b-a}e^{\lambda b} = e^{\lambda a}(\frac{b}{b-a} - \frac{a}{b-a}e^{\lambda (b-a)}) = exp\left \{ \lambda a + ln(\frac{b}{b-a} - \frac{a}{b-a}e^{\lambda (b-a)})\right \}$$

   将最复杂的部分进行换元,令 $h=\lambda (b-a),p=\frac{-a}{b-a}$,于是有

$$exp\left \{ \lambda a + ln(\frac{b}{b-a} - \frac{a}{b-a}e^{\lambda (b-a)})\right \} = exp\left \{ -hp + ln( 1-p+pe^{h} ) \right \}$$

   考察函数

$$L\left ( h \right ) = -hp + ln( 1-p+pe^{h})$$

   利用泰勒公式将其在 $x = 0$ 处展开,得

$$L(h) = L(0) + L^{'}(0)h + \frac{L^{''}(\xi)}{2}h^{2}$$

   其中 $\xi$ 处于 0 和 $h$ 之间。对 $L(h)$ 求导得

$$L^{'}(h) = -p + \frac{pe^{h}}{1-p+pe^{h}}$$

$$L^{''}(h) = \frac{pe^{h}(1-p + pe^{h}) - p^{2}e^{2h}}{(1-p+pe^{h})^{2}} = \frac{pe^{h}}{1-p+pe^{h}}(1-\frac{pe^{h}}{1-p+pe^{h}}) = t(1-t) \leq \frac{1}{4}$$

   由于 $L(0) = 0$,$L^{'}(0) = 0$,所以

$$L(h) \leq \frac{1}{8}h^{2} = \frac{\lambda ^{2}(b-a)^{2}}{8}$$

   所以,最终可以得到

$$E(e^{\lambda X}) \leq exp \left \{ \frac{\lambda ^{2}(b-a)^{2}}{8} \right \}$$

   证毕

 

2. 霍夫丁不等式

   设 $S_{n} = \sum_{i=1}^{n}X_{i}$ 是独立随机变量 $X_{1},X_{2},...,X_{n}$ 之和,$X_{i} \in [a_{i},b_{i}]$,则对任意的 $t > 0$,以下不等式成立

$$P\left \{ S_{n} -ES_{n} \geq t\right \} = P\left \{ ES_{n} - S_{n} \geq t\right \} \leq exp \left \{ \frac{-2t^{2}}{\sum_{i=1}^{n}(b_{i}-a_{i})^{2}} \right \}$$

   证明:

   额外引入变量 $s>0$,则

$$P\left \{ S_{n} -ES_{n} \geq t\right \} = P\left \{ s(S_{n} -ES_{n}) \geq st\right \} = P\left \{ e^{s(S_{n} -ES_{n})} \geq e^{st}\right \}$$

   由马尔可夫不等式(参考博客)得

$$P\left \{ e^{s(S_{n} -ES_{n})} \geq e^{st}\right \} \leq \frac{E[e^{s(S_{n} -ES_{n})}]}{e^{st}} = \frac{E[e^{s(\sum_{i=1}^{n}X_{i} - \sum_{i=1}^{n}E(X_{i}))}]}{e^{st}} = \frac{E[e^{s\sum_{i=1}^{n}[X_{i} - E(X_{i})]}]}{e^{st}} = \frac{\prod_{i=1}^{n}E[e^{s[X_{i} - E(X_{i})]}]}{e^{st}}$$

   令随机变量 $Y_{i} = X_{i} - E(X_{i})$,则 $E(Y_{i}) = 0$,我们无法知道 $Y_{i}$ 所在的区间,但是它所在区间的长度为 $b_{i}-a_{i}$,由霍夫丁引理可得

$$e^{-st}\prod_{i=1}^{n}E[e^{s[X_{i} - E(X_{i})]}] \leq e^{-st}\prod_{i=1}^{n}e^{\frac{s^{2}(b_{i}-a_{i})^{2}}{8}} = exp\left \{ -st + \sum_{i=1}^{n}\frac{1}{8}s^{2}(b_{i}-a_{i})^{2} \right \}$$

   考察函数

$$g\left ( s \right ) = -st + \sum_{i=1}^{n}\frac{1}{8}s^{2}(b_{i}-a_{i})^{2},s>0$$

   求导数有

$$g^{'}(s) = -t + \sum_{i=1}^{n}\frac{1}{4}s(b_{i} - a_{i})^{2}$$

   令 $g^{'}(s) = 0$

$$s^{*} = \frac{4t}{\sum_{i=1}^{n}(b_{i}-a_{i})^{2}}$$

$$g(s^{*}) = \frac{-2t^{2}}{\sum_{i=1}^{n}(b_{i}-a_{i})^{2}}$$

   因为 $\forall s > 0$,都有不等式成立,因此取右边关于 $s$ 的二次函数的最小值,有

$$P\left \{ S_{n} -ES_{n} \geq t\right \} \leq exp \left \{ \frac{-2t^{2}}{\sum_{i=1}^{n}(b_{i}-a_{i})^{2}} \right \}$$

   证毕

   由一般式得到特殊形式:$X_{i} \in [0,1]$,则 $\frac{X_{i}}{n} \in [0,\frac{1}{n}]$,对 $\frac{X_{i}}{n}$ 使用霍夫丁不等式有

$$P\left \{ \sum_{i=1}^{n}\frac{X_{i}}{n} -E(\sum_{i=1}^{n}\frac{X_{i}}{n}) \geq t\right \} = P\left \{ \overline{X} - E(\overline{X}) \geq t\right \} \leq exp \left \{ \frac{-2t^{2}}{\sum_{i=1}^{n}(\frac{1}{n}-0)^{2}} \right \} = exp\left \{ -2nt^{2} \right \},t > 0$$

   注意:随机变量 $X_{1},X_{2},...,X_{n}$ 并没有说明来自同一个总体,也不一定同分布,所以只能写成 $E(\overline{X})$。

 

posted @ 2020-07-13 22:06  _yanghh  阅读(2698)  评论(2编辑  收藏  举报