背公式 (2)

Chapter 2. High-Dimensional Space

命题 2.1 \(d\)-维单位球表面积 \(A(d)=2\pi^{d/2}/\Gamma(d/2)\), 体积 \(V(d)=A(d)/d\).

\[\begin{aligned} \pi^{d/2}&=\left(\int_{-\infty}^\infty\mathrm e^{-x^2}\mathrm dx\right)^d=\int_0^\infty\int_{\mathbb S^d}\mathrm e^{-r^2}r^{d-1}\mathrm dr\mathrm d\Omega \\ &=A(d)\int_0^\infty\mathrm e^{-r^2}r^{d-1}\mathrm dr=A(d)\Gamma(d/2)/2. \\ V(d)&=\int_0^\infty\int_{\mathbb S^d}r^{d-1}\mathrm dr\mathrm d\Omega=A(d)\int_0^\infty r^{d-1}\mathrm dr=\frac{A(d)}d. \end{aligned} \]

定理 2.2 对于 \(c\ge 1\) 和 \(d\ge 3\), 在 \(d\) 维单位球内随机选点 \(\boldsymbol x\), 则 \(\mathbb P(x_1\ge\frac{c}{\sqrt{d-1}})\le\mathrm e^{-c^2/2}/c\).

\[\begin{aligned} \mathrm{LHS}&=\frac{V(d-1)}{V(d)}\int_{\frac c{\sqrt{d-1}}}^1(1-x^2)^{\frac{d-1}2}\mathrm dx\le\frac{V(d-1)}{V(d)}\int_{\frac c{\sqrt{d-1}}}^\infty\mathrm e^{-x^2\frac{d-1}{2}}\mathrm dx \\ &\le\frac{V(d-1)}{V(d)}\frac{\sqrt{d-1}}c\int_{\frac{c}{\sqrt{d-1}}}^\infty x\mathrm e^{-x^2\frac{d-1}{2}}\mathrm dx=\frac{V(d-1)}{V(d)}\frac{\mathrm e^{-c^2/2}}{c\sqrt{d-1}}, \end{aligned} \]
其中 \(V(d)\ge (1-\frac 1{d-1})^{\frac{d-1}2}\frac{2}{\sqrt{d-1}}V(d-1)\ge\frac{V(d-1)}{\sqrt{d-1}}\), 所以 \(\mathrm{LHS}\le\mathrm e^{-c^2/2}/c\).

定理 2.3 设 \(\boldsymbol x_1,\ldots,\boldsymbol x_n\) 在 \(d\) 维单位球内 \(\mathrm{i.i.d}\) 随机, 则以 \(1-O(1/n)\) 的概率有

对 \(i\) 都有 \(|\boldsymbol x_i|\ge 1-\frac{2\ln n}d\);
对 \(i\ne j\) 都有 \(|\boldsymbol x_i\cdot\boldsymbol x_j|\le\frac{\sqrt{6\ln n}}{\sqrt{d-1}}\).

\(\mathbb P(|\boldsymbol x_i|\le 1-\frac{2\ln n}d)\le\mathrm e^{-2\ln n}=n^{-2}\), 由 union bound 得证.
\(\mathbb P(|\boldsymbol x_i\cdot\boldsymbol x_j|\ge\frac{\sqrt{6\ln n}}{\sqrt{d-1}})\le\frac 2{n^3\sqrt{6\ln n}}\le n^{-3}\), 由 union bound 得证.

定理 2.5 (Gaussian Annulus). 设 \(\boldsymbol x\) 服从 \(d\) 维标准正态分布, 则对 \(\beta\le\sqrt d\) 有

\[\mathbb P\big(\big||\boldsymbol x|-\sqrt d\big|\ge\beta)\le3\mathrm e^{-\beta^2/48}. \]

定理 2.6 (Random Projection). 设 \(A\) 是 \(k\times d\) 的随机矩阵, 每个元素 \(\mathrm{i.i.d}\sim\mathcal N(0,1)\), 则对 \(\boldsymbol v\in\mathbb R^d\) 和 \(0<\varepsilon<1\) 有 \(\mathbb P\big(\big||A\boldsymbol v|-\sqrt k|\boldsymbol v|\big|\ge\varepsilon\sqrt k|\boldsymbol v|\big)\le 3\mathrm e^{-k\varepsilon^2/48}\).

不妨设 \(|\boldsymbol v|=1\), 则 \(A\boldsymbol v\) 服从 \(k\) 维标准正态分布, 应用定理 2.5 即可.

定理 2.7 (Johnson-Lindenstrauss). 对于 \(0<\varepsilon<1\), \(\boldsymbol v_1,\ldots,\boldsymbol v_n\in\mathbb R^d\), 和 \(k\ge 144\varepsilon^{-2}\ln n\), 设 \(A\) 同上, 则以 \(1-3/2n\) 的概率对任意 \(i,j\) 都有

由定理 2.6, 对一组 \((i,j)\) 不满足的概率 \(\le 3n^{-3}\), 由 union bound 得证.

Chapter 3. Best-Fit Subspaces and SVD

设矩阵 \(A\in\mathrm M_{n\times d}(\mathbb R)\) 的奇异值分解为 \(A=UDV^\top\), 则称 \(U\) 的列 \(\boldsymbol u_1,\ldots,\boldsymbol u_r\) 为左奇异向量, \(V\) 的列 \(\boldsymbol v_1,\ldots,\boldsymbol v_r\) 为右奇异向量, \(D=\mathrm{diag}(\sigma_1,\ldots,\sigma_r)\), 且 \(A=\sum_{i=1}^r\sigma_i\boldsymbol u_i\boldsymbol v_i^\top\).

定理 3.1 设 \(A\in\mathrm M_{n\times d}(\mathbb R)\) 的奇异向量为 \(\boldsymbol v_1,\ldots,\boldsymbol v_r\), 则对 \(k\in[r]\) 都有 \(V_k:=\langle \boldsymbol v_1,\ldots,\boldsymbol v_k\rangle\) 是 \(A\) 的行向量组的最佳秩 \(k\) 逼近.

对 \(k\) 归纳, 当 \(k=1\) 时显然. 当 \(k\ge 2\) 时, 对任意子空间 \(W\), 选取单位正交基 \(\langle\boldsymbol w_1,\ldots,\boldsymbol w_k\rangle\) 使得 \(\boldsymbol w_k\) 与 \(\boldsymbol v_1,\ldots,\boldsymbol v_{k-1}\) 正交, 则 \(|A\boldsymbol w_k|^2\le|A\boldsymbol v_k|^2\), 而 \(\langle\boldsymbol v_1,\ldots,\boldsymbol v_{k-1}\rangle\) 是最佳秩 \(k-1\) 逼近, 两式相加即得证.

定理 3.2 对任意 \(i<j\) 都有 \(\boldsymbol u_i\perp\boldsymbol u_j\).

反证法, 设 \(i<j\) 使得 \(\delta:=\boldsymbol u_i\cdot\boldsymbol u_j>0\) 且 \(i\) 最小. 待定 \(\varepsilon>0\), 令 \(\boldsymbol v_i'=\frac{\boldsymbol v_i+\varepsilon\boldsymbol v_j}{\sqrt{1+\varepsilon^2}}\), 则 \(A\boldsymbol v_i'=\frac{\sigma_i\boldsymbol u_i+\varepsilon\sigma_j\boldsymbol u_j}{\sqrt{1+\varepsilon^2}}\), 所以 \(|A\boldsymbol v_i'|\ge\boldsymbol u_i^\top A\boldsymbol v_i'>\frac{\sigma_i+\varepsilon\sigma_j\delta}{\sqrt{1+\varepsilon^2}}\), 其关于 \(\varepsilon\) 在 \(0\) 处的导数 \(\sigma_j\delta>0\), 故不是最值.

定义 Frobenius 范数 \(\|\cdot\|_\mathrm F\) 为元素平方和的平方根, \(2\)-范数 \(\|\cdot\|_2\) 为 \(\sigma_1\).

定理 3.3 \(A_k:=\sum_{i=1}^k\sigma_i\boldsymbol u_i\boldsymbol v_i^\top\) 是 \(A\) 在 Frobenius 范数意义下的最佳秩 \(k\) 逼近.

设 \(B\) 使得 \(\mathrm{rk}(B)\le k\) 且 \(\|A-B\|_\mathrm F^2\) 取到最小值, \(V\) 是 \(B\) 的行向量生成的子空间, 则不妨设 \(B\) 的每一行是 \(A\) 在 \(V\) 上的投影, 则 \(\|A-B\|_\mathrm F^2\) 即为 \(A\) 的行向量到 \(V\) 的距离平方和. 由定理 3.1 知 \(V=\langle\boldsymbol v_1,\ldots,\boldsymbol v_k\rangle\) 时取到最值, 对应的 \(A_k=\sum_{i=1}^kA\boldsymbol v_i\boldsymbol v_i^\top=\sum_{i=1}^k\sigma_i\boldsymbol u_i\boldsymbol v_i^\top\).

定理 3.4 \(A_k\) 是 \(A\) 在 \(2\)-范数意义下的最佳秩 \(k\) 逼近.

当 \(\mathrm{rk}(A)\le k\) 时无事可作. 对任意 \(B\) 使得 \(\mathrm{rk}(B)\le k\), 取单位向量 \(\boldsymbol z\in\ker(B)\cap\langle\boldsymbol v_1,\ldots,\boldsymbol v_{k+1}\rangle\), 则 \(\|A-B\|_2^2\ge|(A-B)\boldsymbol z|^2=|A\boldsymbol z|^2\ge\sigma_{k+1}^2\).

定理 3.5 对任意 \(n\) 个点 \(\boldsymbol a_i\), 最佳逼近的 \(k\) 维仿射空间 \(V\) 经过重心.

不妨设重心是原点, \(V=\boldsymbol v_0+\langle\boldsymbol v_1,\ldots,\boldsymbol v_k\rangle\), 其中 \(\boldsymbol v_0\) 距离原点最近, 则 \(\boldsymbol v_i\) 两两正交, 所以 \(\mathrm{dist}(\boldsymbol a_i,V)^2=|\boldsymbol a_i-\boldsymbol v_0|^2-\sum_{j=1}^k(\boldsymbol a_i\cdot \boldsymbol v_j)^2\), 所以

\[\sum_{i=1}^n\mathrm{dist}(\boldsymbol a_i,V)^2=\sum_{i=1}^n|\boldsymbol a_i|^2+n|\boldsymbol v_0|^2-\sum_{i=1}^n\sum_{j=1}^k(\boldsymbol a_i\cdot\boldsymbol v_j)^2 \]
所以必须有 \(|\boldsymbol v_0|=0\).

考虑最大割问题: 给定 01 矩阵 \(A\), 求 01 向量 \(\boldsymbol x\) 使得 \(\boldsymbol x^\mathrm TA(1-\boldsymbol x)\) 最大.

引理 3.6 设 \(A_k\) 是 \(A\) 的最佳秩 \(k\) 逼近, 则 \(\boldsymbol x^\mathrm TA_k(1-\boldsymbol x)\) 的误差不超过 \(n^2/\sqrt{k+1}\).

由 \(\|\boldsymbol x\|,\|1-x\|\le\sqrt n\) 知 \(|\boldsymbol x^\mathrm T(A-A_k)(1-\boldsymbol x)|\le n\|A-A_k\|_2=n\cdot\sigma_{k+1}\), 而

\[(k+1)\sigma_{k+1}^2\le\sigma_1^2+\cdots+\sigma_{k+1}^2=\|A\|_\mathrm F^2\le n^2. \]

设 \(A_k:=\sum_{i=1}^k\sigma_i\boldsymbol u_i\boldsymbol v_i^\mathrm T\), 对于 \(S\subseteq[n]\), 设 \(\boldsymbol u_i(S):=\sum_{j\in S}u_{ij}\), 则所求即为 \(\sum_{i=1}^k\sigma_i\boldsymbol u_i(S)\boldsymbol v_i(\overline S)\) 的最大值, 剩下套了程设课讲的 rounding 技术, 不想看了.

Chapter 5. Machine Learning

记 \(\mathcal X\) 为输入空间, \(\mathcal Y\) 为目标空间, \(\mathcal C\subseteq\mathcal Y^{\mathcal X}\) 为概念空间. 固定概念集合 \(\mathcal H\) 称为假设空间, 输入样本 \(S=\{(x_i,c(x_i))\}_{i=1}^n\), 其中 \(c\) 是要求拟合的目标概念, \(x_i\) 独立服从于隐含的分布 \(\mathcal D\). 定义泛化误差 \(\mathrm{err}_\mathcal D(h):=\mathbb P(h(\boldsymbol x)\ne c(\boldsymbol x):\boldsymbol x\sim\mathcal D)\), 经验误差 \(\mathrm{err}_S(h):=\frac 1n\sum_{i=1}^n[h(x_i)\ne c(x_i)]\).

定理 5.1 给定 \(n\) 个样本 \((\boldsymbol x_i,l_i)\), 考虑 Perceptron Algorithm: 令 \(\boldsymbol w\leftarrow\boldsymbol 0\), 重复若存在 \(i\) 使得 \(\boldsymbol x_il_i\cdot\boldsymbol w\le 0\), 则令 \(\boldsymbol w\leftarrow\boldsymbol w+\boldsymbol x_il_i\). 则当样本线性可分时, 算法一定会终止.

设 \(\boldsymbol w^*\) 使得 \(\boldsymbol x_il_i\cdot\boldsymbol w^*\ge 1\), 则

\[\begin{aligned} (\boldsymbol w+\boldsymbol x_il_i)\cdot\boldsymbol w^*&\ge\boldsymbol w\cdot\boldsymbol w^*+1 \\ |\boldsymbol w+\boldsymbol x_il_i|^2&=|\boldsymbol w|^2+2\boldsymbol x_il_i\cdot\boldsymbol w+|\boldsymbol x_i|^2\le|\boldsymbol w|^2+r^2 \end{aligned} \]
则 \(m\) 次更新之后 \(\boldsymbol w\cdot\boldsymbol w^*\ge m\), \(|\boldsymbol w|^2\le mr^2\), 解得 \(m\le r^2|\boldsymbol w^*|^2\).

称函数 \(k:\mathbb R^n\times\mathbb R^n\to\mathbb R\) 是核函数当且仅当存在一列函数 \(\{\varphi_i\}_{i=1}^\infty\) 使得 \(k(\boldsymbol x,\boldsymbol y)=\sum_{i=1}^\infty\varphi_i(\boldsymbol x)\cdot\varphi_i(\boldsymbol y)\) 且是绝对收敛的.

定理 5.2 设 \(k_1,k_2\) 是核函数, 则 \(k_1k_2\) 是核函数.

\(k_1k_2(\boldsymbol x,\boldsymbol y)=\sum_{i=1}^\infty\sum_{j=1}^\infty\varphi_i(\boldsymbol x)\varphi_j(\boldsymbol x)\cdot\varphi_i(\boldsymbol y)\varphi_j(\boldsymbol y)\).

定理 5.3 设假设空间 \(\mathcal H\) 有限, \(\varepsilon,\delta>0\), 概率分布 \(\mathcal D\), \(n\ge(\log|\mathcal H|-\log\delta)/\varepsilon\), 则以至少 \(1-\delta\) 的概率对 \(h\in\mathcal H\) 都有若 \(\mathrm{err}_S(h)=0\) 则 \(\mathrm{err}_\mathcal D(h)\le\varepsilon\).

\[\begin{aligned} &\mathbb P\!\left(\exists h\in\mathcal H,\mathrm{err}_S(h)=0\land \mathrm{err}_\mathcal D(h)>\varepsilon\right) \\ &\le\sum_{h\in\mathcal H}\mathbb P\!\left(\mathrm{err}_S(h)=0\land\mathrm{err}_\mathcal D(h)>\varepsilon\right) \\ &\le\sum_{h\in\mathcal H}\mathbb P\!\left(\mathrm{err}_S(h)=0\mid\mathrm{err}_\mathcal D(h)>\varepsilon\right) \\ &\le|\mathcal H|(1-\varepsilon)^n\le |\mathcal H|\exp(-n\varepsilon). \end{aligned} \]

posted @ 2023-10-31 23:02 mizu164 阅读(175) 评论(0) 收藏举报

刷新页面返回顶部

背公式 (2)

Chapter 2. High-Dimensional Space

Chapter 3. Best-Fit Subspaces and SVD

Chapter 5. Machine Learning

公告