Glauber 过程的拌和时间(第二篇)
1
Poincaré 不等式:\(\gamma\cdot\text{Var}_\mu(f)\leq\mathfrak{D}(f,f),\qquad\forall f:\Omega\to\mathbb{R}_{\geq0}\)。
标准 Log-Sobolev 不等式:\(\kappa\cdot\text{Ent}_\mu(f)\leq\mathfrak{D}\left(\sqrt f,\sqrt f\right),\qquad\forall f:\Omega\to\mathbb{R}_{\geq0}\)。
变形 Log-Sobolev 不等式:\(\varrho\cdot\text{Ent}_\mu(f)\leq\mathfrak{D}(f,\ln f),\qquad\forall f:\Omega\to\mathbb{R}_{\geq0}\)。
对于一个函数 \(f\),定义它的幺模的当且仅当:
- \(\mathbb{E}_\mu[f]=1\),或说 \(\langle f,\mathbf{1}\rangle_\mu=1\),或说 \(\|f\|_\mu=1\)(这三个定义是等价的)。
幺模函数 \(f\) 一定可以写成另一个分布 \(\nu\) 对 \(\mu\) 的逐点除法,也就是 \(f(x)=\frac{\nu(x)}{\mu(x)}\)。
我们定义 \(V_k=\mathbb{E}_{S\sim\binom{[n]}{k}}[\mathbb{E}_{\tau\sim\mu_S}[\text{Var}_{\mu^\tau}(f)]]\),表示等概率选择一个大小为 \(k\) 的子集,按照 \(\mu\) 对其进行赋值,剩下 \(n-k\) 个点方差的期望值。注意到 \(V_0=\text{Var}_\mu(f)\),并且 \(V_n=0\)。接下来我们证明 \(V_{n-1}=\mathfrak{D}(f,f)\)。
(这是因为 \(\left\{\left(f_0,\frac{\mu_0}{\mu_0+\mu_1}\right),\left(f_1,\frac{\mu_1}{\mu_0+\mu_1}\right)\right\}\) 的方差是 \(\frac{\mu_0\mu_1}{(\mu_0+\mu_1)^2}(f_0-f_1)^2\)。)
我们也可以把 \(V_k\) 想象成等概率选择一个长度为 \(k\)、元素 \(\in\{1,\cdots,n\}\) 两两不同的数组。
对于随便某个 \(f\text{ is not constant}\),我们想要 lower bound \(\frac{V_{n-1}}{V_0}=\frac{\mathfrak{D}(f,f)}{\text{Var}_\mu(f)}\) 的值。
根据总方差定理我们有 \(V_0=V_1+\text{Var}_{\mu_{(\text{on }1)}}[f_{(\text{on }1)}]\),其中 \(\mu_{(\text{on }1)},f_{(\text{on }1)}\) 的数组长度都是 \(2n\):
我们想要证明的是 \(\text{Var}_{\mu_{(\text{on }1)}}[f_{(\text{on }1)}]\leq\frac{1+\eta_0}{n}\cdot\text{Var}_\mu(f)\),这个可以推出 \(\frac{V_1}{V_0}\geq1-\frac{1+\eta_0}{n}\)。
对于更大的正整数 \(k\geq1\),我们有 \(V_k=\mathbb{E}_{S\sim\binom{[n]}{k}}[\mathbb{E}_{\tau\sim\mu_S}[\text{Var}_{\mu^\tau}(f)]]\),\(V_{k+1}=\mathbb{E}_{S\sim\binom{[n]}{k+1}}[\mathbb{E}_{\tau\sim\mu_S}[\text{Var}_{\mu^\tau}(f)]]\)。
只能保证:对于每个 \(k\) 前缀 \(S\in\binom{[n]}{k}\) 和每个可行的 pinning \(\tau:S\to\{0,1\}\),我们再定义 \(\mu_{(\tau\text{ on }1)},f_{(\tau\text{ on }1)}\):
根据总方差定理我们有 \(\text{Var}_{\mu^\tau}(f)=\mathbb{E}_{i\in [n]\setminus S}[\mathbb{E}_{s\sim\Pr[\sigma_i=s|S\text{ is }\tau]}[\text{Var}_{\mu^{S\text{ is }\tau,i\leftarrow s}}(f)]]+\text{Var}_{\mu_{(\tau\text{ on }1)}}[f_{(\tau\text{ on }1)}]\)。
我们想要证明的是 \(\text{Var}_{\mu_{(\tau\text{ on }1)}}[f_{(\tau\text{ on }1)}]\leq\frac{1+\eta_k}{n-k}\cdot\text{Var}_\mu(f)\) 总是成立,这个可以推出 \(\frac{V_{k+1}}{V_k}\geq1-\frac{1+\eta_k}{n-k}\)。
(直接把:上面这个等式对于所有 \(|S|=k\),可行的 \(\tau:S\to\{0,1\}\) 按照期望加起来。)
Shattering Lemma:对于参数 \(0<\theta<0.1\),等概率随机选择一个大小为 \(\theta n\) 的子集点亮。对于结点 \(u\),假设 \(C_u\) 表示包含 \(u\) 的极大连通块,那么对于任意正整数 \(\ell\geq1\),我们有 \(\Pr[|C_u|=\ell]\leq(2\text{e}\Delta\theta)^{\ell-1}\)。
我们假设存在一个统一的 \(\eta\) 使得所有 \(\eta_k\leq\eta\)。我们计算
其中 \(\frac{f_\text{out}(n)}{f_\text{in}(n)}=\frac{(1+\eta)(1-\theta)}{\theta}\),并且当 \(n\) 足够大时 \(f_\text{in}(n)\geq6\),此时 \(\left(1-f_\text{in}(n)^{-1}\right)^{f_\text{in}(n)}\geq\frac{1}{3}\)。然后我们计算
2
我们首先证明方差可以分解:对于一个 \(n\) 元函数 \(F:X_1\times\cdots\times X_n\to\mathbb{R}_{\geq0}\),如果 \(\mu(x_1,\cdots,x_n)=\prod_{i=1}^n\mu_i(x_i)\),那么 \(\text{Var}[F]\leq\sum_{i=1}^n\mathbb{E}_{x_1,\cdots,x_{i-1},x_{i+1},\cdots,x_n}[\text{Var}_{x_i}[F(x_1,\cdots,x_{i-1},x_i,x_{i+1},\cdots,x_n)]]\)。
我们定义 \(M_i=\mathbb{E}_{x_{i+1},\cdots,x_n}[F]\) 是一个跟 \(x_1,\cdots,x_i\) 有关的随机变量,表示前 \(i\) 局游戏结束后当前 \(F\) 的期望。
我们定义 \(D_i=M_i-M_{i-1}\) 表示第 \(i\) 局游戏结束后这个当前期望的变化量。我们证明 \(\text{Var}[F]=\sum_{i=1}^n\mathbb{E}[D_i^2]\),这可以使用总方差公式证明:
以此类推,一直展开可以得到(注意到对于任意 \(x_1,\cdots,x_{i-1}\) 都有 \(\mathbb{E}_{x_i}[D_i]=0\),因此 \(\text{Var}_{x_i}[D_i]=\mathbb{E}_{x_i}[D_i^2]\)):
然后我们需要证明,对于每个 \(1\leq i\leq n\):
这是因为对于任意 \(x_1,\cdots,x_{i-1}\) 都有
因此按照 \(x_1,\cdots,x_{i-1}\) 的分布全部加起来之后,我们就有
现在我们回归到 Shattering Lemma 的证明:对于参数 \(0<\theta<0.1\),等概率随机选择一个大小为 \(\theta n\) 的子集点亮。对于结点 \(u\),假设 \(C_u\) 表示包含 \(u\) 的极大连通块,那么对于任意正整数 \(\ell\geq1\),我们有 \(\Pr[|C_u|=\ell]\leq(\text{e}\Delta\theta)^{\ell-1}\)。
考虑有多少个不同的点集 \(S\) 包含 \(u\)、大小为 \(\ell\leq\theta n\) 并且连通。对于每个这样的点集,它的贡献是
我们变成考虑有多少个不同的(以 \(u\) 为根)有根树 \(T\) 包含 \(u\)、大小为 \(\ell\)。我们称两个有根树 \(T_1,T_2\) 是不同的当且仅当:
- 在 \(T_1,T_2\) 中 \(u\) 的儿子个数不同,或者儿子个数虽然相同但是具体儿子集合不同;或者
- 在 \(T_1,T_2\) 中 \(u\) 的每个具体儿子 \(v_i\) 对应的(以 \(v_i\) 为根)有根子树存在一对不同。
按照这个定义,可以看出:\(G\) 中(以 \(u\) 为根)大小为 \(\ell\) 的有根树个数,一定不超过 \(\mathbb{T}_\Delta\) 中(以 \(u\) 为根)大小为 \(\ell\) 的有根树个数。(其中 \(\mathbb{T}_\Delta\) 表示每个结点度数都等于 \(\Delta\) 的没有穷尽的无根树。)
同时,我们注意到每个不同的点集 \(S\) 如果连通,那么一定可以画出一棵不同的有根树 \(T\)(这个映射是一个单射)。
综上所述,不同的点集个数一定不超过 \(\mathbb{T}_\Delta\) 中(以 \(u\) 为根)大小为 \(\ell\) 的有根树个数。
3
这个数字我们可以直接用子树 DP 计算。写成生成函数的形式,就是 \(F(x)=x\big(1+F(x)\big)^k\)。使用拉格朗日反演,我们可以证明 \([x^n]F(x)=\frac{1}{n}\binom{kn}{n-1}\)。注意到 \(\frac{1}{n}\binom{kn}{n-1}\leq\frac{(kn)^{n-1}}{n!}\leq\frac{(kn)^{n-1}}{\sqrt{2\pi n}(n/\text{e})^n}\leq(\text{e}k)^{n-1}\left(1.1n^{-1.5}\right)\)。
因此把两个数直接相乘,我们得到 \(\text{Pr}\big[|C_u|=\ell\big]\leq\theta(\theta\text{e}\Delta)^{\ell-1}(1.1\ell^{-1.5})\leq(\theta\text{e}\Delta)^{\ell-1}\)。Shattering Lemma 证毕。
现在我们回到这个式子:
注意到
代回化简,合并 \(\sigma,\varsigma\) 可得
因此我们只需要说明存在一个 \(c>1\) 使得 \(C_\textsf{PI}(\ell)\leq c^\ell\) 总是成立即可(我们可以把 \(\theta>0\) 选成足够小)。
对于一个 \(\{0,1\}^n\) 上的概率分布 \(\mu\),定义它的折叠式影响矩阵 \(\Psi_\mu\in\mathbb{R}^{n\times n}\):
(前提是每个元素都可能取到 \(1\)。如果有一个元素只可能取到 \(0\),我们直接把这个元素删去。)
我们称 \(\mu\) 本身是 \(\eta\)-方差可分的当且仅当 \(\lambda_\max(\Psi_\mu)\leq1+\eta\)。
我们需要证明 \(\frac{\text{Var}_{\mu_1}(f_1)}{\text{Var}_\mu(f)}\leq\frac{1+\eta}{n}\)。注意到把 \(f\) 的值平移一个常数(效果是把 \(f_1\) 的值平移一个常数)不会改变 \(\text{Var}_{\mu_1}(f_1),\text{Var}_\mu(f)\) 的值,因此我们可以假设 \(\mathbb{E}_{\mu_1}[f_1]=\mathbb{E}_{\mu}[f]=0\),此时 \(\text{Var}_{\mu_1}(f_1)=\mathbb{E}_{\mu_1}[f_1^2]\)。我们直接计算
我们凑一个 \(\langle f,\textsf{P}f\rangle_\mu\) 的形式出来,注意到 \(\langle f,\textsf{P}f\rangle_\mu=\sum_{x\in\Omega}\mu(x)f(x)\sum_{y\in\Omega}\textsf{P}(x\to y)f(y)\),因此我们凑
注意到 \(\textsf{P}\) 满足所有值非负,每行和等于 \(1\),并且 \(\mu(\sigma_1)\textsf{P}(\sigma_1\to\sigma_2)=\mu(\sigma_2)\textsf{P}(\sigma_2\to\sigma_1)\) 成立。因此 \(\textsf{P}\) 关于 \(\mu\) 可逆。
那么按照相同的逻辑,我们有:对于任意函数 \(f\),\(\frac{\text{Var}_{\mu_1}(f_1)}{\text{Var}_\mu(f)}\leq\lambda_2(\textsf{P})\)。
4
对于一个 \(n\times n\) 矩阵 \(A\),如果它能写成 \(k\) 个秩一矩阵的和 \(A=\sum_{i=1}^k\vec{u}_i\vec{v}_i^T\),也就是 \(A=UV^T\),其中 \(U,V\) 都是 \(n\times k\) 矩阵,那么令 \(B=V^TU\) 是一个 \(k\times k\) 矩阵,我们可以证明:\(A\) 的特征值集合(\(n\) 个数)恰好等于 \(B\) 的特征值集合(\(k\) 个数)再加上 \(n-k\) 个 \(0\)。我们来证明这一点:
- 假设 \(A\vec{x}=\lambda\vec{x}(\lambda\neq0)\),那么 \(UV^T\vec{x}=\lambda\vec{x}\),因此 \(V^TU\big(V^T\vec{x}\big)=\lambda\big(V^T\vec{x}\big)\),那么 \(V^T\vec{x}\) 也是 \(B\) 的 \(\lambda\) 特征向量。
- 假设 \(B\vec{x}=\lambda\vec{x}(\lambda\neq0)\),那么 \(V^TU\vec{x}=\lambda\vec{x}\),因此 \(UV^T\big(U\vec{x}\big)=\lambda\big(U\vec{x}\big)\),那么 \(U\vec{x}\) 也是 \(A\) 的 \(\lambda\) 特征向量。
因此每个非零特征值 \(\lambda\) 对应的特征空间维数相等,二者之间的关系是乘 \(V^T\)/乘 \(U\)。那么剩下的都是零了,证毕。
我们定义 \(U_{\sigma,(i,s)}=\frac{1}{n}[\sigma_i=s],V_{\sigma,(i,s)}=\frac{\mu(\sigma)}{\text{Pr}_{\sigma\sim\mu}[\sigma_i=s]}[\sigma_i=s]\),那么 \(A=UV^T\)。我们发现
因此 \(\lambda_2(\mathsf{P})=\lambda_2(\mathsf{Q})\),其中 \(\mathsf{Q}\) 是一个 \((2n)\times(2n)\) 矩阵,满足 \(\mathsf{Q}\big((i,s)\to(j,t)\big)=\frac{1}{n}\text{Pr}\big[\sigma_j=t\big|\sigma_i=s\big]\)。
注意到 \(\mathsf{Q}\) 满足所有值非负,每行和等于 \(1\),并且 \(\mu_1\big((i,s)\big)\mathsf{Q}\big((i,s)\to(j,t)\big)=\mu_1\big((j,t)\big)\mathsf{Q}\big((j,t)\to(i,s)\big)\) 成立。(因此 \(\mathsf{Q}\) 关于 \(\mu_1\) 可逆。)最后我们只需要证明 \(\lambda_2(\mathsf{Q})=\frac{1}{n}\lambda_\max(\Psi_\mu)\),注意到
其中 \(\mathsf{R}\big((i,s)\to(j,t)\big)=\mu_1\big((j,t)\big)=\frac{1}{n}\text{Pr}\big[\sigma_j=t\big]\),用来中和掉第一特征值 \(\lambda_1(\mathsf{Q})=1\)。我们可以证明:\(\mathsf{Q}-\mathsf{R}\) 的特征值集合(\(n\) 个数)恰好等于 \(\mathsf{Q}\) 的特征值集合(\(n\) 个数)删去 \(1\),补上一个 \(0\) 之后的结果。这是因为 \(\mathsf{R}\mathbf{1}=\mathbf{1}\),并且对于任意 \(f\bot\mathbf{1}\)(也就是 \(\langle f,\mathbf{1}\rangle_\mu=0\))都满足 \(\mathsf{R}f=\mathbf{0}\)。那么现在 \(n\big(\mathsf{Q}-\mathsf{R}\big)=\Big(\text{Pr}\big[\sigma_j=t\big|\sigma_i=s\big]-\text{Pr}\big[\sigma_j=t\big]\Big)\)。
注意到 \(\text{Pr}\big[\sigma_j=0\big|\sigma_i=s\big]+\text{Pr}\big[\sigma_j=1\big|\sigma_i=s\big]=\text{Pr}\big[\sigma_j=0\big]+\text{Pr}\big[\sigma_j=1\big]=1\),因此左右两半互为相反数。故而
因此 \(n\big(\mathsf{Q}-\mathsf{R}\big)\) 的特征值集合(\(2n\) 个数)恰好等于 \(\Psi_\mu\) 的特征值集合(\(n\) 个数)再加上 \(n\) 个 \(0\)。
综上所述,我们最终证明了:\(\frac{\text{Var}_{\mu_1}(f_1)}{\text{Var}_{\mu}(f)}\) 有最大值且等于 \(\lambda_2(\textsf{P})\),并且 \(\lambda_2(\textsf{P})=\lambda_2(\mathsf{Q})=\frac{1}{n}\lambda_\max(\Psi_\mu)\)。
-
Poincaré 不等式 \(\Longrightarrow\) 搅拌时间上界:
\[\text{T}_\text{mix}(\varepsilon)\leq\frac{1}{\gamma_*(\textsf{P})}\left(\frac{1}{2}\,\ln\frac{1}{\mu_\text{init}}+\ln\frac{1}{2\varepsilon}\right) \] -
标准 Log-Sobolev 不等式 \(\Longrightarrow\) 搅拌时间上界:
\[\text{T}_\text{mix}(\varepsilon)\leq\frac{1}{4\kappa(\textsf{P})}\left(\ln\ln\frac{1}{\mu_\text{init}}+\ln\frac{1}{2\varepsilon^2}\right) \] -
变形 Log-Sobolev 不等式 \(\Longrightarrow\) 搅拌时间上界:
\[\text{T}_\text{mix}(\varepsilon)\leq\frac{1}{\varrho(\textsf{P})}\left(\ln\ln\frac{1}{\mu_\text{init}}+\ln\frac{1}{2\varepsilon^2}\right) \]
我们从 \(\text{KL}\) 散度的角度考虑:
其中 \(\text{Ent}_\mu(f)=\mathbb{E}_\mu[f\ln f]-\mathbb{E}_\mu[f]\ln\mathbb{E}_\mu[f]\) 是一个函数的熵(我们注意到 \(\mathbb{E}_\mu[f]=\sum_{x\in\Omega}\nu(x)=1\))。
5
对于实数 \(t\geq0\),我们定义 \(H_t=\exp((\mathsf{P}-\mathsf{Id})\cdot t))\),可以发现 \(\frac{d}{dt}H_t=(\mathsf{P}-\mathsf{Id})H_t=H_t(\mathsf{P}-\mathsf{Id})\)。
对于每个实数 \(t\geq0\) 以及每个可能的初始分布 \(\nu\),我们有 \(D_\text{KL}(\nu H_t\|\mu)\leq e^{-\varrho(\mathsf{P})\cdot t}\cdot D_\text{KL}(\nu\|\mu)\)。
我们定义 \(f_t=\frac{\nu H_t}{\mu}\),那么 \(D_\text{KL}(\nu H_t\|\mu)=\text{Ent}_\mu(f_t)=\mathbb{E}_\mu[f_t\ln f_t]\)。我们证明 \(f_t=H_tf_0\)。展开计算:
首先我们可以求导(注意到 \(f(x)\ln f(x)\) 关于 \(x\) 的导数是 \(f'(x)\big(1+\ln f(x)\big)\)):
然后我们展开计算:
然后我们代回原式:
最终我们可以得到:\(\frac{d}{dt}\text{Ent}_\mu(f_t)=-\mathfrak{D}(f_t,\ln f_t)\ (\mathbf{*})\)。那么如果变形 Log-Sobolev 不等式成立,也就是对于任意函数 \(f:\Omega\to\mathbb{R}_{\geq0}\) 都有 \(\varrho\cdot\text{Ent}_\mu(f)\leq\mathfrak{D}(f,\ln f)\),那么根据 \((\mathbf{*})\) 可以推出 \(\frac{d}{dt}\text{Ent}_\mu(f_t)\leq-\varrho\cdot\text{Ent}_\mu(f_t)\),因此 \(\frac{d}{dt}\ln\text{Ent}_\mu(f_t)=\frac{\frac{d}{dt}\text{Ent}_\mu(f_t)}{\text{Ent}_\mu(f_t)}\leq-\varrho\),因此 \(\ln\text{Ent}_\mu(f_t)-\ln\text{Ent}_\mu(f_0)\leq-\varrho\cdot t\),这等价于 \(\text{Ent}_\mu(f_t)\leq\text{e}^{-\varrho\cdot t}\cdot\text{Ent}_\mu(f_0)\)/\(D_\text{KL}(\nu H_t\|\mu)\leq\text{e}^{-\varrho\cdot t}\cdot D_\text{KL}(\nu\|\mu)\)。进一步注意到 \(D_\text{KL}(\delta_x\|\mu)=\ln\frac{1}{\mu_x}\),因此 \(D_\text{KL}(\nu H_t\|\mu)\leq\text{e}^{-\varrho\cdot t}\cdot\ln\frac{1}{\mu_\text{init}}\)。
现在我们需要证明对于任意 \(f\):\(E_{n-1}(f)\leq\mathfrak{D}(f,\ln f)\),按照定义 \(E_0(f)=\text{Ent}_\mu(f)\),也就是说 \(\frac{E_{n-1}(f)}{E_0(f)}\leq\frac{\mathfrak{D}(f,\ln f)}{\text{Ent}_\mu(f)}\)。
(这样一来 \(\varrho=\inf\limits_{f:\Omega\to\mathbb{R}_{\geq0}}\left\{\frac{\mathfrak{D}(f,\ln f)}{\text{Ent}_\mu(f)}\right\}\geq\inf\limits_{f:\Omega\to\mathbb{R}_{\geq0}}\left\{\frac{E_{n-1}(f)}{E_0(f)}\right\}\),因此后者的下界也一定是前者的下界。)
对于一个 \(i\in[n]\),拿出一对只在 \(i\) 有区别的状态 \((\sigma_0,\sigma_1)\),假设 \((a,b,u,v)=\big(f(\sigma_0),f(\sigma_1),\mu(\sigma_0),\mu(\sigma_1)\big)\),我们计算 \((\sigma_0,\sigma_1)\) 对 \(\mathfrak{D}(f,\ln f),E_{n-1}(f)\) 的贡献 \(\frac{1}{n}D,\frac{1}{n}E\),可以发现
6
接下来我们证明:对于任意实数 \(a,b,u,v\geq0\),都有 \(D\geq E\)。我们先证明 \(>0\) 的情况。
假设 \(p=\frac{u}{u+v},q=\frac{v}{u+v}\)。定义 \(m=pq+qb=\frac{ua+vb}{u+v}\)。那么
根据 \(\ln\) 的上凸性,我们有 \(\ln m=\ln(pa+qb)\geq p\ln a+q\ln b\)。因此
最后证明边界情况:如果 \(p=0\) 或者 \(q=0\),那么 \(D=E=0\),不等式成立;否则如果 \(a=b=0\),那么 \(D=E=0\),不等式成立;否则如果 \(a=0\) 或者 \(b=0\),那么 \(D=+\infty\),\(E\) 是有限的正数,不等式也成立。
对于实数 \(0\leq\alpha\leq1\),定义一个分布满足 \(\alpha\)-局部方差收缩,如果对于每个全局函数 \(f:\{0,1\}^n\to\mathbb{R}_{\geq0}\),它对应的分布 \(\mu_1,\mu_2\) 满足 \(\text{Ent}_{\mu_2}(f_2)\geq2\big(1-\frac{\alpha}{n}\big)\text{Ent}_{\mu_1}(f_1)\)。
对于实数数列 \(0\leq\alpha_0,\cdots,\alpha_{n-2}\leq1\),定义一个分布满足 \(\alpha\)-全局方差收缩,如果对于每个大小为 \(k\) 的子集 \(S\in[n]\) 以及每个 \(\tau:S\to\{0,1\}\),那个条件分布 \(\mu^\tau\) 都满足 \(\alpha_k\)-局部方差收缩,也就是 \(\text{Ent}_{\mu^\tau_2}(f^\tau_2)\geq2\big(1-\frac{\alpha_k}{n-k}\big)\text{Ent}_{\mu^\tau_1}(f^\tau_1)\)。
如果 \(\alpha\)-全局方差收缩成立,那么对于每个全局函数 \(f:\{0,1\}^n\to\mathbb{R}_{\geq0}\),以及每个 \(0\leq k\leq\ell\leq n\),都有
根据总方差定理,对于每个 \(0\leq k\leq\ell\leq n\),都有 \(\text{Ent}_{\mu_\ell}(f_\ell)=\text{Ent}_{\mu_k}(f_k)+\mathbb{E}_{\sigma\sim\mu_k}\big[\text{Ent}_{\mu^\sigma_{\ell-k}}\big(f^\sigma_{\ell-k}\big)\big]\)。展开计算:
综上所述,由于 \(\beta_1=1\),我们可以知道 \(\text{Ent}_{\mu}(f)=\text{Ent}_{\mu_n}(f_n)\geq\beta_n\text{Ent}_{\mu_1}(f_1)\),那么 \(\eta_\text{Ent}=n\beta_n^{-1}-1=O(\alpha)\)。
定理:对于一个 \(\eta\)-方差可分的 \(\mu\),一定有
我们可以把 \(\mu_2\) 看成一个 \((2n)\times(2n)\) 矩阵,满足
注意到对于任意 \(x\in[n]\times\{0,1\}\),都有 \(\sum_y\mu_2(x,y)f_2(x,y)=\mu_1(x)f_1(x)\),因此
7
注意到对于正实数 \(a,b>0\),都有 \(a(\ln a-\ln b)\geq a-b\)(因为 \(\ln\left(\tfrac{b}{a}\right)\leq\tfrac{b}{a}-1\)),因此
前文中我们证明了:如果 \(\mathsf{P}\) 关于 \(\mu\) 可逆,那么对于任意函数 \(f:\Omega\to\mathbb{R}_{\geq0}\),都有 \(\frac{\langle f,\mathsf{P}f\rangle_\mu}{\text{Var}_\mu(f)}\leq\lambda_2(\mathsf{P})\)。因此
注意到 \(\lambda_2(\mathsf{Q}_\mu)=\frac{1}{n}\lambda_\max(\Psi_\mu)\),而 \(\eta\geq\lambda_\max(\Psi_\mu)-1\),因此 \(\text{Ent}_{\mu_2}(f_2)-2\text{Ent}_{\mu_1}(f_1)\geq-\frac{\eta}{n-1}\cdot\text{Var}_{\mu_1}(f_1)\)。
现在假设 \(\mathbb{E}_{\mu_1}[f_1]=c\)(\(f\) 每个元素 \(\times c\)),我们要证明 \(\text{Ent}_{\mu_2}(f_2)-2\text{Ent}_{\mu_1}(f_1)\) 和 \(\frac{\text{Var}_{\mu_1}(f_1)}{\mathbb{E}_{\mu_1}[f_1]}\) 的值恰好乘以 \(c\)。
直接计算前者:对于 \((a,b,u,v)\),\(E_{(c)}=cE_{(1)}\);后者:对于 \((a,b,u,v)\),\(V_{(c)}=c^2V_{(1)}\)。因此成立。
最后我们证明:如果 \(\mu\) 具有间隔 \(B>0\),那么 \(\text{Ent}_{\mu_1}(f_1)\leq\frac{\text{Var}_{\mu_1}(f_1)}{\mathbb{E}_{\mu_1}[f_1]}\leq\frac{2}{B}\cdot\text{Ent}_{\mu_1}(f_1)\)。
首先我们还是假设 \(\mathbb{E}_{\mu_1}[f_1]=1\),也就是说 \(f_1=\frac{\nu_1}{\mu_1}\)。那么 \(f_1(x)=\frac{\nu_1(x)}{\mu_1(x)}\leq\frac{\nu_1(x)}{B}\leq\frac{1}{B},\quad\forall x\in[n]\times\{0,1\}\)。
考虑单个 \(0\leq y\leq c\) 对 \(\text{Ent}_{\mu}(f),\text{Var}_{\mu}(f)\) 二者的贡献。展开计算
第一个不等号:比对 \(\nu(x)\) 那一侧的贡献。对于任意 \(y\geq0\),我们总有 \(\ln y\leq y-1\)。
第二个不等号:比对 \(\mu(x)\) 那一侧的贡献。对于任意 \(y\geq0\),我们总有 \((y-1)^2\leq2\max\{1,y\}\big(y(\ln y-1)+1\big)\)。
综上所述,\(\text{Ent}_{\mu_2}(f_2)\geq2\left(1-\frac{\eta}{B(n-1)}\right)\cdot\text{Ent}_{\mu_1}(f_1)\),也就是说 \(\alpha=\frac{\eta}{B}\)(这里的 \(n,n-1\) 对不上,回去修改定义!
定义势能函数 \(\varphi(R)=\ln\left(\sqrt{R}+\sqrt{R+1}\right)\),其具有导函数 \(\varphi'(R)=\Phi(R)=\frac{1}{\sqrt{R(R+1)}}\)。
定义每个结点的 DP 值 \(R_u\),其递归形式为 \(R_u=F_{d_u,\lambda_u}\big(R_{u_1},\cdots,R_{u_{d_u}}\big)\),其中 \(F_{d,\lambda}(R_1,\cdots,R_d)=\lambda\prod_{i=1}^d\frac{1}{1+R_i}\)。
定义 \(K=\varphi(R)\),那么 \(K_u=G_{d_u,\lambda_u}\big(K_{u_1},\cdots,K_{u_{d_u}}\big)\),其中 \(G_{d,\lambda}(K_1,\cdots,K_d)=\varphi\left(\lambda\prod_{i=1}^d\frac{1}{1+\varphi^{-1}(R_i)}\right)\)。
首先证明 \(\partial_{\ln\lambda_u}\ln Z_H(\boldsymbol{\lambda})=\text{Pr}_{I\sim\mu_{H,\boldsymbol{\lambda}}}[u\in I]\):假设 \(\alpha=\text{Pr}_{I\sim\mu_{H,\boldsymbol{\lambda}}}[u\in I]\),那么 \(\lim\limits_{\varepsilon\to0}\frac{\ln\big(\mathrm{e}^{\varepsilon}\alpha+(1-\alpha)\big)}{\varepsilon}=\lim\limits_{\varepsilon\to0}\frac{\varepsilon\alpha}{\varepsilon}=\alpha\)。
然后证明 \(\partial_{\ln\lambda_u}\ln R_{H,\tau}(\boldsymbol{\lambda})=\Psi_H(\tau\to u)\):按照定义 \(R_{H,\tau}(\boldsymbol{\lambda})=\frac{\lambda_\tau\cdot Z_{H-N[\tau]}(\boldsymbol{\lambda})}{Z_{H-\{\tau\}}(\boldsymbol{\lambda})}\),因此
我们以 \(\tau\) 为根建出 \(H\) 的自回避游走树 \(T=T_\textsf{SAW}(H,\tau)\)。我们证明
在前文中我们已经说明 \(R_{H,\tau}(\boldsymbol{\lambda})=F_{d_\tau,\lambda_\tau}\big(R_{H_1,\tau_1}(\boldsymbol{\lambda_1}),\cdots,R_{H_{d_\tau},\tau_{d_\tau}}(\boldsymbol{\lambda_{d_\tau}})\big)\)。
8
可以使用链式法则展开
对于 \(T\) 中的每个结点 \(u\) 建两个小结点 \(u^{(1)},u^{(2)}\)。我们连有向边:
- 每个点的 \((1)\) 小结点向自己的 \((2)\) 小结点连一条边,边权为 \(w\left(u^{(1)}\to u^{(2)}\right)=\frac{\partial K_u}{\partial\ln R_u}\);
- 根结点的 \((2)\) 小结点向自己的 \((1)\) 小结点连一条边,边权为 \(w\left(\tau^{(2)}\to\tau^{(1)}\right)=\frac{\partial\ln R_\tau}{\partial K_\tau}\);
- 每个点的 \((2)\) 小结点向父亲的 \((2)\) 小结点连一条边,边权为 \(w\left(v_i^{(2)}\to u^{(2)}\right)=\partial_{K_{v_i}}G_{d_u,\lambda_u}\big(K_{v_1},\cdots,K_{v_{d_u}}\big)\)。
由于 \(\frac{\partial\ln R_u}{\partial\ln\lambda_u}=1\),因此 \(\frac{\partial K_u}{\partial\ln\lambda_u}=\frac{\partial K_u}{\partial\ln R_u}\cdot\frac{\partial\ln R_u}{\partial\ln\lambda_u}=\frac{\partial K_u}{\partial\ln R_u}\)。
那么根据链式法则,我们知道:\(\Psi_T(\tau\to u)\) 等于 \(u^{(1)}\leadsto\tau^{(1)}\) 唯一路径上的边权乘积之和。我们展开计算
固定 \(R\)。我们证明 \(R_1=\cdots=R_d\) 时 \(\mathbf{(*)}\) 取到最大值。
设置 \(u_i=\ln(R_i+1)\geq0\),那么 \(\ln R=\ln\lambda-(u_1+\cdots+u_d)\) 固定。重写 \(\mathbf{(*)}\) 可得
由于函数 \(h(u)=\sqrt{1-e^{-u}}(u\geq0)\) 一阶导数 \(h'(u)=\frac{e^{-u}}{2\sqrt{1-e^{-u}}}(u\geq0)\) 严格递减,因此 \(h\) 上凸,故而 \(u_1=\cdots=u_d\) 时 \(\sum_{i=1}^dh(u_i)\) 取到最大值,命题得证。
对于整数 \(d\geq1\),参数 \(\lambda>0\),定义 \(y=\frac{\lambda}{(x+1)^d}(x\geq0)\)。我们要最大化 \(d\sqrt{\frac{x}{x+1}}\sqrt{\frac{y}{y+1}}\),等价于最大化 \(\frac{xy}{(x+1)(y+1)}\)。
定义 \(z=\frac{1}{x+1}\in(0,1]\),那么 \(x=\frac{1}{z}-1\),\(y=\lambda z^d\),计算 \(\frac{xy}{(x+1)(y+1)}\) 的一阶导数与 \(x'y(y+1)+y'x(x+1)\) 符号相同,后者又与 \(z(\lambda z^d+1)+d(z-1)=\lambda z^{d+1}+(d+1)z-d\) 符号相反。由于函数 \(h(z)=\lambda z^{d+1}+(d+1)z-d\) 在 \([0,1]\) 上严格递增,\(h(0)=-d\),\(h(1)=\lambda+1\),因此 \(h(z)\) 在 \([0,1]\) 上有唯一的零点 \(z^*\in(0,1)\)。
对于整数 \(d\geq2\),定义 \(\lambda_c=\frac{d^d}{(d-1)^{d+1}}\) 表示临界点权。如果 \(\lambda=(1-\alpha)\lambda_c\),其中 \(\alpha\in[0,1)\),定义 \(x^*=\frac{1}{z^*}-1\),\(y^*=\lambda(z^*)^d\),\(Q_\max=d\sqrt{\frac{x^*}{x^*+1}}\sqrt{\frac{y^*}{y^*+1}}\) 表示一个点有 \(d\) 个儿子时所有儿子边权总和的最大值。
我们用 \(x_0,y_0,z_0\) 表示 \(\lambda=\lambda_c\) 时 \(x^*,y^*,z^*\) 的值。那么 \(z_0=\frac{d-1}{d}\),\(x_0=y_0=\frac{1}{d-1}\),此时 \(Q_\max=1\)。
对于 \(\lambda=(1-\alpha)\lambda_c\),由于 \(\lambda(z^*)^{d+1}+(d+1)z^*-d=\lambda_c(z_0)^{d+1}+(d+1)z_0-d=0\),相减可得
根据拉格朗日中值定理,存在 \(z_0\leq z_1\leq z^*\) 使得 \((z^*)^{d+1}-(z_0)^{d+1}=(d+1)(z_1)^d(z^*-z_0)\)。因此
9
接下来注意到 \(Q_\max=d\sqrt{1-\frac{d+1}{d}z^*}\)(这是因为 \(\frac{x^*y^*}{(x^*+1)(y^*+1)}=\frac{(1-z^*)\lambda(z^*)^{d+1}}{\lambda(z^*)^{d+1}+z^*}=1-\frac{d+1}{d}z^*\))。因此
我们把所有 \(\leq d-1\) 个儿子的点补恒零叶子补到 \(d\) 个儿子。那么,每个点的所有儿子边权总和 \(\leq Q_\max\)。我们定义 \(w_\max,w_\min\) 表示 \((1)\) 小结点向自己的 \((2)\) 小结点连边边权的最大值和最小值。由于 \(\frac{\partial K}{\partial\ln R}=R\cdot\varphi'(R)=\sqrt{\frac{R}{R+1}}\),
最后一步是:对于任意整数 \(d\geq2\),\(0<\lambda\leq\lambda_c=\frac{d^d}{(d-1)^{d+1}}\),\(A=\lambda\),\(B=\frac{\lambda}{(\lambda+1)^d}\),一定有 \(\sqrt{\frac{A}{A+1}}\leq4\cdot\sqrt{\frac{B}{B+1}}\)。
平方可知等价于 \((\lambda+1)^d\leq15\lambda+16\),也就是 \(L(\lambda)=(\lambda+1)^d-15\lambda\leq16\)。注意到 \(L''(\lambda)=d(d-1)(\lambda+1)^{d-2}\) 始终正,因此 \(L\) 严格下凸。故而 \(L\) 在 \([0,\lambda_c]\) 上的最大值要么在 \(0\) 要么在 \(\lambda_c\) 取到。\(L(0)=0\leq16\) 显然,与此同时
后者严格递减。对于 \(d\in\{2,\cdots,99\}\),我们暴力验证 \(L(\lambda_c)\leq16\)。对于 \(d\geq100\),后者本身已经 \(\leq16\)。
为什么 \(\varrho(\mathsf{P})\leq2\gamma(\mathsf{P})\)?
对函数 \(h(x)=(1+x)\ln(1+x)\) 在 \(0\) 附近使用泰勒展开可得 \(h(x)=x+\frac{1}{2}x^2+O(x^3)\)。
取 \(f=f_2\),定义 \(f_c=1+\frac{f}{c}\)。那么(逐项使用泰勒展开)\(\mathbb{E}_\mu[f_c\ln f_c]=\frac{\mathbb{E}_\mu[f]}{c}+\frac{\mathbb{E}_\mu[f^2]}{2c^2}+O(c^{-3})\)。
对函数 \(h(x)=\ln(1+x)\) 在 \(0\) 附近使用泰勒展开可得 \(h(x)=x-\frac{1}{2}x^2+O(x^3)\)。因此(整体使用泰勒展开)\(\mathbb{E}_\mu[f_c]\ln\mathbb{E}_\mu[f_c]=\left(1+\frac{\mathbb{E}_\mu[f]}{c}\right)\left(\frac{\mathbb{E}_\mu[f]}{c}-\frac{\mathbb{E}_\mu[f]^2}{2c^2}+O(c^{-3})\right)=\frac{\mathbb{E}_\mu[f]}{c}+\frac{\mathbb{E}_\mu[f]^2}{2c^2}+O(c^{-3})\)。
因此 \(\text{Ent}_\mu(f_c)=\mathbb{E}_\mu[f_c\ln f_c]-\mathbb{E}_\mu[f_c]\ln\mathbb{E}_\mu[f_c]=\frac{\mathbb{E}_\mu[f^2]-\mathbb{E}_\mu[f]^2}{2c^2}+O(c^{-3})=\frac{\text{Var}_\mu(f)}{2c^2}+O(c^{-3})\)。
现在考虑 \(\big(f_c(x)-f_c(y)\big)\big(\mkern-2mu\ln f_c(x)-\ln f_c(y)\big)=\left(\frac{f(x)-f(y)}{c}\right)\left(\frac{f(x)-f(y)}{c}+O(c^{-2})\right)=\frac{\big(f(x)-f(y)\big)^2}{c^2}+O(c^{-3})\)。
因此 \(\mathfrak{D}(f,\ln f)=\frac{1}{2}\sum_{x,y\in\Omega}w(x,y)\big(f_c(x)-f_c(y)\big)\big(\mkern-2mu\ln f_c(x)-\ln f_c(y)\big)=\frac{\mathfrak{D}(f,f)}{c^2}+O(c^{-3})\)。
综上所述 \(\frac{\mathfrak{D}(f_c,\ln f_c)}{\text{Ent}_\mu(f_c)}=\frac{2\mathfrak{D}(f,f)+O(c^{-1})}{\text{Var}_\mu(f)+O(c^{-1})}=2\gamma(\mathsf{P})+O(c^{-1})\)。那么取 \(c\to+\infty\) 可得 \(\varrho(\mathsf{P})\leq2\gamma(\mathsf{P})\)。
最后我们回到这个式子
设置 \(\theta=\frac{1}{2.2\alpha}\),由于 \(\alpha=\frac{\eta}{B}\geq16\),因此 \(0<\theta<0.03\)。截取前 \(\theta n\) 项求和,对于 \(n\geq20\alpha\),我们得到
因此 \(\beta_n\geq\frac{n}{2.2e\alpha}\geq\frac{n}{6\alpha}\),也就是说 \(\eta_\text{Ent}=\frac{n}{\beta_n}-1=6\alpha-1\)。为了让整个文章更严谨,我们需要说明三个问题:
- 第一个问题是,我们使用 \(\alpha\) 同时表示 \(1-\frac{\lambda}{\lambda_c}\) 的值和局部方差收缩的程度,应该使用另外一个字母。
- 第二个问题是,我们没有说明对于全局分布 \(\mu\) 成立的性质对于每个有 pinning 的分布 \(\mu^\tau\) 也成立(只需自归约性)。
- 第三个问题是,我们需要说明存在两个常数 \(A,c\) 使得 \(C_\textsf{PI}(\ell)\leq A\cdot c^\ell\) 总是成立(此外还有 Log-Sobolev 类比)。
10
变形 Log-Sobolev 不等式 \(\Rightarrow\) 快速拌和
我们直接计算
由于 \(E^{(n-1)}(f)\geq\varrho\cdot E^{(0)}(f)\) 总是成立,我们得到 \(D_\text{KL}\big(\nu\textsf{P}^t\,\big\|\,\mu\big)\leq e^{-\varrho t}\cdot D_\text{KL}\big(\nu\,\big\|\,\mu\big)\)。
Pinsker 不等式的证明
我们想要证明 \(\big\|\nu-\mu\big\|_\textsf{TD}\leq\sqrt{\frac{1}{2}D_\text{KL}\big(\nu\,\big\|\,\mu\big)}\)。
假设 \(A=\big\{x:\nu(x)\geq\mu(x)\big\}\),\(s=\nu(A)\),\(t=\mu(A)\)。那么 \(\big\|\nu-\mu\big\|_\textsf{TD}=s-t\)。根据数据处理不等式,
最后一个不等号成立的原因:固定 \(t\),定义函数 \(h(u)=\Big(u\ln\frac{u}{t}+(1-u)\ln\frac{1-u}{1-t}\Big)-2(u-t)^2\)。我们计算 \(h''(u)=\frac{1}{u(1-u)}-4\geq0\),因此 \(h\) 是下凸的。又注意到 \(h(t)=h'(t)=0\),因此 \(h\) 在 \(u=t\) 处取到最小值 \(0\)。
Poincaré 不等式 \(\Rightarrow\) 快速拌和
我们直接计算
由于 \(V^{(n-1)}(f)\geq\gamma\cdot V^{(0)}(f)\) 总是成立,我们得到 \(D_{\chi^2}\big(\nu\textsf{P}^t\,\big\|\,\mu\big)\leq e^{-\gamma t}\cdot D_{\chi^2}\big(\nu\,\big\|\,\mu\big)\)。
我们想要证明 \(\big\|\nu-\mu\big\|_\textsf{TD}^2\leq\frac{1}{2}\sqrt{D_{\chi^2}\big(\nu\,\big\|\,\mu\big)}\)。
根据柯西不等式,\(\big\|\nu-\mu\big\|_\textsf{TD}=\frac{1}{2}\mathbb{E}_\mu\big[\big|f-\mathbf{1}\big|\big]\leq\frac{1}{2}\sqrt{\mathbb{E}_\mu\big[(f-\mathbf{1})^2\big]}=\frac{1}{2}\sqrt{D_{\chi^2}\big(\nu\,\big\|\,\mu\big)}\)。
Poincaré 不等式 \(\Rightarrow\) 快速拌和(直接思路)
初始分布:\(\nu_0\)。密度函数:\(f_0=\frac{\nu_0}{\mu}\)。那么 \(\mathbb{E}_\mu[f_0]=1\)。经过 \(t\) 步迭代以后的分布 \(\nu_t=\nu_0\textsf{P}^t\),密度函数 \(f_t=\textsf{P}^tf_0\)。
我们分解:\(f_0=\sum_{i\geq1}a_i\varphi_i\),计算 \(f_t=\textsf{P}^tf_0=\sum_{i\geq1}\lambda_i^ta_i\varphi_i\)。我们证明
因此 \(\big\|f_t-\mathbf{1}\big\|_{2,\mu}\leq\big(\lambda_*\big)^t\big\|f_0-\mathbf{1}\big\|_{2,\mu}=\big(\lambda_*\big)^t\sqrt{\frac{1-\mu(x_\text{init})}{\mu(x_\text{init})}}\)。根据柯西不等式
综上所述,\(\big\|\nu\textsf{P}^t-\mu\big\|_\textsf{TD}\leq\frac{1}{2}\big(\lambda_*\big)^t\sqrt{\frac{1}{\mu(x_\text{init})}}\leq\frac{1}{2}e^{-\gamma_*t}\sqrt{\frac{1}{\mu(x_\text{init})}}\),因此 \(\text{T}_\text{mix}(\varepsilon)\leq\frac{1}{\gamma_*(\textsf{P})}\left(\frac{1}{2}\,\ln\frac{1}{\mu(x_\text{init})}+\ln\frac{1}{2\varepsilon}\right)\)。
11
我们证明当 \(\lambda<\frac{1}{\Delta-1}\) 的时候 Glauber 过程的拌和时间有上界 \(O\big(n\log n+n\log\varepsilon^{-1}\big)\)。
考虑两个相邻状态 \(\sigma_0,\sigma_1\),除了在 \(i\) 这个点上一个 \(0\) 一个 \(1\) 以外,它们对于其他点的映射都相同。
对于总方差定理/总熵定理的处理方式:用到的时候,证明那个具体的式子。而不是抽象的证明总方差定理/总熵定理。
对于 Dobrushin Path Coupling 的处理方式:只描述结论即可。
我们还需要说明一个事情:Heat-Bath Glauber 过程就是每次找一个点,然后让它按照 \(\mu\) 的 marginal distribution 来重定。这个过程本身就是一个对 \(\mu\) 时间可逆的 Markov Chain。(就是要说明重定视角 = Markov Chain 视角。)
我们想要求出一个数列 \(C_\textsf{PI}(k)\),使得对于任意子集 \(S\subseteq[n]\) 满足 \(|S|=k\),以及任意一个可能出现的状态 \(\tau:[n]\setminus S\to\{0,1\}\),都满足对于任意全局函数 \(f:\{0,1\}^n\to\mathbb{R}\),我们的
根据自相似性,我们只需要考虑 \(S=\varnothing\) 的情况(但是图上可能会存在钦定为白的结点)。
如果 \(f\) 是常函数的话,那么左右两边都 \(=0\)。那么 \(C_\textsf{PI}(n)\) 填入多少都是成立的(因为 \(0\leq c\cdot0\)),不会因此出现矛盾。
如果 \(f\) 不是常函数的话,那么左右两边都 \(\neq0\)。我们写成 \(\text{Var}_\mu(f)\leq C_\textsf{PI}(n)\cdot\mathfrak{D}(f,f)\) 的形式,然后用状态图的视角:存在一个 \(\mu_\min>0\) 使得对于所有状态 \(x\) 都满足 \(\mu(x)\in\{0\}\cup\big[\mu_\min,1\big]\)。
对于一对相邻状态 \(x,y\),我们有 \(w(x,y)=\frac{1}{n}\cdot\frac{\mu(x)\mu(y)}{\mu(x)+\mu(y)}\geq\frac{1}{n}\cdot\frac{\mu_\min}{2}=\frac{\mu_\min}{2n}\)。由于状态图是连通的,因此 \(\Phi\geq\frac{\mu_\min}{n}\)。最后根据 Cheeger 不等式,我们得到 \(\gamma\geq\frac{1}{2}\Phi^2=\frac{(\mu_\min)^2}{2n^2}\),因此 \(C_\textsf{PI}(n)\) 填入 \(\frac{2n^2}{(\mu_\min)^2}\) 即可。
令 \(f:\Omega\to\mathbb{R}_{>0}\) 满足 \(\mathbb{E}_\mu[f]=1\)。令 \(h=\sqrt f\),那么 \(\mathbb{E}_\mu[h^2]=1\)。令 \(\delta=h-\mathbf{1}\)。令 \(\mu_\min=\min_{x\in\Omega}\mu(x)\)。
我们有 \(\text{Ent}_\mu(f)=\mathbb{E}_\mu[f\log f]=2\,\mathbb{E}_\mu[h^2\ln h]\)。对函数 \(I(x)=x^2\ln x\) 在 \(1\) 处使用(带拉格朗日余项的)泰勒展开,可得存在一个函数 \(\theta\) 满足 \(0\leq\theta(x)\leq1\) 总是成立,并且 \(I(1+\delta)=I(1)+I'(1)\cdot\delta+\tfrac12I''(1+\theta\delta)\cdot\delta^2\)。
注意到 \(I'(x)=2x\ln x+x\),\(I''(x)=2\ln x+3\),因此 \(I(1)=0\),\(I'(1)=1\)。故而 \(I(1+\delta)=\delta+\left(\ln(1+\theta\delta)+\tfrac{3}{2}\right)\cdot\delta^2\)。再使用 \(\mathbb{E}_\mu[h^2]=\mathbb{E}_\mu[(1+\delta)^2]=1+2\,\mathbb{E}_\mu[\delta]+\mathbb{E}_\mu[\delta^2]=1\),可得
但是 \(1+\theta(x)\delta(x)\leq\max\big\{1,1+\delta(x)\big\}=\max\big\{1,h(x)\big\}\leq\frac{1}{\sqrt{\mu_\min}}\),同时 \(\delta(x)^2\geq0\),所以 \(\text{Ent}_\mu(f)\leq\left(\ln\left(\frac{1}{\mu_\min}\right)+2\right)\cdot\mathbb{E}_\mu[\delta^2]\)。我们接下来证明 \(\mathbb{E}_\mu[\delta^2]\leq2\,\text{Var}_\mu(h)\),这是因为
综上所述,\(\text{Ent}_\mu(f)\leq2\left(\ln\left(\frac{1}{\mu_\min}\right)+2\right)\cdot\text{Var}_\mu\left(\sqrt{f}\right)\ \boldsymbol{(1)}\)。
对 \(\sqrt f\) 使用 Poincaré 不等式可得 \(\gamma\cdot\text{Var}_\mu\left(\sqrt{f}\right)\leq\mathfrak{D}\left(\sqrt{f},\sqrt{f}\right)\ \boldsymbol{(2)}\),注意到 \(C_\textsf{PI}(n)=\gamma^{-1}=\frac{2n^2}{(\mu_\min)^2}\)。
最后我们需要证明 \(4\,\mathfrak{D}\left(\sqrt f,\sqrt f\right)\leq\mathfrak{D}\big(f,\ln f\big)\ \boldsymbol{(3)}\)。这样把 \(\boldsymbol{(1)}\boldsymbol{(2)}\boldsymbol{(3)}\) 串在一起,我们得到
直接比对每条边的贡献,我们需要证明 \((u-v)(\ln u-\ln v)\geq4\big(\sqrt u-\sqrt v\big)^2\) 对于任意实数 \(u,v>0\) 成立。
假设 \(r=\sqrt{\frac uv}\)。两边同时除以 \(v\) 可转化为 \((r^2-1)\ln r\geq2(r-1)^2\ \boldsymbol{(*)}\)。这等价于函数 \(h(r)=\ln r-2\cdot\frac{r-1}{r+1}\) 在 \(0\leq r\leq1\) 时 \(\leq0\),在 \(r\geq1\) 时 \(\geq0\)。直接计算 \(h'(r)=\frac{(r-1)^2}{r(r+1)^2}\geq0\),因此 \(h\) 单调递增。最后检查 \(h(1)=0\) 即可。
综上所述,如果存在 \(c>1\) 满足 \(\mu_\min(n)\geq c^{-n}\),我们可以填入 \(C_\textsf{PI}(n)=2n^2c^{2n}\),\(C_\textsf{mLSI}(n)=n^2\big(n\ln c+2\big)c^{2n}\)。

浙公网安备 33010602011771号