Glauber 过程的拌和时间(第二篇)

1

Poincaré 不等式:\(\gamma\cdot\text{Var}_\mu(f)\leq\mathfrak{D}(f,f),\qquad\forall f:\Omega\to\mathbb{R}_{\geq0}\)

标准 Log-Sobolev 不等式:\(\kappa\cdot\text{Ent}_\mu(f)\leq\mathfrak{D}\left(\sqrt f,\sqrt f\right),\qquad\forall f:\Omega\to\mathbb{R}_{\geq0}\)

变形 Log-Sobolev 不等式:\(\varrho\cdot\text{Ent}_\mu(f)\leq\mathfrak{D}(f,\ln f),\qquad\forall f:\Omega\to\mathbb{R}_{\geq0}\)

对于一个函数 \(f\),定义它的幺模的当且仅当:

  • \(\mathbb{E}_\mu[f]=1\),或说 \(\langle f,\mathbf{1}\rangle_\mu=1\),或说 \(\|f\|_\mu=1\)(这三个定义是等价的)。

幺模函数 \(f\) 一定可以写成另一个分布 \(\nu\)\(\mu\) 的逐点除法,也就是 \(f(x)=\frac{\nu(x)}{\mu(x)}\)


我们定义 \(V_k=\mathbb{E}_{S\sim\binom{[n]}{k}}[\mathbb{E}_{\tau\sim\mu_S}[\text{Var}_{\mu^\tau}(f)]]\),表示等概率选择一个大小为 \(k\) 的子集,按照 \(\mu\) 对其进行赋值,剩下 \(n-k\) 个点方差的期望值。注意到 \(V_0=\text{Var}_\mu(f)\),并且 \(V_n=0\)。接下来我们证明 \(V_{n-1}=\mathfrak{D}(f,f)\)

\[V_{n-1}=\mathbb{E}_{i\sim[n]}[\mathbb{E}_{\tau\sim\mu_{[n]\setminus\{i\}}}[\text{Var}_{\mu^\tau}(f)]]=\frac{1}{n}\sum_{i=1}^n\sum_{\substack{\sigma_0,\sigma_1\\\text{differ only on } i}}\frac{\mu(\sigma_0)\mu(\sigma_1)}{\mu(\sigma_0)+\mu(\sigma_1)}(f(\sigma_0)-f(\sigma_1))^2=\mathfrak{D}(f,f) \]

(这是因为 \(\left\{\left(f_0,\frac{\mu_0}{\mu_0+\mu_1}\right),\left(f_1,\frac{\mu_1}{\mu_0+\mu_1}\right)\right\}\) 的方差是 \(\frac{\mu_0\mu_1}{(\mu_0+\mu_1)^2}(f_0-f_1)^2\)​。)

我们也可以把 \(V_k\) 想象成等概率选择一个长度为 \(k\)、元素 \(\in\{1,\cdots,n\}\) 两两不同的数组。


对于随便某个 \(f\text{ is not constant}\),我们想要 lower bound \(\frac{V_{n-1}}{V_0}=\frac{\mathfrak{D}(f,f)}{\text{Var}_\mu(f)}\)​ 的值。

根据总方差定理我们有 \(V_0=V_1+\text{Var}_{\mu_{(\text{on }1)}}[f_{(\text{on }1)}]\),其中 \(\mu_{(\text{on }1)},f_{(\text{on }1)}\) 的数组长度都是 \(2n\)​:

\[\mu_{(\text{on }1)}(i,s)=\frac{1}{n}\Pr[\sigma_i=s],\qquad f_{(\text{on }1)}(i,s)=\mathbb{E}_{\sigma\sim\mu^{i\leftarrow s}}[f(\sigma)] \]

我们想要证明的是 \(\text{Var}_{\mu_{(\text{on }1)}}[f_{(\text{on }1)}]\leq\frac{1+\eta_0}{n}\cdot\text{Var}_\mu(f)\),这个可以推出 \(\frac{V_1}{V_0}\geq1-\frac{1+\eta_0}{n}\)

对于更大的正整数 \(k\geq1\),我们有 \(V_k=\mathbb{E}_{S\sim\binom{[n]}{k}}[\mathbb{E}_{\tau\sim\mu_S}[\text{Var}_{\mu^\tau}(f)]]\)\(V_{k+1}=\mathbb{E}_{S\sim\binom{[n]}{k+1}}[\mathbb{E}_{\tau\sim\mu_S}[\text{Var}_{\mu^\tau}(f)]]\)

只能保证:对于每个 \(k\) 前缀 \(S\in\binom{[n]}{k}\) 和每个可行的 pinning \(\tau:S\to\{0,1\}\),我们再定义 \(\mu_{(\tau\text{ on }1)},f_{(\tau\text{ on }1)}\)

\[\mu_{(\tau\text{ on }1)}(i,s)=\frac{1}{n-k}\Pr[\sigma_i=s|S\text{ is }\tau],\qquad f_{(\tau\text{ on }1)}(i,s)=\mathbb{E}_{\sigma\sim\mu^{S\text{ is }\tau,i\leftarrow s}}[f(\sigma)],\qquad i\not\in S \]

根据总方差定理我们有 \(\text{Var}_{\mu^\tau}(f)=\mathbb{E}_{i\in [n]\setminus S}[\mathbb{E}_{s\sim\Pr[\sigma_i=s|S\text{ is }\tau]}[\text{Var}_{\mu^{S\text{ is }\tau,i\leftarrow s}}(f)]]+\text{Var}_{\mu_{(\tau\text{ on }1)}}[f_{(\tau\text{ on }1)}]\)

我们想要证明的是 \(\text{Var}_{\mu_{(\tau\text{ on }1)}}[f_{(\tau\text{ on }1)}]\leq\frac{1+\eta_k}{n-k}\cdot\text{Var}_\mu(f)\) 总是成立,这个可以推出 \(\frac{V_{k+1}}{V_k}\geq1-\frac{1+\eta_k}{n-k}\)

(直接把:上面这个等式对于所有 \(|S|=k\),可行的 \(\tau:S\to\{0,1\}\) 按照期望加起来。)


Shattering Lemma:对于参数 \(0<\theta<0.1\),等概率随机选择一个大小为 \(\theta n\) 的子集点亮。对于结点 \(u\),假设 \(C_u\) 表示包含 \(u\) 的极大连通块,那么对于任意正整数 \(\ell\geq1\),我们有 \(\Pr[|C_u|=\ell]\leq(2\text{e}\Delta\theta)^{\ell-1}\)

我们假设存在一个统一的 \(\eta\) 使得所有 \(\eta_k\leq\eta\)。我们计算

\[\frac{V_{(1-\theta)n}}{V_0}\geq\prod_{k=0}^{(1-\theta)n-1}\left(1-\frac{1+\eta}{n-k}\right)\geq\left(1-\frac{1+\eta}{\theta n}\right)^{(1-\theta)n}\geq\left(1-f_\text{in}(n)^{-1}\right)^{f_\text{out}(n)} \]

其中 \(\frac{f_\text{out}(n)}{f_\text{in}(n)}=\frac{(1+\eta)(1-\theta)}{\theta}\),并且当 \(n\) 足够大时 \(f_\text{in}(n)\geq6\),此时 \(\left(1-f_\text{in}(n)^{-1}\right)^{f_\text{in}(n)}\geq\frac{1}{3}\)。然后我们计算

\[\begin{aligned} V_{(1-\theta)n}\leq\mathbb{E}_{S\sim\binom{[n]}{(1-\theta)n}}\left[\mathbb{E}_{\tau\sim\mu_S}\left[\sum_{C\text{ is a component of }G\Big[[n]\setminus S\Big]}\mathbb{E}_{\sigma\sim\mu_{\Big([n]\setminus S\Big)\setminus C}^{\tau}}\Big[\text{Var}_{\mu^{\tau\sqcup\sigma}}(f)\Big]\right]\right] \end{aligned} \]

2

我们首先证明方差可以分解:对于一个 \(n\) 元函数 \(F:X_1\times\cdots\times X_n\to\mathbb{R}_{\geq0}\),如果 \(\mu(x_1,\cdots,x_n)=\prod_{i=1}^n\mu_i(x_i)\),那么 \(\text{Var}[F]\leq\sum_{i=1}^n\mathbb{E}_{x_1,\cdots,x_{i-1},x_{i+1},\cdots,x_n}[\text{Var}_{x_i}[F(x_1,\cdots,x_{i-1},x_i,x_{i+1},\cdots,x_n)]]\)

我们定义 \(M_i=\mathbb{E}_{x_{i+1},\cdots,x_n}[F]\) 是一个跟 \(x_1,\cdots,x_i\) 有关的随机变量,表示前 \(i\) 局游戏结束后当前 \(F\) 的期望。

我们定义 \(D_i=M_i-M_{i-1}\) 表示第 \(i\) 局游戏结束后这个当前期望的变化量。我们证明 \(\text{Var}[F]=\sum_{i=1}^n\mathbb{E}[D_i^2]\),这可以使用总方差公式证明:

\[\text{Var}_{x_1,\cdots,x_n}[F]=\mathbb{E}_{x_1}[\text{Var}_{x_2,\cdots,x_n}[F]]+\text{Var}_{x_1}[\mathbb{E}_{x_2,\cdots,x_n}[F]]=\mathbb{E}_{x_1}[\cdots]+\text{Var}_{x_1}[D_1]\\ \mathbb{E}_{x_1}[\text{Var}_{x_2,\cdots,x_n}[F]]=\mathbb{E}_{x_1}[\mathbb{E}_{x_2}[\text{Var}_{x_3,\cdots,x_n}[F]]]+\mathbb{E}_{x_1}[\text{Var}_{x_2}[\mathbb{E}_{x_3,\cdots,x_n}[F]]]=\mathbb{E}_{x_1}[\mathbb{E}_{x_2}[\cdots]]+\mathbb{E}_{x_1}[\text{Var}_{x_2}[D_2]] \]

以此类推,一直展开可以得到(注意到对于任意 \(x_1,\cdots,x_{i-1}\) 都有 \(\mathbb{E}_{x_i}[D_i]=0\),因此 \(\text{Var}_{x_i}[D_i]=\mathbb{E}_{x_i}[D_i^2]\)):

\[\text{Var}_{x_1,\cdots,x_n}[F]=\sum_{i=1}^n\mathbb{E}_{x_1,\cdots,x_{i-1}}[\text{Var}_{x_i}[D_i]]=\sum_{i=1}^n\mathbb{E}_{x_1,\cdots,x_i}[D_i^2]=\sum_{i=1}^n\mathbb{E}_{x_1,\cdots,x_n}[D_i^2] \]


然后我们需要证明,对于每个 \(1\leq i\leq n\)

\[\mathbb{E}_{x_1,\cdots,x_i}[D_i^2]\leq\mathbb{E}_{x_1,\cdots,x_{i-1},x_{i+1},\cdots,x_n}[\text{Var}_{x_i}[F(x_1,\cdots,x_{i-1},x_i,x_{i+1},\cdots,x_n)]] \]

这是因为对于任意 \(x_1,\cdots,x_{i-1}\) 都有

\[\text{Var}_{x_i}[D_i]=\text{Var}_{x_i}[M_i(x_i)]=\frac{1}{2}\mathbb{E}_{x_i,x_i'}\Big[\big(M_i(x_i)-M_i(x'_i)\big)^2\Big]\\ =\frac12\mathbb{E}_{x_i,x'_i}\Big[\big(\mathbb{E}_{x_{i+1},\cdots,x_n}[F(x_i)]-\mathbb{E}_{x_{i+1},\cdots,x_n}[F(x'_i)]\big)^2\Big]\\ =\frac12\mathbb{E}_{x_i,x'_i}\Big[\big(\mathbb{E}_{x_{i+1},\cdots,x_n}[F(x_i)-F(x'_i)]\big)^2\Big]\\ \leq\frac12\mathbb{E}_{x_i,x'_i}\Big[\mathbb{E}_{x_{i+1},\cdots,x_n}\big[\big(F(x_i)-F(x'_i)\big)^2\big]\Big]\\ =\frac12\mathbb{E}_{x_{i+1},\cdots,x_n}\Big[\mathbb{E}_{x_i,x'_i}\big[\big(F(x_i)-F(x'_i)\big)^2\big]\Big]\\ =\mathbb{E}_{x_{i+1},\cdots,x_n}[\text{Var}_{x_i}[F(x_1,\cdots,x_{i-1},x_i,x_{i+1},\cdots,x_n)]] \]

因此按照 \(x_1,\cdots,x_{i-1}\) 的分布全部加起来之后,我们就有

\[\mathbb{E}_{x_1,\cdots,x_i}[D_i^2]\leq\mathbb{E}_{x_1,\cdots,x_{i-1},x_{i+1},\cdots,x_n}[\text{Var}_{x_i}[F(x_1,\cdots,x_{i-1},x_i,x_{i+1},\cdots,x_n)]] \]


现在我们回归到 Shattering Lemma 的证明:对于参数 \(0<\theta<0.1\),等概率随机选择一个大小为 \(\theta n\) 的子集点亮。对于结点 \(u\),假设 \(C_u\) 表示包含 \(u\) 的极大连通块,那么对于任意正整数 \(\ell\geq1\),我们有 \(\Pr[|C_u|=\ell]\leq(\text{e}\Delta\theta)^{\ell-1}\)

考虑有多少个不同的点集 \(S\) 包含 \(u\)、大小为 \(\ell\leq\theta n\) 并且连通。对于每个这样的点集,它的贡献是

\[\binom{n-\ell}{\theta n-\ell}\binom{n}{\theta n}^{-1}=\frac{(n-\ell)!(\theta n)!}{n!(\theta n-\ell)!}=\prod_{i=0}^{\ell-1}\frac{\theta n-i}{n-i}\leq\theta^\ell \]

我们变成考虑有多少个不同的(以 \(u\) 为根)有根树 \(T\) 包含 \(u\)、大小为 \(\ell\)。我们称两个有根树 \(T_1,T_2\) 是不同的当且仅当:

  1. \(T_1,T_2\)\(u\)​ 的儿子个数不同,或者儿子个数虽然相同但是具体儿子集合不同;或者
  2. \(T_1,T_2\)\(u\) 的每个具体儿子 \(v_i\) 对应的(以 \(v_i\) 为根)有根子树存在一对不同。

按照这个定义,可以看出:\(G\) 中(以 \(u\) 为根)大小为 \(\ell\) 的有根树个数,一定不超过 \(\mathbb{T}_\Delta\) 中(以 \(u\) 为根)大小为 \(\ell\) 的有根树个数。(其中 \(\mathbb{T}_\Delta\) 表示每个结点度数都等于 \(\Delta\) 的没有穷尽的无根树。)

同时,我们注意到每个不同的点集 \(S\) 如果连通,那么一定可以画出一棵不同的有根树 \(T\)(这个映射是一个单射)。

综上所述,不同的点集个数一定不超过 \(\mathbb{T}_\Delta\) 中(以 \(u\) 为根)大小为 \(\ell\) 的有根树个数。

3

这个数字我们可以直接用子树 DP 计算。写成生成函数的形式,就是 \(F(x)=x\big(1+F(x)\big)^k\)。使用拉格朗日反演,我们可以证明 \([x^n]F(x)=\frac{1}{n}\binom{kn}{n-1}\)。注意到 \(\frac{1}{n}\binom{kn}{n-1}\leq\frac{(kn)^{n-1}}{n!}\leq\frac{(kn)^{n-1}}{\sqrt{2\pi n}(n/\text{e})^n}\leq(\text{e}k)^{n-1}\left(1.1n^{-1.5}\right)\)

因此把两个数直接相乘,我们得到 \(\text{Pr}\big[|C_u|=\ell\big]\leq\theta(\theta\text{e}\Delta)^{\ell-1}(1.1\ell^{-1.5})\leq(\theta\text{e}\Delta)^{\ell-1}\)。Shattering Lemma 证毕。


现在我们回到这个式子:

\[V_{(1-\theta)n}\leq\mathbb{E}_{S\sim\binom{[n]}{(1-\theta)n}}\left[\mathbb{E}_{\tau\sim\mu_S}\left[\sum_{C\text{ is a component of }G\Big[[n]\setminus S\Big]}\mathbb{E}_{\sigma\sim\mu_{\Big([n]\setminus S\Big)\setminus C}^{\tau}}\Big[\text{Var}_{\mu^{\tau\sqcup\sigma}}(f)\Big]\right]\right] \]

注意到

\[\text{Var}_{\mu^{\tau\sqcup\sigma}}(f)\leq\big(\text{Poincare Constant of }C\text{, on }\mu^{\tau\sqcup\sigma}\big)\mathbb{E}_{i\sim C}\Big[\mathbb{E}_{\varsigma\sim\mu_{C\setminus\{i\}}^{\tau\sqcup\sigma}}\Big[\text{Var}_{\mu^{\tau\sqcup\sigma\sqcup\varsigma}}(f)\Big]\Big] \]

代回化简,合并 \(\sigma,\varsigma\) 可得

\[V_{(1-\theta)n}\leq\mathbb{E}_{S\sim\binom{[n]}{(1-\theta)n}}\left[\mathbb{E}_{\tau\sim\mu_S}\left[\sum_{C\text{ is a component of }G\Big[[n]\setminus S\Big]}C_\textsf{PI}(|C|)\mathbb{E}_{i\sim C}\Big[\mathbb{E}_{\sigma\sim\mu_{[n]\setminus\{i\}}^{\tau}}\Big[\text{Var}_{\mu^{\tau\sqcup\sigma}}(f)\Big]\Big]\right]\right]\\ =\mathbb{E}_{S\sim\binom{[n]}{(1-\theta)n}}\left[\mathbb{E}_{\tau\sim\mu_S}\left[\sum_{i\in[n]\setminus S}\tfrac{C_\textsf{PI}(|C_i|)}{|C_i|}\Bigg(\mathbb{E}_{\sigma\sim\mu_{[n]\setminus\{i\}}^{\tau}}\Big[\text{Var}_{\mu^{\tau\sqcup\sigma}}(f)\Big]\Bigg)\right]\right]\\ =\sum_{i=1}^n\Bigg(\sum_{\ell=1}^n\text{Pr}\big[|C_i|=\ell\big]\tfrac{C_\textsf{PI}(|C_i|)}{|C_i|}\Bigg)\Bigg(\mathbb{E}_{\tau\sim\mu_{[n]\setminus\{i\}}}\Big[\text{Var}_{\mu^\tau}(f)\Big]\Bigg)\\ \leq n\Bigg(\sum_{\ell=1}^n(\theta\text{e}\Delta)^{\ell-1}\tfrac{C_\textsf{PI}(\ell)}{\ell}\Bigg)\Bigg(\mathbb{E}_{i\sim[n]}\Big[\mathbb{E}_{\tau\sim\mu_{[n]\setminus\{i\}}}\Big[\text{Var}_{\mu^\tau}(f)\Big]\Big]\Bigg)=nV_{n-1}\Bigg(\sum_{\ell=1}^n(\theta\text{e}\Delta)^{\ell-1}\tfrac{C_\textsf{PI}(\ell)}{\ell}\Bigg) \]

因此我们只需要说明存在一个 \(c>1\) 使得 \(C_\textsf{PI}(\ell)\leq c^\ell\) 总是成立即可(我们可以把 \(\theta>0\) 选成足够小)。


对于一个 \(\{0,1\}^n\) 上的概率分布 \(\mu\),定义它的折叠式影响矩阵 \(\Psi_\mu\in\mathbb{R}^{n\times n}\)

\[\begin{aligned} \Psi_\mu(i\to j)=\text{Pr}_{\sigma\sim\mu}\big[\sigma_j=0\big|\sigma_i=0\big]-\text{Pr}_{\sigma\sim\mu}\big[\sigma_j=0\big|\sigma_i=1\big]\\ =\text{Pr}_{\sigma\sim\mu}\big[\sigma_j=1\big|\sigma_i=1\big]-\text{Pr}_{\sigma\sim\mu}\big[\sigma_j=1\big|\sigma_i=0\big] \end{aligned} \]

(前提是每个元素都可能取到 \(1\)。如果有一个元素只可能取到 \(0\),我们直接把这个元素删去。)

我们称 \(\mu\) 本身\(\eta\)-方差可分的当且仅当 \(\lambda_\max(\Psi_\mu)\leq1+\eta\)


我们需要证明 \(\frac{\text{Var}_{\mu_1}(f_1)}{\text{Var}_\mu(f)}\leq\frac{1+\eta}{n}\)。注意到把 \(f\) 的值平移一个常数(效果是把 \(f_1\) 的值平移一个常数)不会改变 \(\text{Var}_{\mu_1}(f_1),\text{Var}_\mu(f)\) 的值,因此我们可以假设 \(\mathbb{E}_{\mu_1}[f_1]=\mathbb{E}_{\mu}[f]=0\),此时 \(\text{Var}_{\mu_1}(f_1)=\mathbb{E}_{\mu_1}[f_1^2]\)。我们直接计算

\[\mathbb{E}_{\mu_1}[f_1^2]=\frac{1}{n}\sum_{i=1}^n\sum_{s\in\{0,1\}}\frac{1}{\text{Pr}_{\sigma\sim\mu}[\sigma_i=s]}\left(\sum_{\sigma_1:{\sigma_1}_i=s}\mu(\sigma_1)f(\sigma_1)\right)\left(\sum_{\sigma_2:{\sigma_2}_i=s}\mu(\sigma_2)f(\sigma_2)\right) \]

我们凑一个 \(\langle f,\textsf{P}f\rangle_\mu\) 的形式出来,注意到 \(\langle f,\textsf{P}f\rangle_\mu=\sum_{x\in\Omega}\mu(x)f(x)\sum_{y\in\Omega}\textsf{P}(x\to y)f(y)\),因此我们凑

\[\textsf{P}(\sigma_1\to\sigma_2)=\frac{1}{n}\sum_{(i,s):{\sigma_1}_i={\sigma_2}_i=s}\frac{\mu(\sigma_2)}{\text{Pr}_{\sigma\sim\mu}[\sigma_i=s]} \]

注意到 \(\textsf{P}\) 满足所有值非负,每行和等于 \(1\),并且 \(\mu(\sigma_1)\textsf{P}(\sigma_1\to\sigma_2)=\mu(\sigma_2)\textsf{P}(\sigma_2\to\sigma_1)\) 成立。因此 \(\textsf{P}\) 关于 \(\mu\) 可逆。

那么按照相同的逻辑,我们有:对于任意函数 \(f\)\(\frac{\text{Var}_{\mu_1}(f_1)}{\text{Var}_\mu(f)}\leq\lambda_2(\textsf{P})\)

4

对于一个 \(n\times n\) 矩阵 \(A\),如果它能写成 \(k\) 个秩一矩阵的和 \(A=\sum_{i=1}^k\vec{u}_i\vec{v}_i^T\),也就是 \(A=UV^T\),其中 \(U,V\) 都是 \(n\times k\) 矩阵,那么令 \(B=V^TU\) 是一个 \(k\times k\) 矩阵,我们可以证明:\(A\) 的特征值集合(\(n\) 个数)恰好等于 \(B\) 的特征值集合(\(k\) 个数)再加上 \(n-k\)\(0\)。我们来证明这一点:

  1. 假设 \(A\vec{x}=\lambda\vec{x}(\lambda\neq0)\),那么 \(UV^T\vec{x}=\lambda\vec{x}\),因此 \(V^TU\big(V^T\vec{x}\big)=\lambda\big(V^T\vec{x}\big)\),那么 \(V^T\vec{x}\) 也是 \(B\)\(\lambda\) 特征向量。
  2. 假设 \(B\vec{x}=\lambda\vec{x}(\lambda\neq0)\),那么 \(V^TU\vec{x}=\lambda\vec{x}\),因此 \(UV^T\big(U\vec{x}\big)=\lambda\big(U\vec{x}\big)\),那么 \(U\vec{x}\) 也是 \(A\)\(\lambda\) 特征向量。

因此每个非零特征值 \(\lambda\) 对应的特征空间维数相等,二者之间的关系是乘 \(V^T\)/乘 \(U\)。那么剩下的都是零了,证毕。


我们定义 \(U_{\sigma,(i,s)}=\frac{1}{n}[\sigma_i=s],V_{\sigma,(i,s)}=\frac{\mu(\sigma)}{\text{Pr}_{\sigma\sim\mu}[\sigma_i=s]}[\sigma_i=s]\),那么 \(A=UV^T\)。我们发现

\[V^TU\big((i,s)\to(j,t)\big)=\frac{1}{n}\sum_{\sigma:\sigma_i=s,\sigma_j=t}\frac{\mu(\sigma)}{\text{Pr}_{\sigma\sim\mu}[\sigma_i=s]}=\frac{1}{n}\text{Pr}\big[\sigma_j=t\big|\sigma_i=s\big] \]

因此 \(\lambda_2(\mathsf{P})=\lambda_2(\mathsf{Q})\),其中 \(\mathsf{Q}\) 是一个 \((2n)\times(2n)\) 矩阵,满足 \(\mathsf{Q}\big((i,s)\to(j,t)\big)=\frac{1}{n}\text{Pr}\big[\sigma_j=t\big|\sigma_i=s\big]\)

注意到 \(\mathsf{Q}\) 满足所有值非负,每行和等于 \(1\),并且 \(\mu_1\big((i,s)\big)\mathsf{Q}\big((i,s)\to(j,t)\big)=\mu_1\big((j,t)\big)\mathsf{Q}\big((j,t)\to(i,s)\big)\) 成立。(因此 \(\mathsf{Q}\) 关于 \(\mu_1\) 可逆。)最后我们只需要证明 \(\lambda_2(\mathsf{Q})=\frac{1}{n}\lambda_\max(\Psi_\mu)\),注意到

\[n\big(\mathsf{Q}-\mathsf{R}\big)=\begin{pmatrix} A_\mu & -A_\mu \\ B_\mu & -B_\mu \end{pmatrix} \]

其中 \(\mathsf{R}\big((i,s)\to(j,t)\big)=\mu_1\big((j,t)\big)=\frac{1}{n}\text{Pr}\big[\sigma_j=t\big]\),用来中和掉第一特征值 \(\lambda_1(\mathsf{Q})=1\)。我们可以证明:\(\mathsf{Q}-\mathsf{R}\) 的特征值集合(\(n\) 个数)恰好等于 \(\mathsf{Q}\) 的特征值集合(\(n\) 个数)删去 \(1\),补上一个 \(0\) 之后的结果。这是因为 \(\mathsf{R}\mathbf{1}=\mathbf{1}\),并且对于任意 \(f\bot\mathbf{1}\)(也就是 \(\langle f,\mathbf{1}\rangle_\mu=0\))都满足 \(\mathsf{R}f=\mathbf{0}\)。那么现在 \(n\big(\mathsf{Q}-\mathsf{R}\big)=\Big(\text{Pr}\big[\sigma_j=t\big|\sigma_i=s\big]-\text{Pr}\big[\sigma_j=t\big]\Big)\)

注意到 \(\text{Pr}\big[\sigma_j=0\big|\sigma_i=s\big]+\text{Pr}\big[\sigma_j=1\big|\sigma_i=s\big]=\text{Pr}\big[\sigma_j=0\big]+\text{Pr}\big[\sigma_j=1\big]=1\),因此左右两半互为相反数。故而

\[n\big(\mathsf{Q}-\mathsf{R}\big)=\begin{pmatrix} A_\mu & -A_\mu \\ B_\mu & -B_\mu \end{pmatrix}=\begin{pmatrix} A_\mu \\ B_\mu \end{pmatrix}\begin{pmatrix} I & -I\\ \end{pmatrix},\qquad\begin{pmatrix} I & -I\\ \end{pmatrix}\begin{pmatrix} A_\mu \\ B_\mu \end{pmatrix}=A_\mu-B_\mu=\Psi_\mu \]

因此 \(n\big(\mathsf{Q}-\mathsf{R}\big)\) 的特征值集合(\(2n\) 个数)恰好等于 \(\Psi_\mu\) 的特征值集合(\(n\) 个数)再加上 \(n\)\(0\)

综上所述,我们最终证明了:\(\frac{\text{Var}_{\mu_1}(f_1)}{\text{Var}_{\mu}(f)}\) 有最大值且等于 \(\lambda_2(\textsf{P})\),并且 \(\lambda_2(\textsf{P})=\lambda_2(\mathsf{Q})=\frac{1}{n}\lambda_\max(\Psi_\mu)\)


  1. Poincaré 不等式 \(\Longrightarrow\)​ 搅拌时间上界:

    \[\text{T}_\text{mix}(\varepsilon)\leq\frac{1}{\gamma_*(\textsf{P})}\left(\frac{1}{2}\,\ln\frac{1}{\mu_\text{init}}+\ln\frac{1}{2\varepsilon}\right) \]

  2. 标准 Log-Sobolev 不等式 \(\Longrightarrow\)​ 搅拌时间上界:

    \[\text{T}_\text{mix}(\varepsilon)\leq\frac{1}{4\kappa(\textsf{P})}\left(\ln\ln\frac{1}{\mu_\text{init}}+\ln\frac{1}{2\varepsilon^2}\right) \]

  3. 变形 Log-Sobolev 不等式 \(\Longrightarrow\)​ 搅拌时间上界:

    \[\text{T}_\text{mix}(\varepsilon)\leq\frac{1}{\varrho(\textsf{P})}\left(\ln\ln\frac{1}{\mu_\text{init}}+\ln\frac{1}{2\varepsilon^2}\right) \]

我们从 \(\text{KL}\) 散度的角度考虑:

\[D_\text{KL}\big(\nu\|\mu\big)=\sum_{x\in\Omega}\nu(x)\ln\left(\frac{\nu(x)}{\mu(x)}\right)=\text{Ent}_\mu\left(\frac{\nu}{\mu}\right) \]

其中 \(\text{Ent}_\mu(f)=\mathbb{E}_\mu[f\ln f]-\mathbb{E}_\mu[f]\ln\mathbb{E}_\mu[f]\) 是一个函数的(我们注意到 \(\mathbb{E}_\mu[f]=\sum_{x\in\Omega}\nu(x)=1\))。

5

对于实数 \(t\geq0\),我们定义 \(H_t=\exp((\mathsf{P}-\mathsf{Id})\cdot t))\),可以发现 \(\frac{d}{dt}H_t=(\mathsf{P}-\mathsf{Id})H_t=H_t(\mathsf{P}-\mathsf{Id})\)

对于每个实数 \(t\geq0\) 以及每个可能的初始分布 \(\nu\),我们有 \(D_\text{KL}(\nu H_t\|\mu)\leq e^{-\varrho(\mathsf{P})\cdot t}\cdot D_\text{KL}(\nu\|\mu)\)

我们定义 \(f_t=\frac{\nu H_t}{\mu}\),那么 \(D_\text{KL}(\nu H_t\|\mu)=\text{Ent}_\mu(f_t)=\mathbb{E}_\mu[f_t\ln f_t]\)。我们证明 \(f_t=H_tf_0\)。展开计算:

\[f_t(x)=\frac{(\nu H_t)(x)}{\mu(x)}=\frac{\sum_{y\in\Omega}\nu(y)H_t(y\to x)}{\mu(x)}=\frac{\sum_{y\in\Omega}\left(\frac{\nu(y)}{\mu(y)}\right)\mu(y)H_t(y\to x)}{\mu(x)}=\sum_{y\in\Omega}H_t(x\to y)f_0(y)=H_tf_0(x) \]

首先我们可以求导(注意到 \(f(x)\ln f(x)\) 关于 \(x\) 的导数是 \(f'(x)\big(1+\ln f(x)\big)\)):

\[\frac{d}{dt}\mathbb{E}_\mu[f_t\ln f_t]=\sum_{x\in\Omega}\mu(x)\frac{d}{dt}\bigg(f_t(x)\ln f_t(x)\bigg)=\sum_{x\in\Omega}\mu(x)\bigg(\frac{d}{dt}f_t(x)\bigg)\bigg(1+\ln f_t(x)\bigg) \]

然后我们展开计算:

\[\frac{d}{dt}f_t(x)=\frac{d}{dt}\sum_{y\in\Omega}H_t(x\to y)f_0(y)=\sum_{y\in\Omega}\big((\mathsf{P}-\mathsf{Id})H_t\big)(x\to y)f_0(y)\\ =\sum_{y\in\Omega}\left(\sum_{z\in\Omega}(\mathsf{P}-\mathsf{Id})(x\to z)H_t(z\to y)\right)f_0(y)=\sum_{z\in\Omega}(\mathsf{P}-\mathsf{Id})(x\to z)\left(\sum_{y\in\Omega}H_t(z\to y)f_0(y)\right)=\big((\mathsf{P}-\mathsf{Id})f_t\big)(x) \]

然后我们代回原式:

\[\frac{d}{dt}\mathbb{E}_\mu[f_t\ln f_t]=\sum_{x\in\Omega}\mu(x)\bigg(\big((\mathsf{P}-\mathsf{Id})f_t\big)(x)\bigg)\bigg(1+\ln f_t(x)\bigg)=\big\langle(\mathsf{P}-\mathsf{Id})f_t,\mathbf{1}+\ln f_t\big\rangle_\mu\\ \big\langle(\mathsf{P}-\mathsf{Id})f_t,\mathbf{1}\big\rangle_\mu=\big\langle\mathsf{P}f_t,\mathbf{1}\big\rangle_\mu-\big\langle f_t,\mathbf{1}\big\rangle_\mu=1-1=0\\ \big\langle(\mathsf{P}-\mathsf{Id})f_t,\mathbf{1}+\ln f_t\big\rangle_\mu=\big\langle(\mathsf{P}-\mathsf{Id})f_t,\ln f_t\big\rangle_\mu=\big\langle f_t,(\mathsf{P}-\mathsf{Id})\ln f_t\big\rangle_\mu=-\mathfrak{D}\big(f_t,\ln f_t\big) \]

最终我们可以得到:\(\frac{d}{dt}\text{Ent}_\mu(f_t)=-\mathfrak{D}(f_t,\ln f_t)\ (\mathbf{*})\)。那么如果变形 Log-Sobolev 不等式成立,也就是对于任意函数 \(f:\Omega\to\mathbb{R}_{\geq0}\) 都有 \(\varrho\cdot\text{Ent}_\mu(f)\leq\mathfrak{D}(f,\ln f)\),那么根据 \((\mathbf{*})\) 可以推出 \(\frac{d}{dt}\text{Ent}_\mu(f_t)\leq-\varrho\cdot\text{Ent}_\mu(f_t)\),因此 \(\frac{d}{dt}\ln\text{Ent}_\mu(f_t)=\frac{\frac{d}{dt}\text{Ent}_\mu(f_t)}{\text{Ent}_\mu(f_t)}\leq-\varrho\),因此 \(\ln\text{Ent}_\mu(f_t)-\ln\text{Ent}_\mu(f_0)\leq-\varrho\cdot t\),这等价于 \(\text{Ent}_\mu(f_t)\leq\text{e}^{-\varrho\cdot t}\cdot\text{Ent}_\mu(f_0)\)\(D_\text{KL}(\nu H_t\|\mu)\leq\text{e}^{-\varrho\cdot t}\cdot D_\text{KL}(\nu\|\mu)\)。进一步注意到 \(D_\text{KL}(\delta_x\|\mu)=\ln\frac{1}{\mu_x}\),因此 \(D_\text{KL}(\nu H_t\|\mu)\leq\text{e}^{-\varrho\cdot t}\cdot\ln\frac{1}{\mu_\text{init}}\)

现在我们需要证明对于任意 \(f\)\(E_{n-1}(f)\leq\mathfrak{D}(f,\ln f)\),按照定义 \(E_0(f)=\text{Ent}_\mu(f)\),也就是说 \(\frac{E_{n-1}(f)}{E_0(f)}\leq\frac{\mathfrak{D}(f,\ln f)}{\text{Ent}_\mu(f)}\)

(这样一来 \(\varrho=\inf\limits_{f:\Omega\to\mathbb{R}_{\geq0}}\left\{\frac{\mathfrak{D}(f,\ln f)}{\text{Ent}_\mu(f)}\right\}\geq\inf\limits_{f:\Omega\to\mathbb{R}_{\geq0}}\left\{\frac{E_{n-1}(f)}{E_0(f)}\right\}\),因此后者的下界也一定是前者的下界。)

对于一个 \(i\in[n]\),拿出一对只在 \(i\) 有区别的状态 \((\sigma_0,\sigma_1)\),假设 \((a,b,u,v)=\big(f(\sigma_0),f(\sigma_1),\mu(\sigma_0),\mu(\sigma_1)\big)\),我们计算 \((\sigma_0,\sigma_1)\)\(\mathfrak{D}(f,\ln f),E_{n-1}(f)\) 的贡献 \(\frac{1}{n}D,\frac{1}{n}E\),可以发现

\[D=\frac{uv}{u+v}(a-b)(\ln a-\ln b)\\ E=ua\ln a+vb\ln b-(ua+vb)\ln\left(\frac{ua+vb}{u+v}\right)\\ \mathfrak{D}(f,g)=\big\langle f,(\textsf{Id}-\textsf{P})g\big\rangle_\mu=\sum_{x\in\Omega}\mu(x)f(x)g(x)-\sum_{x,y\in\Omega}w(x,y)f(x)g(y)\\ =\left(\sum_{x,y\in\Omega}w(x,y)f(x)g(x)\right)-\left(\sum_{x,y\in\Omega}w(x,y)f(x)g(y)\right)=\frac{1}{2}\left(\sum_{x,y\in\Omega}w(x,y)\big(f(x)-f(y)\big)\big(g(x)-g(y)\big)\right)\\ \mathfrak{D}(f,\ln f)=\frac{1}{n}\sum_{i=1}^n\sum_{\substack{\sigma_0,\sigma_1\\\text{differ only on } i}}\frac{\mu(\sigma_0)\mu(\sigma_1)}{\mu(\sigma_0)+\mu(\sigma_1)}\Big(f(\sigma_0)-f(\sigma_1)\Big)\Big(\ln f(\sigma_0)-\ln f(\sigma_1)\Big) \]

6

接下来我们证明:对于任意实数 \(a,b,u,v\geq0\),都有 \(D\geq E\)。我们先证明 \(>0\) 的情况。

假设 \(p=\frac{u}{u+v},q=\frac{v}{u+v}\)​。定义 \(m=pq+qb=\frac{ua+vb}{u+v}\)。那么

\[D=(u+v)\big(pq(a-b)(\ln a-\ln b)\big)\\ E=(u+v)\big(pa\ln a+qb\ln b-m\ln m\big) \]

根据 \(\ln\) 的上凸性,我们有 \(\ln m=\ln(pa+qb)\geq p\ln a+q\ln b\)。因此

\[pa(\ln a-\ln m)\leq pqa(\ln a-\ln b)\\ qb(\ln b-\ln m)\leq pqb(\ln b-\ln a)\\ E\leq(u+v)\big(pq(a-b)(\ln a-\ln b)\big)=D \]

最后证明边界情况:如果 \(p=0\) 或者 \(q=0\),那么 \(D=E=0\),不等式成立;否则如果 \(a=b=0\),那么 \(D=E=0\),不等式成立;否则如果 \(a=0\) 或者 \(b=0\),那么 \(D=+\infty\)\(E\) 是有限的正数,不等式也成立。


对于实数 \(0\leq\alpha\leq1\),定义一个分布满足 \(\alpha\)-局部方差收缩,如果对于每个全局函数 \(f:\{0,1\}^n\to\mathbb{R}_{\geq0}\),它对应的分布 \(\mu_1,\mu_2\) 满足 \(\text{Ent}_{\mu_2}(f_2)\geq2\big(1-\frac{\alpha}{n}\big)\text{Ent}_{\mu_1}(f_1)\)

对于实数数列 \(0\leq\alpha_0,\cdots,\alpha_{n-2}\leq1\),定义一个分布满足 \(\alpha\)-全局方差收缩,如果对于每个大小为 \(k\) 的子集 \(S\in[n]\) 以及每个 \(\tau:S\to\{0,1\}\),那个条件分布 \(\mu^\tau\) 都满足 \(\alpha_k\)-局部方差收缩,也就是 \(\text{Ent}_{\mu^\tau_2}(f^\tau_2)\geq2\big(1-\frac{\alpha_k}{n-k}\big)\text{Ent}_{\mu^\tau_1}(f^\tau_1)\)

如果 \(\alpha\)-全局方差收缩成立,那么对于每个全局函数 \(f:\{0,1\}^n\to\mathbb{R}_{\geq0}\),以及每个 \(0\leq k\leq\ell\leq n\)​,都有

\[\frac{\text{Ent}_{\mu_\ell}(f_\ell)}{\beta_\ell}\geq\frac{\text{Ent}_{\mu_k}(f_k)}{\beta_k},\qquad\text{where }\beta_k=\sum_{i=0}^{k-1}\prod_{j=0}^{i-1}\left(1-\frac{2\alpha_j}{n-j}\right) \]

根据总方差定理,对于每个 \(0\leq k\leq\ell\leq n\),都有 \(\text{Ent}_{\mu_\ell}(f_\ell)=\text{Ent}_{\mu_k}(f_k)+\mathbb{E}_{\sigma\sim\mu_k}\big[\text{Ent}_{\mu^\sigma_{\ell-k}}\big(f^\sigma_{\ell-k}\big)\big]\)。展开计算:

\[\text{Ent}_{\mu_{k+2}}(f_{k+2})-\text{Ent}_{\mu_k}(f_k)=\mathbb{E}_{\sigma\sim\mu_k}\big[\text{Ent}_{\mu^\sigma_2}\big(f^\sigma_2\big)\big]\geq2\big(1-\tfrac{\alpha_k}{n-k}\big)\mathbb{E}_{\sigma\sim\mu_k}\big[\text{Ent}_{\mu^\sigma_1}\big(f^\sigma_1\big)\big]\\ =2\big(1-\tfrac{\alpha_k}{n-k}\big)\big(\text{Ent}_{\mu_{k+1}}(f_{k+1})-\text{Ent}_{\mu_k}(f_k)\big)\\ \text{Ent}_{\mu_{k+2}}(f_{k+2})\geq\big(2-\tfrac{2\alpha_k}{n-k}\big)\text{Ent}_{\mu_{k+1}}(f_{k+1})-\big(1-\tfrac{2\alpha_k}{n-k}\big)\text{Ent}_{\mu_k}(f_k)\\ \left(\frac{\text{Ent}_{\mu_{k+2}}(f_{k+2})}{\text{Ent}_{\mu_{k+1}}(f_{k+1})}-1\right)\geq\left(1-\frac{2\alpha_k}{n-k}\right)\left(1-\frac{\text{Ent}_{\mu_k}(f_k)}{\text{Ent}_{\mu_{k+1}}(f_{k+1})}\right)\\ \beta_{k+2}-\beta_{k+1}=\big(1-\tfrac{2\alpha_k}{n-k}\big)\big(\beta_{k+1}-\beta_k\big) \]

综上所述,由于 \(\beta_1=1\),我们可以知道 \(\text{Ent}_{\mu}(f)=\text{Ent}_{\mu_n}(f_n)\geq\beta_n\text{Ent}_{\mu_1}(f_1)\),那么 \(\eta_\text{Ent}=n\beta_n^{-1}-1=O(\alpha)\)


定理:对于一个 \(\eta\)-方差可分\(\mu\),一定有

\[\text{Ent}_{\mu_2}(f_2)\geq2\text{Ent}_{\mu_1}(f_1)-\frac{\eta}{n-1}\cdot\frac{\text{Var}_{\mu_1}(f_1)}{\mathbb{E}_{\mu_1}[f_1]},\qquad\forall f:\{0,1\}^n\to\mathbb{R}_{\geq0} \]

我们可以把 \(\mu_2\) 看成一个 \((2n)\times(2n)\) 矩阵,满足

\[\mu_2\big((i,s),(j,t)\big)=\frac{1}{n(n-1)}\cdot\text{Pr}_{\sigma\sim\mu}\big[(\sigma_i=s)\wedge(\sigma_j=t)\wedge(i\neq j)\big] \]

注意到对于任意 \(x\in[n]\times\{0,1\}\),都有 \(\sum_y\mu_2(x,y)f_2(x,y)=\mu_1(x)f_1(x)\),因此

\[\text{Ent}_{\mu_1}(f_1)=\sum_{x}\mu_1(x)f_1(x)\ln f_1(x)=\frac{1}{2}\sum_{x,y}\mu_2(x,y)f_2(x,y)\big(\mkern-2mu\ln f_1(x)+\ln f_1(y)\big)\\ \text{Ent}_{\mu_2}(f_2)-2\text{Ent}_{\mu_1}(f_1)=\sum_{x,y}\mu_2(x,y)f_2(x,y)\big(\mkern-2mu\ln f_2(x,y)-\ln f_1(x)-\ln f_1(y)\big) \]

7

注意到对于正实数 \(a,b>0\),都有 \(a(\ln a-\ln b)\geq a-b\)(因为 \(\ln\left(\tfrac{b}{a}\right)\leq\tfrac{b}{a}-1\)),因此

\[\text{Ent}_{\mu_2}(f_2)-2\text{Ent}_{\mu_1}(f_1)=\sum_{x,y}\mu_2(x,y)f_2(x,y)\big(\mkern-2mu\ln f_2(x,y)-\ln f_1(x)-\ln f_1(y)\big)\\ \geq\sum_{x,y}\mu_2(x,y)\big(f_2(x,y)-f_1(x)f_1(y)\big)=1-\left\langle f_1,\left(\frac{n}{n-1}\mathsf{Q}_\mu-\frac{1}{n-1}\mathsf{Id}\right)f_1\right\rangle_{\mu_1} \]

前文中我们证明了:如果 \(\mathsf{P}\) 关于 \(\mu\) 可逆,那么对于任意函数 \(f:\Omega\to\mathbb{R}_{\geq0}\),都有 \(\frac{\langle f,\mathsf{P}f\rangle_\mu}{\text{Var}_\mu(f)}\leq\lambda_2(\mathsf{P})\)。因此

\[\text{Ent}_{\mu_2}(f_2)-2\text{Ent}_{\mu_1}(f_1)\geq-\left(\frac{n}{n-1}\lambda_2(\mathsf{Q}_\mu)-\frac{1}{n-1}\right)\text{Var}_{\mu_1}(f_1) \]

注意到 \(\lambda_2(\mathsf{Q}_\mu)=\frac{1}{n}\lambda_\max(\Psi_\mu)\),而 \(\eta\geq\lambda_\max(\Psi_\mu)-1\),因此 \(\text{Ent}_{\mu_2}(f_2)-2\text{Ent}_{\mu_1}(f_1)\geq-\frac{\eta}{n-1}\cdot\text{Var}_{\mu_1}(f_1)\)

现在假设 \(\mathbb{E}_{\mu_1}[f_1]=c\)\(f\) 每个元素 \(\times c\)),我们要证明 \(\text{Ent}_{\mu_2}(f_2)-2\text{Ent}_{\mu_1}(f_1)\)\(\frac{\text{Var}_{\mu_1}(f_1)}{\mathbb{E}_{\mu_1}[f_1]}\) 的值恰好乘以 \(c\)

直接计算前者:对于 \((a,b,u,v)\)\(E_{(c)}=cE_{(1)}\);后者:对于 \((a,b,u,v)\)\(V_{(c)}=c^2V_{(1)}\)。因此成立。


最后我们证明:如果 \(\mu\) 具有间隔 \(B>0\),那么 \(\text{Ent}_{\mu_1}(f_1)\leq\frac{\text{Var}_{\mu_1}(f_1)}{\mathbb{E}_{\mu_1}[f_1]}\leq\frac{2}{B}\cdot\text{Ent}_{\mu_1}(f_1)\)

首先我们还是假设 \(\mathbb{E}_{\mu_1}[f_1]=1\),也就是说 \(f_1=\frac{\nu_1}{\mu_1}\)。那么 \(f_1(x)=\frac{\nu_1(x)}{\mu_1(x)}\leq\frac{\nu_1(x)}{B}\leq\frac{1}{B},\quad\forall x\in[n]\times\{0,1\}\)

考虑单个 \(0\leq y\leq c\)\(\text{Ent}_{\mu}(f),\text{Var}_{\mu}(f)\) 二者的贡献。展开计算

\[\text{Ent}_\mu(f)=\mathbb{E}_\mu[f\ln f]=\sum_{i=1}^n\mu(x)\Big(f(x)\big(\mkern-2mu\ln f(x)-1\big)+1\Big)=\sum_{i=1}^n\nu(x)\ln f(x)\\ \text{Var}_\mu(f)=\mathbb{E}_\mu[f^2]-1=\sum_{i=1}^n\mu(x)\big(f(x)-1\big)^2=\sum_{i=1}^n\nu(x)\big(f(x)-1\big) \]

第一个不等号:比对 \(\nu(x)\) 那一侧的贡献。对于任意 \(y\geq0\),我们总有 \(\ln y\leq y-1\)

第二个不等号:比对 \(\mu(x)\) 那一侧的贡献。对于任意 \(y\geq0\),我们总有 \((y-1)^2\leq2\max\{1,y\}\big(y(\ln y-1)+1\big)\)

综上所述,\(\text{Ent}_{\mu_2}(f_2)\geq2\left(1-\frac{\eta}{B(n-1)}\right)\cdot\text{Ent}_{\mu_1}(f_1)\),也就是说 \(\alpha=\frac{\eta}{B}\)(这里的 \(n,n-1\) 对不上,回去修改定义!


定义势能函数 \(\varphi(R)=\ln\left(\sqrt{R}+\sqrt{R+1}\right)\),其具有导函数 \(\varphi'(R)=\Phi(R)=\frac{1}{\sqrt{R(R+1)}}\)

定义每个结点的 DP 值 \(R_u\),其递归形式为 \(R_u=F_{d_u,\lambda_u}\big(R_{u_1},\cdots,R_{u_{d_u}}\big)\),其中 \(F_{d,\lambda}(R_1,\cdots,R_d)=\lambda\prod_{i=1}^d\frac{1}{1+R_i}\)

定义 \(K=\varphi(R)\),那么 \(K_u=G_{d_u,\lambda_u}\big(K_{u_1},\cdots,K_{u_{d_u}}\big)\),其中 \(G_{d,\lambda}(K_1,\cdots,K_d)=\varphi\left(\lambda\prod_{i=1}^d\frac{1}{1+\varphi^{-1}(R_i)}\right)\)​。


首先证明 \(\partial_{\ln\lambda_u}\ln Z_H(\boldsymbol{\lambda})=\text{Pr}_{I\sim\mu_{H,\boldsymbol{\lambda}}}[u\in I]\):假设 \(\alpha=\text{Pr}_{I\sim\mu_{H,\boldsymbol{\lambda}}}[u\in I]\),那么 \(\lim\limits_{\varepsilon\to0}\frac{\ln\big(\mathrm{e}^{\varepsilon}\alpha+(1-\alpha)\big)}{\varepsilon}=\lim\limits_{\varepsilon\to0}\frac{\varepsilon\alpha}{\varepsilon}=\alpha\)

然后证明 \(\partial_{\ln\lambda_u}\ln R_{H,\tau}(\boldsymbol{\lambda})=\Psi_H(\tau\to u)\):按照定义 \(R_{H,\tau}(\boldsymbol{\lambda})=\frac{\lambda_\tau\cdot Z_{H-N[\tau]}(\boldsymbol{\lambda})}{Z_{H-\{\tau\}}(\boldsymbol{\lambda})}\),因此

\[\partial_{\ln\lambda_u}\ln R_{H,\tau}(\boldsymbol{\lambda})=\lambda_\tau\cdot\text{Pr}_{I\sim\mu_{H-N[\tau],\boldsymbol{\lambda}}}[u\in I]-\text{Pr}_{I\sim\mu_{H-\{\tau\},\boldsymbol{\lambda}}}[u\in I]\\=\text{Pr}_{I\sim\mu_{H,\boldsymbol{\lambda}}}[u\in I|\tau\in I]-\text{Pr}_{I\sim\mu_{H,\boldsymbol{\lambda}}}[u\in I|\tau\not\in I]=\Psi_H(\tau\to u) \]


我们以 \(\tau\) 为根建出 \(H\) 的自回避游走树 \(T=T_\textsf{SAW}(H,\tau)\)。我们证明

\[\sum_{u\in H}\big|\Psi_H(\tau\to u)\big|\leq\sum_{\hat{u}\in T}\big|\Psi_T(\hat{\tau}\to\hat{u})\big|\qquad\iff\qquad\sum_{u\in H}\big|\partial_{\ln\lambda_u}\ln R_{H,\tau}(\boldsymbol{\lambda})\big|\leq\sum_{\hat{u}\in T}\big|\partial_{\ln\lambda_\hat{u}}\ln R_{T,\hat{\tau}}(\boldsymbol{\hat{\lambda}})\big| \]

在前文中我们已经说明 \(R_{H,\tau}(\boldsymbol{\lambda})=F_{d_\tau,\lambda_\tau}\big(R_{H_1,\tau_1}(\boldsymbol{\lambda_1}),\cdots,R_{H_{d_\tau},\tau_{d_\tau}}(\boldsymbol{\lambda_{d_\tau}})\big)\)

8

可以使用链式法则展开

\[\sum_{u\in H}\big|\Psi_H(\tau\to u)\big|=\sum_{u\in H}\big|\partial_{\ln\lambda_u}\ln R_{H,\tau}(\boldsymbol{\lambda})\big|\\ \leq1+\sum_{i=1}^{d_\tau}\left|\partial_{\ln R_{H_i,\tau_i}(\boldsymbol{\lambda_i})}\ln F_{d_\tau,\lambda_\tau}\big(R_{H_1,\tau_1}(\boldsymbol{\lambda_1}),\cdots,R_{H_{d_\tau},\tau_{d_\tau}}(\boldsymbol{\lambda_{d_\tau}})\big)\right|\left(\sum_{u\in H_i}\big|\partial_{\ln\lambda_{i,u}}\ln R_{H_i,\tau_i}(\boldsymbol{\lambda_i})\big|\right)\\ \scriptsize\leq1+\sum_{i=1}^{d_\tau}\left|\partial_{\ln R_{H_i,\tau_i}(\boldsymbol{\lambda_i})}\ln F_{d_\tau,\lambda_\tau}\big(R_{H_1,\tau_1}(\boldsymbol{\lambda_1}),\cdots\big)\right|\left(1+\sum_{j=1}^{d_{i,\tau_i}}\left|\partial_{\ln R_{H_{i,j},\tau_{i,j}}(\boldsymbol{\lambda_{i,j}})}\ln F_{d_{i,\tau_i},\lambda_{i,\tau_i}}\big(R_{H_{i,1},\tau_{i,1}}(\boldsymbol{\lambda_{i,1}}),\cdots\big)\right|\left(\sum_{u\in H_{i,j}}\big|\partial_{\ln\lambda_{i,j,u}}\ln R_{H_{i,j},\tau_{i,j}}(\boldsymbol{\lambda_{i,j}})\big|\right)\right)\\ \leq\cdots\leq\sum_{\hat{u}\in T}\big|\partial_{\ln\lambda_\hat{u}}\ln R_{T,\hat{\tau}}(\boldsymbol{\hat{\lambda}})\big|=\sum_{\hat{u}\in T}\big|\Psi_T(\hat{\tau}\to\hat{u})\big| \]


对于 \(T\) 中的每个结点 \(u\) 建两个小结点 \(u^{(1)},u^{(2)}\)。我们连有向边:

  1. 每个点的 \((1)\) 小结点向自己的 \((2)\) 小结点连一条边,边权为 \(w\left(u^{(1)}\to u^{(2)}\right)=\frac{\partial K_u}{\partial\ln R_u}\)
  2. 根结点的 \((2)\) 小结点向自己的 \((1)\) 小结点连一条边,边权为 \(w\left(\tau^{(2)}\to\tau^{(1)}\right)=\frac{\partial\ln R_\tau}{\partial K_\tau}\)
  3. 每个点的 \((2)\) 小结点向父亲的 \((2)\) 小结点连一条边,边权为 \(w\left(v_i^{(2)}\to u^{(2)}\right)=\partial_{K_{v_i}}G_{d_u,\lambda_u}\big(K_{v_1},\cdots,K_{v_{d_u}}\big)\)

由于 \(\frac{\partial\ln R_u}{\partial\ln\lambda_u}=1\),因此 \(\frac{\partial K_u}{\partial\ln\lambda_u}=\frac{\partial K_u}{\partial\ln R_u}\cdot\frac{\partial\ln R_u}{\partial\ln\lambda_u}=\frac{\partial K_u}{\partial\ln R_u}\)

那么根据链式法则,我们知道:\(\Psi_T(\tau\to u)\) 等于 \(u^{(1)}\leadsto\tau^{(1)}\)​ 唯一路径上的边权乘积之和。我们展开计算

\[\sum_{i=1}^d\left|\frac{\partial K}{\partial K_i}\right|=\sum_{i=1}^d\left(\left|\frac{\partial R}{\partial R_i}\right|\cdot\frac{\varphi'(R)}{\varphi'(R_i)}\right)=\sum_{i=1}^d\left(\frac{R}{R_i+1}\cdot\frac{\varphi'(R)}{\varphi'(R_i)}\right)=\sqrt{\frac{R}{R+1}}\sum_{i=1}^d\sqrt{\frac{R_i}{R_i+1}}\ \mathbf{(*)} \]

固定 \(R\)。我们证明 \(R_1=\cdots=R_d\)\(\mathbf{(*)}\) 取到最大值。

设置 \(u_i=\ln(R_i+1)\geq0\),那么 \(\ln R=\ln\lambda-(u_1+\cdots+u_d)\) 固定。重写 \(\mathbf{(*)}\) 可得

\[\sum_{i=1}^d\left|\frac{\partial K}{\partial K_i}\right|=\sqrt{\frac{R}{R+1}}\sum_{i=1}^d\sqrt{1-e^{-u_i}} \]

由于函数 \(h(u)=\sqrt{1-e^{-u}}(u\geq0)\) 一阶导数 \(h'(u)=\frac{e^{-u}}{2\sqrt{1-e^{-u}}}(u\geq0)\) 严格递减,因此 \(h\) 上凸,故而 \(u_1=\cdots=u_d\)\(\sum_{i=1}^dh(u_i)\) 取到最大值,命题得证。


对于整数 \(d\geq1\),参数 \(\lambda>0\),定义 \(y=\frac{\lambda}{(x+1)^d}(x\geq0)\)。我们要最大化 \(d\sqrt{\frac{x}{x+1}}\sqrt{\frac{y}{y+1}}\),等价于最大化 \(\frac{xy}{(x+1)(y+1)}\)

定义 \(z=\frac{1}{x+1}\in(0,1]\),那么 \(x=\frac{1}{z}-1\)\(y=\lambda z^d\),计算 \(\frac{xy}{(x+1)(y+1)}\) 的一阶导数与 \(x'y(y+1)+y'x(x+1)\) 符号相同,后者又与 \(z(\lambda z^d+1)+d(z-1)=\lambda z^{d+1}+(d+1)z-d\) 符号相反。由于函数 \(h(z)=\lambda z^{d+1}+(d+1)z-d\)\([0,1]\) 上严格递增,\(h(0)=-d\)\(h(1)=\lambda+1\),因此 \(h(z)\)\([0,1]\) 上有唯一的零点 \(z^*\in(0,1)\)​。

对于整数 \(d\geq2\),定义 \(\lambda_c=\frac{d^d}{(d-1)^{d+1}}\) 表示临界点权。如果 \(\lambda=(1-\alpha)\lambda_c\),其中 \(\alpha\in[0,1)\),定义 \(x^*=\frac{1}{z^*}-1\)\(y^*=\lambda(z^*)^d\)\(Q_\max=d\sqrt{\frac{x^*}{x^*+1}}\sqrt{\frac{y^*}{y^*+1}}\) 表示一个点有 \(d\) 个儿子时所有儿子边权总和的最大值。

我们用 \(x_0,y_0,z_0\) 表示 \(\lambda=\lambda_c\)\(x^*,y^*,z^*\) 的值。那么 \(z_0=\frac{d-1}{d}\)\(x_0=y_0=\frac{1}{d-1}\),此时 \(Q_\max=1\)

对于 \(\lambda=(1-\alpha)\lambda_c\),由于 \(\lambda(z^*)^{d+1}+(d+1)z^*-d=\lambda_c(z_0)^{d+1}+(d+1)z_0-d=0\),相减可得

\[\lambda_c\big((z^*)^{d+1}-(z_0)^{d+1}\big)-\alpha\lambda_c(z^*)^{d+1}+(d+1)(z^*-z_0)=0 \]

根据拉格朗日中值定理,存在 \(z_0\leq z_1\leq z^*\) 使得 \((z^*)^{d+1}-(z_0)^{d+1}=(d+1)(z_1)^d(z^*-z_0)\)。因此

\[z^*-z_0=\frac{\alpha\lambda_c(z^*)^{d+1}}{(d+1)\big(\lambda_c(z_1)^d+1\big)}\geq\frac{\alpha\lambda_c(z_0)^{d+1}}{(d+1)(\lambda_c+1)}=\frac{\alpha}{d(d+1)(\lambda_c+1)} \]

9

接下来注意到 \(Q_\max=d\sqrt{1-\frac{d+1}{d}z^*}\)(这是因为 \(\frac{x^*y^*}{(x^*+1)(y^*+1)}=\frac{(1-z^*)\lambda(z^*)^{d+1}}{\lambda(z^*)^{d+1}+z^*}=1-\frac{d+1}{d}z^*\))。因此

\[Q_\max=d\sqrt{1-\tfrac{d+1}{d}\big(z_0+(z^*-z_0)\big)}\leq\sqrt{1-\tfrac{\alpha}{\lambda_c+1}}\leq1-\tfrac{\alpha}{2(\lambda_c+1)} \]

我们把所有 \(\leq d-1\) 个儿子的点补恒零叶子补到 \(d\) 个儿子。那么,每个点的所有儿子边权总和 \(\leq Q_\max\)。我们定义 \(w_\max,w_\min\) 表示 \((1)\) 小结点向自己的 \((2)\) 小结点连边边权的最大值和最小值。由于 \(\frac{\partial K}{\partial\ln R}=R\cdot\varphi'(R)=\sqrt{\frac{R}{R+1}}\)

\[\sum_{u\in T}\big|\partial_{\ln\lambda_u}\ln R_{T,\tau}(\boldsymbol{\lambda})\big|\leq\frac{w_\max}{w_\min}\sum_{\ell=0}^{+\infty}(Q_\max)^\ell=\frac{1}{1-Q_\max}\cdot\frac{w_\max}{w_\min}\leq8(\lambda_c+1)\alpha^{-1} \]

最后一步是:对于任意整数 \(d\geq2\)\(0<\lambda\leq\lambda_c=\frac{d^d}{(d-1)^{d+1}}\)\(A=\lambda\)\(B=\frac{\lambda}{(\lambda+1)^d}\),一定有 \(\sqrt{\frac{A}{A+1}}\leq4\cdot\sqrt{\frac{B}{B+1}}\)

平方可知等价于 \((\lambda+1)^d\leq15\lambda+16\),也就是 \(L(\lambda)=(\lambda+1)^d-15\lambda\leq16\)。注意到 \(L''(\lambda)=d(d-1)(\lambda+1)^{d-2}\) 始终正,因此 \(L\) 严格下凸。故而 \(L\)\([0,\lambda_c]\) 上的最大值要么在 \(0\) 要么在 \(\lambda_c\) 取到。\(L(0)=0\leq16\) 显然,与此同时

\[\big(\lambda_c+1\big)^d=\left(\frac{d^d}{(d-1)^{d+1}}+1\right)^d\leq\exp\left(\left(1+\frac{1}{d-1}\right)^{d+1}\right) \]

后者严格递减。对于 \(d\in\{2,\cdots,99\}\),我们暴力验证 \(L(\lambda_c)\leq16\)。对于 \(d\geq100\),后者本身已经 \(\leq16\)


为什么 \(\varrho(\mathsf{P})\leq2\gamma(\mathsf{P})\)

对函数 \(h(x)=(1+x)\ln(1+x)\)\(0\) 附近使用泰勒展开可得 \(h(x)=x+\frac{1}{2}x^2+O(x^3)\)

\(f=f_2\),定义 \(f_c=1+\frac{f}{c}\)。那么(逐项使用泰勒展开\(\mathbb{E}_\mu[f_c\ln f_c]=\frac{\mathbb{E}_\mu[f]}{c}+\frac{\mathbb{E}_\mu[f^2]}{2c^2}+O(c^{-3})\)

对函数 \(h(x)=\ln(1+x)\)\(0\) 附近使用泰勒展开可得 \(h(x)=x-\frac{1}{2}x^2+O(x^3)\)。因此(整体使用泰勒展开\(\mathbb{E}_\mu[f_c]\ln\mathbb{E}_\mu[f_c]=\left(1+\frac{\mathbb{E}_\mu[f]}{c}\right)\left(\frac{\mathbb{E}_\mu[f]}{c}-\frac{\mathbb{E}_\mu[f]^2}{2c^2}+O(c^{-3})\right)=\frac{\mathbb{E}_\mu[f]}{c}+\frac{\mathbb{E}_\mu[f]^2}{2c^2}+O(c^{-3})\)

因此 \(\text{Ent}_\mu(f_c)=\mathbb{E}_\mu[f_c\ln f_c]-\mathbb{E}_\mu[f_c]\ln\mathbb{E}_\mu[f_c]=\frac{\mathbb{E}_\mu[f^2]-\mathbb{E}_\mu[f]^2}{2c^2}+O(c^{-3})=\frac{\text{Var}_\mu(f)}{2c^2}+O(c^{-3})\)

现在考虑 \(\big(f_c(x)-f_c(y)\big)\big(\mkern-2mu\ln f_c(x)-\ln f_c(y)\big)=\left(\frac{f(x)-f(y)}{c}\right)\left(\frac{f(x)-f(y)}{c}+O(c^{-2})\right)=\frac{\big(f(x)-f(y)\big)^2}{c^2}+O(c^{-3})\)

因此 \(\mathfrak{D}(f,\ln f)=\frac{1}{2}\sum_{x,y\in\Omega}w(x,y)\big(f_c(x)-f_c(y)\big)\big(\mkern-2mu\ln f_c(x)-\ln f_c(y)\big)=\frac{\mathfrak{D}(f,f)}{c^2}+O(c^{-3})\)

综上所述 \(\frac{\mathfrak{D}(f_c,\ln f_c)}{\text{Ent}_\mu(f_c)}=\frac{2\mathfrak{D}(f,f)+O(c^{-1})}{\text{Var}_\mu(f)+O(c^{-1})}=2\gamma(\mathsf{P})+O(c^{-1})\)。那么取 \(c\to+\infty\) 可得 \(\varrho(\mathsf{P})\leq2\gamma(\mathsf{P})\)


最后我们回到这个式子

\[\beta_n=\sum_{i=0}^{n-1}\max\left\{0,\,\prod_{j=0}^{i-1}\left(1-\frac{2\alpha}{n-j-1}\right)\right\} \]

设置 \(\theta=\frac{1}{2.2\alpha}\),由于 \(\alpha=\frac{\eta}{B}\geq16\),因此 \(0<\theta<0.03\)。截取前 \(\theta n\) 项求和,对于 \(n\geq20\alpha\),我们得到

\[\beta_n\geq\sum_{i=0}^{\theta n-1}\prod_{j=0}^{i-1}\left(1-\frac{2\alpha}{n-j-1}\right)\geq\theta n\left(1-\frac{2\alpha}{(1-\theta)n}\right)^{\theta n}\geq\theta n\exp\left(-\frac{2.12\alpha}{(1-\theta)n}\right)^{\theta n}\geq\theta n\exp(-2.2\theta\alpha) \]

因此 \(\beta_n\geq\frac{n}{2.2e\alpha}\geq\frac{n}{6\alpha}\),也就是说 \(\eta_\text{Ent}=\frac{n}{\beta_n}-1=6\alpha-1\)。为了让整个文章更严谨,我们需要说明三个问题:

  1. 第一个问题是,我们使用 \(\alpha\) 同时表示 \(1-\frac{\lambda}{\lambda_c}\) 的值和局部方差收缩的程度,应该使用另外一个字母。
  2. 第二个问题是,我们没有说明对于全局分布 \(\mu\) 成立的性质对于每个有 pinning 的分布 \(\mu^\tau\) 也成立(只需自归约性)。
  3. 第三个问题是,我们需要说明存在两个常数 \(A,c\) 使得 \(C_\textsf{PI}(\ell)\leq A\cdot c^\ell\) 总是成立(此外还有 Log-Sobolev 类比)。

10

变形 Log-Sobolev 不等式 \(\Rightarrow\) 快速拌和

我们直接计算

\[D_\text{KL}\big(\nu\textsf{P}\,\big\|\,\mu\big)=D_\text{KL}\Bigg(\frac{1}{n}\sum_{i\in[n]}\nu\textsf{P}_i\,\Bigg\|\,\mu\Bigg)\leq\frac{1}{n}\sum_{i\in[n]}D_\text{KL}\big(\nu\textsf{P}_i\,\big\|\,\mu\big)=\frac{1}{n}\sum_{i\in[n]}\text{Ent}_\mu\big(\textsf{P}_if\big)\\ =\frac{1}{n}\sum_{i\in[n]}\text{Ent}_{\sigma\sim\mu_{[n]\setminus\{i\}}}\big(\mathbb{E}_{\mu^{\sigma}}[f]\big)=\frac{1}{n}\sum_{i\in[n]}\Big(\text{Ent}_\mu(f)-\mathbb{E}_{\sigma\sim\mu_{[n]\setminus\{i\}}}\big[\text{Ent}_{\mu^\sigma}(f)\big]\Big)=E^{(0)}(f)-E^{(n-1)}(f) \]

由于 \(E^{(n-1)}(f)\geq\varrho\cdot E^{(0)}(f)\) 总是成立,我们得到 \(D_\text{KL}\big(\nu\textsf{P}^t\,\big\|\,\mu\big)\leq e^{-\varrho t}\cdot D_\text{KL}\big(\nu\,\big\|\,\mu\big)\)​。

Pinsker 不等式的证明

我们想要证明 \(\big\|\nu-\mu\big\|_\textsf{TD}\leq\sqrt{\frac{1}{2}D_\text{KL}\big(\nu\,\big\|\,\mu\big)}\)

假设 \(A=\big\{x:\nu(x)\geq\mu(x)\big\}\)\(s=\nu(A)\)\(t=\mu(A)\)。那么 \(\big\|\nu-\mu\big\|_\textsf{TD}=s-t\)。根据数据处理不等式,

\[D_\text{KL}\big(\nu\,\big\|\,\mu\big)\geq D_\text{KL}\big((s,1-s)\,\big\|\,(t,1-t)\big)=s\ln\frac{s}{t}+(1-s)\ln\frac{1-s}{1-t}\geq2(s-t)^2 \]

最后一个不等号成立的原因:固定 \(t\),定义函数 \(h(u)=\Big(u\ln\frac{u}{t}+(1-u)\ln\frac{1-u}{1-t}\Big)-2(u-t)^2\)。我们计算 \(h''(u)=\frac{1}{u(1-u)}-4\geq0\),因此 \(h\) 是下凸的。又注意到 \(h(t)=h'(t)=0\),因此 \(h\)\(u=t\) 处取到最小值 \(0\)

Poincaré 不等式 \(\Rightarrow\) 快速拌和

我们直接计算

\[D_{\chi^2}\big(\nu\textsf{P}\,\big\|\,\mu\big)=D_{\chi^2}\Bigg(\frac{1}{n}\sum_{i\in[n]}\nu\textsf{P}_i\,\Bigg\|\,\mu\Bigg)\leq\frac{1}{n}\sum_{i\in[n]}D_{\chi^2}\big(\nu\textsf{P}_i\,\big\|\,\mu\big)=\frac{1}{n}\sum_{i\in[n]}\text{Var}_\mu\big(\textsf{P}_if\big)\\ =\frac{1}{n}\sum_{i\in[n]}\text{Var}_{\sigma\sim\mu_{[n]\setminus\{i\}}}\big(\mathbb{E}_{\mu^{\sigma}}[f]\big)=\frac{1}{n}\sum_{i\in[n]}\Big(\text{Var}_\mu(f)-\mathbb{E}_{\sigma\sim\mu_{[n]\setminus\{i\}}}\big[\text{Var}_{\mu^\sigma}(f)\big]\Big)=V^{(0)}(f)-V^{(n-1)}(f) \]

由于 \(V^{(n-1)}(f)\geq\gamma\cdot V^{(0)}(f)\) 总是成立,我们得到 \(D_{\chi^2}\big(\nu\textsf{P}^t\,\big\|\,\mu\big)\leq e^{-\gamma t}\cdot D_{\chi^2}\big(\nu\,\big\|\,\mu\big)\)

我们想要证明 \(\big\|\nu-\mu\big\|_\textsf{TD}^2\leq\frac{1}{2}\sqrt{D_{\chi^2}\big(\nu\,\big\|\,\mu\big)}\)

根据柯西不等式,\(\big\|\nu-\mu\big\|_\textsf{TD}=\frac{1}{2}\mathbb{E}_\mu\big[\big|f-\mathbf{1}\big|\big]\leq\frac{1}{2}\sqrt{\mathbb{E}_\mu\big[(f-\mathbf{1})^2\big]}=\frac{1}{2}\sqrt{D_{\chi^2}\big(\nu\,\big\|\,\mu\big)}\)

Poincaré 不等式 \(\Rightarrow\) 快速拌和(直接思路)

初始分布:\(\nu_0\)。密度函数:\(f_0=\frac{\nu_0}{\mu}\)。那么 \(\mathbb{E}_\mu[f_0]=1\)。经过 \(t\) 步迭代以后的分布 \(\nu_t=\nu_0\textsf{P}^t\),密度函数 \(f_t=\textsf{P}^tf_0\)

我们分解:\(f_0=\sum_{i\geq1}a_i\varphi_i\),计算 \(f_t=\textsf{P}^tf_0=\sum_{i\geq1}\lambda_i^ta_i\varphi_i\)。我们证明

\[\big\|f_t-\mathbf{1}\big\|_{2,\mu}^2=\left\langle\sum_{i\geq2}\lambda_i^ta_i\varphi_i,\sum_{j\geq2}\lambda_j^ta_j\varphi_j\right\rangle_\mu=\sum_{i\geq2}\lambda_i^{2t}a_i^2\leq\big(\lambda_*\big)^{2t}\big\|f_0-\mathbf{1}\big\|_{2,\mu}^2 \]

因此 \(\big\|f_t-\mathbf{1}\big\|_{2,\mu}\leq\big(\lambda_*\big)^t\big\|f_0-\mathbf{1}\big\|_{2,\mu}=\big(\lambda_*\big)^t\sqrt{\frac{1-\mu(x_\text{init})}{\mu(x_\text{init})}}\)。根据柯西不等式

\[\big\|\nu\textsf{P}^t-\mu\big\|_\textsf{TD}=\frac{1}{2}\sum_{x\in\Omega}\mu(x)\big|f_t(x)-1\big|\leq\frac{1}{2}\sqrt{\sum_{x\in\Omega}\mu(x)\big(f_t(x)-1\big)^2}=\frac{1}{2}\big\|f_t-\mathbf{1}\big\|_{2,\mu} \]

综上所述,\(\big\|\nu\textsf{P}^t-\mu\big\|_\textsf{TD}\leq\frac{1}{2}\big(\lambda_*\big)^t\sqrt{\frac{1}{\mu(x_\text{init})}}\leq\frac{1}{2}e^{-\gamma_*t}\sqrt{\frac{1}{\mu(x_\text{init})}}\),因此 \(\text{T}_\text{mix}(\varepsilon)\leq\frac{1}{\gamma_*(\textsf{P})}\left(\frac{1}{2}\,\ln\frac{1}{\mu(x_\text{init})}+\ln\frac{1}{2\varepsilon}\right)\)

11

我们证明当 \(\lambda<\frac{1}{\Delta-1}\) 的时候 Glauber 过程的拌和时间有上界 \(O\big(n\log n+n\log\varepsilon^{-1}\big)\)

考虑两个相邻状态 \(\sigma_0,\sigma_1\),除了在 \(i\) 这个点上一个 \(0\) 一个 \(1\)​ 以外,它们对于其他点的映射都相同。

对于总方差定理/总熵定理的处理方式:用到的时候,证明那个具体的式子。而不是抽象的证明总方差定理/总熵定理。

对于 Dobrushin Path Coupling 的处理方式:只描述结论即可。

我们还需要说明一个事情:Heat-Bath Glauber 过程就是每次找一个点,然后让它按照 \(\mu\) 的 marginal distribution 来重定。这个过程本身就是一个对 \(\mu\) 时间可逆的 Markov Chain。(就是要说明重定视角 = Markov Chain 视角。)


我们想要求出一个数列 \(C_\textsf{PI}(k)\),使得对于任意子集 \(S\subseteq[n]\) 满足 \(|S|=k\),以及任意一个可能出现的状态 \(\tau:[n]\setminus S\to\{0,1\}\),都满足对于任意全局函数 \(f:\{0,1\}^n\to\mathbb{R}\),我们的

\[\text{Var}_{\mu^\tau}\big(f\big)\leq C_\textsf{PI}(k)\cdot\mathbb{E}_{i\sim S}\Big[\mathbb{E}_{\sigma\sim\mu^\tau_{S\setminus\{i\}}}\Big[\text{Var}_{\mu^{\tau\sqcup\sigma}}\big(f\big)\Big]\Big] \]

根据自相似性,我们只需要考虑 \(S=\varnothing\) 的情况(但是图上可能会存在钦定为白的结点)。

如果 \(f\) 是常函数的话,那么左右两边都 \(=0\)。那么 \(C_\textsf{PI}(n)\) 填入多少都是成立的(因为 \(0\leq c\cdot0\)),不会因此出现矛盾。

如果 \(f\) 不是常函数的话,那么左右两边都 \(\neq0\)。我们写成 \(\text{Var}_\mu(f)\leq C_\textsf{PI}(n)\cdot\mathfrak{D}(f,f)\) 的形式,然后用状态图的视角:存在一个 \(\mu_\min>0\) 使得对于所有状态 \(x\) 都满足 \(\mu(x)\in\{0\}\cup\big[\mu_\min,1\big]\)

对于一对相邻状态 \(x,y\),我们有 \(w(x,y)=\frac{1}{n}\cdot\frac{\mu(x)\mu(y)}{\mu(x)+\mu(y)}\geq\frac{1}{n}\cdot\frac{\mu_\min}{2}=\frac{\mu_\min}{2n}\)。由于状态图是连通的,因此 \(\Phi\geq\frac{\mu_\min}{n}\)。最后根据 Cheeger 不等式,我们得到 \(\gamma\geq\frac{1}{2}\Phi^2=\frac{(\mu_\min)^2}{2n^2}\),因此 \(C_\textsf{PI}(n)\) 填入 \(\frac{2n^2}{(\mu_\min)^2}\) 即可。


\(f:\Omega\to\mathbb{R}_{>0}\) 满足 \(\mathbb{E}_\mu[f]=1\)。令 \(h=\sqrt f\),那么 \(\mathbb{E}_\mu[h^2]=1\)。令 \(\delta=h-\mathbf{1}\)。令 \(\mu_\min=\min_{x\in\Omega}\mu(x)\)

我们有 \(\text{Ent}_\mu(f)=\mathbb{E}_\mu[f\log f]=2\,\mathbb{E}_\mu[h^2\ln h]\)。对函数 \(I(x)=x^2\ln x\)\(1\) 处使用(带拉格朗日余项的)泰勒展开,可得存在一个函数 \(\theta\) 满足 \(0\leq\theta(x)\leq1\) 总是成立,并且 \(I(1+\delta)=I(1)+I'(1)\cdot\delta+\tfrac12I''(1+\theta\delta)\cdot\delta^2\)

注意到 \(I'(x)=2x\ln x+x\)\(I''(x)=2\ln x+3\),因此 \(I(1)=0\)\(I'(1)=1\)。故而 \(I(1+\delta)=\delta+\left(\ln(1+\theta\delta)+\tfrac{3}{2}\right)\cdot\delta^2\)。再使用 \(\mathbb{E}_\mu[h^2]=\mathbb{E}_\mu[(1+\delta)^2]=1+2\,\mathbb{E}_\mu[\delta]+\mathbb{E}_\mu[\delta^2]=1\),可得

\[\text{Ent}_\mu(f)=2\,\mathbb{E}_\mu[I(1+\delta)]=2\,\mathbb{E}_\mu[\delta]+\mathbb{E}_\mu\left[\left(2\ln(1+\theta\delta)+3\right)\cdot\delta^2\right]=2\,\mathbb{E}_\mu\left[\left(\ln(1+\theta\delta)+1\right)\cdot\delta^2\right] \]

但是 \(1+\theta(x)\delta(x)\leq\max\big\{1,1+\delta(x)\big\}=\max\big\{1,h(x)\big\}\leq\frac{1}{\sqrt{\mu_\min}}\),同时 \(\delta(x)^2\geq0\),所以 \(\text{Ent}_\mu(f)\leq\left(\ln\left(\frac{1}{\mu_\min}\right)+2\right)\cdot\mathbb{E}_\mu[\delta^2]\)。我们接下来证明 \(\mathbb{E}_\mu[\delta^2]\leq2\,\text{Var}_\mu(h)\),这是因为

\[\mathbb{E}_\mu[\delta^2]=\mathbb{E}_\mu[h^2]-2\,\mathbb{E}_\mu[h]+1=2\big(1-\mathbb{E}_\mu[h]\big),\quad\text{Var}_\mu(h)=\mathbb{E}_\mu[h^2]-\mathbb{E}_\mu[h]^2=\big(1-\mathbb{E}_\mu[h]\big)\big(1+\mathbb{E}_\mu[h]\big) \]

综上所述,\(\text{Ent}_\mu(f)\leq2\left(\ln\left(\frac{1}{\mu_\min}\right)+2\right)\cdot\text{Var}_\mu\left(\sqrt{f}\right)\ \boldsymbol{(1)}\)


\(\sqrt f\) 使用 Poincaré 不等式可得 \(\gamma\cdot\text{Var}_\mu\left(\sqrt{f}\right)\leq\mathfrak{D}\left(\sqrt{f},\sqrt{f}\right)\ \boldsymbol{(2)}\),注意到 \(C_\textsf{PI}(n)=\gamma^{-1}=\frac{2n^2}{(\mu_\min)^2}\)

最后我们需要证明 \(4\,\mathfrak{D}\left(\sqrt f,\sqrt f\right)\leq\mathfrak{D}\big(f,\ln f\big)\ \boldsymbol{(3)}\)。这样把 \(\boldsymbol{(1)}\boldsymbol{(2)}\boldsymbol{(3)}\) 串在一起,我们得到

\[C_\textsf{mLSI}(n)=\frac{1}{2}\left(\ln\left(\tfrac{1}{\mu_\min}\right)+2\right)\cdot C_\textsf{PI}(n)=\frac{n^2\left(\ln\left(\frac{1}{\mu_\min}\right)+2\right)}{(\mu_\min)^2} \]

直接比对每条边的贡献,我们需要证明 \((u-v)(\ln u-\ln v)\geq4\big(\sqrt u-\sqrt v\big)^2\) 对于任意实数 \(u,v>0\) 成立。

假设 \(r=\sqrt{\frac uv}\)。两边同时除以 \(v\) 可转化为 \((r^2-1)\ln r\geq2(r-1)^2\ \boldsymbol{(*)}\)。这等价于函数 \(h(r)=\ln r-2\cdot\frac{r-1}{r+1}\)\(0\leq r\leq1\)\(\leq0\),在 \(r\geq1\)\(\geq0\)。直接计算 \(h'(r)=\frac{(r-1)^2}{r(r+1)^2}\geq0\),因此 \(h\) 单调递增。最后检查 \(h(1)=0\) 即可。

综上所述,如果存在 \(c>1\) 满足 \(\mu_\min(n)\geq c^{-n}\),我们可以填入 \(C_\textsf{PI}(n)=2n^2c^{2n}\)\(C_\textsf{mLSI}(n)=n^2\big(n\ln c+2\big)c^{2n}\)


posted @ 2025-11-16 16:02  叶语星辰  阅读(16)  评论(0)    收藏  举报