Chapter12 12.1 Distinguishing quantum states and the accessible information &12.2 Data compression

2025-04-14 15:32:26 星期一

Von Neumann熵的补充

上次讨论班还有一些量子熵的知识没有补充，在开始量子信息论之前，我们再补充三个有用的定理。

回顾最重要的von Neumann熵的强次可加性。

定理 (von Neumann熵的强次可加性)
对于由三个系统 \(A\), \(B\), \(C\) 复合而成的系统 \(ABC\) 上的密度矩阵 \(\rho^{ABC}\)，有如下不等式成立：

\[S\left(\rho^{A}\right)+S\left(\rho^{B}\right) \leqslant S\left(\rho^{AC}\right)+S\left(\rho^{BC}\right) \]

其中 \(\rho^{A}\), \(\rho^{AC}\) 等都是 \(\rho^{ABC}\) 的约化密度矩阵

定理 (更多的条件进一步减少熵)
对于三体复合系统 \(ABC\) 上的密度矩阵 \(\rho^{ABC}\)，有

\[S(\rho^A \mid \rho^{BC}) \leq S(\rho^A \mid \rho^B) \]

其中各密度矩阵都是 \(\rho^{ABC}\) 的约化密度矩阵。

证明

\[S(\rho^{ABC}) + S(\rho^B) \leq S(\rho^{AB}) + S(\rho^{BC}) \Rightarrow S(\rho^{ABC}) - S(\rho^{BC}) \leq S(\rho^{AB}) - S(\rho^B) \]

\[\Rightarrow S(\rho^A \mid \rho^{BC}) \leq S(\rho^A \mid \rho^B) \]

定理 (丢弃量子系统不会增加互信息)
对于三体复合系统 \(ABC\) 上的密度矩阵 \(\rho^{ABC}\)，有

\[S(\rho^{A}; \rho^{B}) \leq S(\rho^{A}; \rho^{BC}) \]

其中各密度矩阵都是 \(\rho^{ABC}\) 的约化密度矩阵。

证明

\[S(\rho^{ABC}) + S(\rho^{B}) \leq S(\rho^{AB}) + S(\rho^{BC}) \]

\[\Rightarrow S(\rho^{A}) + S(\rho^{B}) - S(\rho^{AB}) \leq S(\rho^{A}) + S(\rho^{BC}) - S(\rho^{ABC}) \]

\[\Rightarrow S(\rho^{A}: \rho^{B}) \leq S(\rho^{A}: \rho^{BC}) \]

定理 (针对子系统的保迹量子操作不会增加互信息)
用 \(\rho^{AB'}\) 标记 \(\rho^{AB}\) 作用了针对系统 \(B\) 的保迹量子操作后的密度矩阵，则有

\[S(\rho^{A'} ; \rho^{B'}) \leq S(\rho^{A} ; \rho^{B}) \]

其中 \(\rho^{A'}, \rho^{B'}\) 是 \(\rho^{AB'}\) 的约化密度矩阵。

证明
首先需要明确 \(\rho^{AB'}\) 是什么。

引入环境 \(E\) 及其初态 \(|\psi^E\rangle\)，并定义复合系统 \(ABE\) 上的密度矩阵 \(\rho^{ABE}\)：

\[\rho^{ABE} = \rho^{AB} \otimes |\psi^E\rangle\langle \psi^E| \]

作用一个 \(BE\) 系统上的酉操作 \(U_{BE}\) 后得到：

\[\rho^{ABE'} = (I_A \otimes U_{BE}) \rho^{ABE} (I_A \otimes U_{BE})^{\dagger} \]

最后把环境系统 \(E\) 求偏迹丢掉，就得到了 \(\rho^{AB'}\)：

\[\rho^{AB'} = \mathrm{Tr}_E(\rho^{ABE'}) \]

根据定理1，有

\[S(\rho^{A'} ; \rho^{B'}) \leq S(\rho^{A'} ; \rho^{B''}) \]

接下来将证明 \(S(\rho^{A'} ; \rho^{BE'}) = S(\rho^{A'} ; \rho^{B})\)，分为两步：

证明 \(S(\rho^{A} ; \rho^{B}) = S(\rho^{A} ; \rho^{BE})\)；
证明 \(S(\rho^{A} ; \rho^{BE}) = S(\rho^{A'} ; \rho^{BE'})\)。

\[\rho^{BE} = \mathrm{Tr}_A(\rho^{ABE}) = \rho^B \otimes |\psi^E\rangle\langle \psi^E| \Rightarrow S(\rho^{BE}) = S(\rho^B) \]

因此，

\[S(\rho^{A} : \rho^{BE}) = S(\rho^{A}) + S(\rho^B) - S(\rho^{AB}) = S(\rho^{A} : \rho^B) \]

根据定义：

\[S(\rho^{A'} ; \rho^{BE'}) = S(\rho^{A'}) + S(\rho^{BE'}) - S(\rho^{ABE'}) \]

由于酉变换不改变von Neumann熵，\(S(\rho^{ABE'}) = S(\rho^{ABE})\)。

设 \(\{|h_j^B\rangle\}, \{|g_k^E\rangle\}\) 分别是系统 \(B, E\) 的标准正交基，计算如下：

\[\begin{aligned} \rho^{A'} &= \mathrm{Tr}_{BE}(\rho^{ABE'}) \\ &= \sum_{j}\sum_{k}(I_A \otimes \langle h_j^B| \langle g_k^E|) \rho^{ABE'} (I_A \otimes |h_j^B\rangle |g_k^E\rangle) \\ &= \sum_{j}\sum_{k}(I_A \otimes \langle h_j^B| \langle g_k^E| U_{BE}) \rho^{ABE} (I_A \otimes U_{BE}^{\dagger} |h_j^B\rangle |g_k^E\rangle) \\ &= \mathrm{Tr}_{BE}(\rho^{ABE}) = \rho^A \end{aligned} \]

倒数第二步成立是因为 \(\{U_{BE}^\dagger |h_j^B\rangle |g_k^E\rangle\}\) 也构成 \(BE\) 的一组正交基。

故 \(S(\rho^{A'}) = S(\rho^A)\)。

此外，

\[\begin{aligned} \rho^{BE'} &= \mathrm{Tr}_A(\rho^{ABE'}) \\ &= \sum_i (\langle e_i^A| \otimes I_{BE}) \rho^{ABE'} (|e_i^A\rangle \otimes I_{BE}) \\ &= \sum_i (\langle e_i^A| \otimes U_{BE}) \rho^{ABE} (|e_i^A\rangle \otimes U_{BE}^\dagger) \\ &= U_{BE} \rho^{BE} U_{BE}^\dagger \end{aligned} \]

故 \(S(\rho^{BE'}) = S(\rho^{BE})\)。

综上各式可得：

\[S(\rho^{A'} ; \rho^{BE'}) = S(\rho^A ; \rho^{BE}) \]

经典信息论回顾

引子

前面我们介绍了香农熵的概念。除了数学上的"直觉"，在实际信息处理中，这样的度量又有怎样的操作含义？为了回答这一问题，我们考虑这样一个通信情景。甲希望通过一个比特信道向乙传送信息。假设甲的信息源会随机地从字母表\(\{a,b,c,d\}\)中按照下面的概率分布选出一个字符：

\[\Pr(a)=\frac{1}{2},\quad\Pr(b)=\frac{1}{8},\quad\Pr(c)=\frac{1}{4},\quad\Pr(d)=\frac{1}{8} \]

对于二进制通信任务，它只能接收比特，即它不能将字符 \(a\),\(b\),\(c\),\(d\) 直接作为输入。为此甲需要将要传送的字符串编码为比特串。甲可以用下面的编码方式：

\[a \to 00,\quad b \to 01,\quad c \to 10,\quad d \to 11 \]

这是一个定长编码，码字(code word)长度总是2个比特。除此之外，还有一种编码方案：

\[a \to 0,\quad b \to 110,\quad c \to 10,\quad d \to 111 \]

期望上，这个编码方案的平均码字长度为

\[\frac{1}{2}\times 1+\frac{1}{8}\times 3+\frac{1}{4}\times 2+\frac{1}{8}\times 3=\frac{7}{4} \]

假如这个通信任务重复许多次，并且每次信息源都是按照上述概率分布独立同分布(independently and identically distributed, i.i.d.)地发出信息，那么很明显，第二种方案大概率会节省通信所需发送的比特数。我们可以直观地看出，这一编码方案的优点是通信所需的比特数的减少是因为用较短的码字编码频繁出现的字符，而用较长的码字编码较少出现的字符。而这一定义的平均信息量与香农熵有什么样的关系呢？按照香农熵的定义，

\[H(X)=-\frac{1}{2}\log_2\frac{1}{2}-\frac{1}{8}\log_28-\frac{1}{4}\log_24-\frac{1}{8}\log_28=\frac{7}{4} \]

正好是前面的计算结果。这一结果是巧合吗？还是有更为本质的原因？

香农对无噪声信道编码问题进行了严格的讨论，并得到了信源编码定理(Shannon's source coding theorem)。这一理论指出，对于独立同分布的一串随机变量，在渐进极限下(即随机变量数量趋于无穷时)，如果对这些随机变量所含的数据进行压缩，压缩编码率(即平均每个字符所需的编码比特数)不可能少于信息源所产生的随机变量的香农熵，否则必然会导致信息丢失。另外，一定存在编码方案，使得在对足够多的随机变量进行编码时，编码率任意接近于香农熵。

香农熵的操作含义体现在一个具体的编码方案中。考虑二元随机变量\(X\in\) \(\{0,1\}\),以及相应的比特串\(X^n\in\{0,1\}^n\),其中对任意\(i\in[n]\),第\(i\)个二元随机变量\(X_i\)是服从下面概率分布的独立同分布随机变量：

\[\begin{cases}\Pr(X_i=1)=p\\[2ex]\Pr(X_i=0)=1-p\end{cases} \]

其中，\(p\in[0,1]\)。我们希望将比特串\(X^n\)如实存储，即制备一个足够大的内存。如果不希望产生任何差错，显然我们需要将\(X^n\)的每一个比特都进行记录，因此内存大小至少是\(n\)比特。但在实际应用中，通常我们会允许一个足够小的可以忽略的失败概率。在这一前提下，我们注意到下面的事实。所有的\(n\)比特字符串构成一个\(2^n\)维空间，但在\(p\neq0.5\)时，有些比特串相比于其他比特串的出现概率明显要低。为了清晰地说明这一事实，我们考虑\(p<0.5,n\gg1\)时，对于可能出现的字符串\(0^n\)和\(1^n\),

\[\frac{\Pr(X=0^n)}{\Pr(X=1^n)}=\frac{(1-p)^n}{p^n}\gg1 \]

受到这一发现的启发，可以想象这样一个编码存储方案：我们只存储更可能发生的比特串，而忽略掉那些几乎不会出现的比特串。将这样的想法严格表述出来，我们可以定义 \(\epsilon\)-最小概然集合/典型集的概念。

定义 (\(\varepsilon\)-最小概然集合)
给定 \(0 \leq \varepsilon < \frac{1}{2}\) 和服从概率分布 \(p_X\) 的有限值随机变量 \(X \in \mathcal{X}\)，其中样本空间 \(\mathcal{X}\) 有界，\(|\mathcal{X}| < \infty\)。随机变量 \(X\) 的 \(\varepsilon\)-最小概率集合定义为样本空间的子集 \(T_X^\varepsilon \subseteq \mathcal{X}\)，使得在一次随机试验中，\(X\) 的取值以不超过 \(\varepsilon\) 的失败概率落在该集合中，

\[T_X^\varepsilon = \arg \min_{S} |S|, \]

s.t. \(\Pr(X \in S) \geqslant 1-\varepsilon\)

香农无噪声信源压缩定理

本节主要叙述经典信息论的重要结论与证明。

假设\(X_1,X_2,\cdots\)是一个独立同分布信源。给定\(\epsilon>0\),如果

\[2^{-n(H(X)+\epsilon)}\leqslant p(x_1,\cdots,x_n)\leqslant2^{-n(H(X)-\epsilon)} \]

我们说源的一串符号\(x_1,x_2\cdots,x_n\)是\(\epsilon\)典型的。用\(T(n,\epsilon)\)表示所有长度为\(n\)的\(\epsilon\)典型序列的集合。等价定义是

\[\left| \frac{1}{n} \log_2 \frac{1}{p(x_1, \cdots, x_n)} - H(X) \right| \leqslant \epsilon \]

下面给出典型序列定理。

定理

固定 \(\varepsilon > 0\)，对于任意 \(\delta > 0\)，当 \(n\) 充分大时，一个序列为 \(\varepsilon\) 典型的概率至少为 \(1 - \delta\)。
对于任意固定的 \(\varepsilon > 0\) 和 \(\delta > 0\)，当 \(n\) 充分大时，\(\varepsilon\) 典型序列的个数 \(|T(n,\varepsilon)|\) 满足：

\[(1 - \delta)2^{n(H(X)-\varepsilon)} \leq |T(n,\varepsilon)| \leq 2^{n(H(X)+\varepsilon)} \]

令 \(S(n)\) 为由信源产生的长度为 \(n\) 的一些序列的集合，集合内元素个数至多为 \(2^{nR}\)，其中 \(R < H(X)\) 固定。对于任意 \(\delta > 0\)，当 \(n\) 充分大时，

\[\sum_{x \in S(n)} p(x) \leq \delta \]

证明
第一条性质，利用大数定律，由于\(-\log_2 p(X_i)\)是独立同分布的随机变量，由大数定律，对于任意的\(\epsilon >0\)和\(\delta>0\), \(n\)充分大的时候，有

\[P\left( \left| \sum_{i=1}^n \frac{-\log_2 p(X_i)}{n} -E(-\log_2 p(X)) \right| \le \epsilon \right) \ge 1-\delta \]

而\(E(-\log_2 p(X))=H(X)\), 且\(\sum_i \log_2 p(X_i)=\log_2 p(X_1, \cdots X_n)\), 因此

\[P\left( \left| \frac{1}{n}\log_2 p(X_1, \cdots X_n) -H(X) \right| \le \epsilon \right) \ge 1-\delta \]

这表明，一个序列为\(\epsilon\)典型序列的概率至少为\(1-\delta\)。

第二条性质，由典型序列的定义，注意到所有典型序列出现的概率和在\(1-\delta\)和1之间：

\[1\ge \sum_{x \in T(n,\epsilon)} p(x) \ge \sum_{x\in T(n,\epsilon)} 2^{-n(H(X)+\epsilon)} =| T(n,\epsilon)| 2^{-n(H(X)+\epsilon)} \]

于是可以得到\(| T(n,\epsilon)| \le 2^{n(H(X)+\epsilon)}\), 另外

\[1-\delta \le \sum_{x \in T(n,\epsilon)} p(x) \le \sum_{x \in T(n,\epsilon)}2^{-n(H(X)-\epsilon)}=| T(n,\epsilon)|2^{-n(H(X)-\epsilon)} \]

对于第三条性质，由于\(R <H(X)\), 可以选择\(\epsilon>0\)使得\(R+\epsilon <H(X)\). 我们把\(S(n)\)分成典型集和非典型集。对于非典型集，由性质1，对于任意的\(\delta>0\), 对于充分大的\(n\), 可以使非典型集的概率小于\(\delta/2\)。由于\(S(n)\)总数小于等于\(2^{nR}\), 每个典型序列出现的概率至多为\(2^{-n(H(X)-\epsilon)}\), 那么典型序列概率至多为\(2^{-n(H(X)-\epsilon -R)}\to 0(n\to \infty )\)。

定理
假设\(\{X_i\}\)是熵率为\(H(X)\)的独立同分布信源，若\(R>H(X)\),则存在对源的压缩率为\(R\)的可靠压缩方案；反之，若\(R<H(X)\),则任何压缩方案都是不可靠的。

证明
对于\(R>H(X)\), 固定一个很小的\(\epsilon\)使得\(R>H(X)+\epsilon\), 而典型集满足\(|T(n,\epsilon)| \le 2^{n(H(X)+\epsilon)}<2^{nR}\)。下面考虑编码方案:

若该序列是典型序列，由于\(|T(n,\epsilon)|<2^{nR}\), 我们可以为每个典型序列分配一个唯一的编号（无损还原）编号需要的比特数\(\log_2|T(n,\epsilon)|<nR\), 可以用\(nR\)位二进制数表示。
若该序列不是典型序列，直接放弃压缩，输出一个固定的错误标志，例如全0序列。

由于非典型序列出现的概率很小，因此编码失败的概率也很小。

当\(R< H(X)\)时，由于\(nR\)个比特最多表示\(2^{nR}\)个不同序列，由典型序列定理的第三条，对于\(R<H(X)\), 一个序列由大小为\(2^{nR}\)的序列子集中的信源输出的概率趋近于0，也就是压缩方案能正确处理的概率近乎为0，该方案不可靠。

Schumacher 量子无噪声信道编码定理

在经典信息论中，我们知道了香农熵是信源压缩问题中的渐近最优压缩率，现在我们需要讨论量子版本的信源压缩问题。

首先我们需要明确什么是“量子编码”。甲乙为通信双方，共享了很多份无噪声量子信道，可以如实地传输空间 \(\mathcal{H}\) 上的所有量子态。现在甲希望向乙传输 \(n\) 份量子态，每一份量子态都是从同一个集合 \(\{\rho_x| \rho_x \in D(\mathcal{H}) \}_x\) 中按照独立同分布原则进行选取的，对应概率记为 \(p_X\)。从乙的角度看，在进行任何操作或者收到甲的额外信息之前，每份量子态都是由下面的混合态描述的：

\[\rho =\sum_x p_x \rho_x \]

由于无噪声信道的成本高，我们希望用尽可能少的无噪声信道完成这一传输，为此，我们进行如下操作：

甲将 \(n\) 份量子态 \(\rho^{\otimes n} = \rho \otimes \cdots \otimes \rho\)（即 \(n\) 个一样的 \(\rho\) 做张量积）经过编码信道 \(\mathcal{E}\)，得到作用于空间 \(\mathcal{H}^{\otimes nR}\) 的一个量子态 \(\mathcal{C}(\rho^{\otimes n}) \in L(\mathcal{H}^{nR})\)，其中 \(0 \le R \le 1\)。可以简单认为 \(nR\) 是整数。
甲将联合量子态通过 \(nR\) 个无噪声的量子信道传输给乙（因为 \(\mathcal{H}^{nR}\) 的维数为 \(2^{nR}\)，需要 \(nR\) 个量子系统承载）。
乙在收到量子态后，将其经过解码信道 \(\mathcal{D}\)，得到量子态 \(\hat{\rho} = \mathcal{D} \circ \mathcal{C}(\rho^{\otimes n})\)。

一般而言，我们得到的量子态和原先的可能不一样，我们可以用纠缠保真度度量：

\[F(\rho^{\otimes n}, \mathcal{D}\circ \mathcal{C}) \ge 1 - \delta \tag{1} \]

纠缠保真度趋近于 1，则表示可靠性越高。

补充：对于纠缠保真度，一个等价表达是（当 \(\rho\) 是混态）：

\[F_e(\rho,\mathcal{E}) = \sum_k |\mathrm{Tr}(\rho E_k)|^2 \]

其中 \(\{E_k\}\) 是 \(\mathcal{E}\) 的 Kraus 表示。

由此，我们定义量子编码问题中的渐近压缩率：对任意失败概率 \(\varepsilon > 0\)，如果存在足够大的 \(n\)，可以找到合适的编码和解码信道，用不超过 \(nR\) 份无噪声信道对量子态进行压缩传输，使得最终的量子态与初态的迹距离不超过 \(\varepsilon\)，那么称在渐近极限或者无限数据大小极限下，由 \(\{\rho_x\}_x\) 描述的量子信息源可以达到压缩率 \(R\)。也可以用数学语言来表达，\(\forall \varepsilon > 0\)，可以找到 \(n \geq 1\)，

\[\begin{cases} \mathcal{C}: \mathcal{L}(\mathcal{H}^n) \mapsto \mathcal{L}(\mathcal{H}^{nR}) \\[2ex] \mathcal{D}: \mathcal{L}(\mathcal{H}^{nR}) \mapsto \mathcal{L}(\mathcal{H}^n) \end{cases} \]

使得式 (1) 成立。

为了证明本节最重要的定理，我们需要做一些准备工作——典型序列的量子版本。假设与量子信源相关联的密度算子 \(\rho\) 有正交分解：

\[\rho = \sum_x p_x |x \rangle \langle x| \]

其中 \(\{|x \rangle\}\) 是正交集，\(H(p(x)) = S(\rho)\)。因此谈论一个 \(\epsilon\) 典型序列 \(x_1, \cdots, x_n\) 时有如下结论：

\[\left| \frac{1}{n} \log\left( \frac{1}{p(x_1)p(x_2)\cdots p(x_n)} \right) - S(\rho) \right| \le \epsilon \]

与经典版本的定义完全相同，一个 \(\epsilon\) 典型态为一个 \(\epsilon\) 典型序列 \(x_1, \cdots, x_n\) 对应的态 \(|x_1\rangle, \cdots, |x_n\rangle\)，定义 \(\epsilon\) 子空间为：由所有的 \(\epsilon\) 典型态张成的空间，记为 \(T(n, \epsilon)\)。用 \(P(n,\epsilon)\) 表示到典型子空间上的投影算子，表达式为：

\[P(n,\epsilon) = \sum_{x \text{为} \epsilon \text{典型态}} |x_1\rangle\langle x_1| \otimes |x_2\rangle\langle x_2| \otimes \cdots \otimes |x_n\rangle\langle x_n| \]

下面给出典型序列定理的量子版本：

定理

固定 \(\epsilon > 0\)，对于任意 \(\delta > 0\)，当 \(n\) 充分大时，

\[\operatorname{tr}(P(n,\epsilon)\rho^{\otimes n}) \geq 1 - \delta \]
对于任意固定的 \(\epsilon > 0\) 和 \(\delta > 0\)，当 \(n\) 充分大时，\(\epsilon\)-典型子空间 \(T(n,\epsilon)\) 的维数 \(|T(n,\epsilon)| = \operatorname{tr}(P(n,\epsilon))\) 满足

\[(1 - \delta) 2^{n(S(\rho) - \epsilon)} \leq |T(n,\epsilon)| \leq 2^{n(S(\rho) + \epsilon)} \]
令 \(S(n)\) 为到 \(\mathcal{H}^{\otimes n}\) 的维数至多为 \(2^{nR}\) 的任意子空间的投影算子，其中 \(R < S(\rho)\) 固定。对于任意 \(\delta > 0\)，当 \(n\) 充分大时，

\[\operatorname{tr}(S(n)\rho^{\otimes n}) \leq \delta \]

证明

直接计算：

\[\rho = \sum_x p_x |x\rangle \langle x| \\ \rho^{\otimes n} = \sum_{x^n} p(x^n) \left( \bigotimes_{i=1}^n |x_i\rangle \langle x_i| \right) \]
\[P(n,\epsilon) = \sum_{x^n \in T_\epsilon^{(n)}} \bigotimes_{i=1}^n |x_i\rangle \langle x_i| \]
\[\operatorname{tr}(P(n,\epsilon)\rho^{\otimes n}) = \sum_{x^n \in T_\epsilon^{(n)}} p(x^n) = \Pr[(x_1, \dots, x_n) \in T_\epsilon^{(n)}] \]
由经典典型序列定理得证。
注意到 \(|T(n,\epsilon)| = \operatorname{tr}(P(n,\epsilon))\)，由经典情况下的典型序列定理得证。
将迹分解为典型子空间与非典型子空间两部分：

\[\operatorname{tr}(S(n)\rho^{\otimes n}) = \operatorname{tr}[S(n)\rho^{\otimes n}P(n,\epsilon)] + \operatorname{tr}[S(n)\rho^{\otimes n}(I - P(n,\epsilon))] \]

先处理第一部分。
由于 \(\rho^{\otimes n}P(n,\epsilon) = P(n,\epsilon)\rho^{\otimes n}\)，那么有：

\[\rho^{\otimes n}P(n,\epsilon) = P(n,\epsilon)\rho^{\otimes n}P(n,\epsilon) \]

而根据定义，有：

\[\rho^{\otimes n}P(n,\epsilon) = \sum_{x_1, \ldots, x_n \in T^{(n)}_\epsilon} p_{x_1} \cdots p_{x_n} \left( |x_1\rangle\langle x_1| \otimes \cdots \otimes |x_n\rangle\langle x_n| \right) \]

也就是说 \(P(n,\epsilon)\rho^{\otimes n}P(n,\epsilon)\) 的特征值为 \(p_{x_1} \cdots p_{x_n}\)。

由经典的典型序列定义可知，这些特征值都不超过 \(2^{-n(S(\rho)-\epsilon)}\)，于是：

\[\operatorname{tr}\left[ S(n)P(n,\epsilon)\rho^{\otimes n}P(n,\epsilon) \right] \le 2^{nR} \cdot 2^{-n(S(\rho)-\epsilon)} \]

由于 \(R < S(\rho)\)，我们可以取一个 \(\epsilon > 0\)，使得 \(R < S(\rho) - \epsilon\)，这样随着 \(n \to \infty\)，第一部分趋于 0。

💡 说明： 上面的放缩是因为定理中的 \(S(n)\) 是到 \(\mathcal{H}^{\otimes n}\) 的维数至多为 \(2^{nR}\) 的任意子空间的投影算子，因此 \(S(n)\) 至多有 \(2^{nR}\) 个非零特征值，而投影算子的特征值只能是 0 或 1。

接下来处理第二部分。
注意 \(S(n) \le I\)。由于 \(S(n)\) 和 \(\rho^{\otimes n}(I - P(n,\epsilon))\) 都是正定算子，所以对于任意 \(\delta > 0\)，由典型子空间的第一条性质，有：

\[0 \le \operatorname{tr}\left[ S(n)\rho^{\otimes n}(I-P(n,\epsilon)) \right] \le \operatorname{tr}\left[ \rho^{\otimes n}(I-P(n,\epsilon)) \right] = 1 - \operatorname{tr}(P(n,\epsilon)\rho^{\otimes n}) \le \delta \]

这样就完成了证明.

Theorem (Schumacher 无噪声量子信道编码定理)

令 \(H(\rho)\) 为独立同分布量子信源。如果 \(R > S(\rho)\)，那么存在对信源 \(\{H,\rho\}\) 压缩率为 \(R\) 的可靠压缩方案。如果 \(R < S(\rho)\)，那么不存在对信源 \(\{H,\rho\}\) 压缩率为 \(R\) 的可靠压缩方案.

证明

假设 \(R > S(\rho)\) 并令 \(\epsilon > 0\) 使得 \(S(\rho) + \epsilon \leqslant R\)。由典型子空间定理，对于任意 \(\delta > 0\) 及充分大的 \(n\), \(tr(\rho^{\otimes n}P(n,\epsilon)\geqslant1-\delta\), 并且 \(dim(T(n,\epsilon))\leqslant2^{nR}\)。令 \(H_{c}^{\otimes n}\) 为包含 \(T(n,\epsilon)\) 的任意 \(2^{nR}\) 维希尔伯特空间。编码以如下方式完成。首先进行测量，由完整的正交投影算子 \(P(n,\epsilon)\) 和 \(I - P(n,\epsilon)\) 描述，对应的结果我们用 \(0\) 和 \(1\) 表示。如果结果 \(0\) 发生，则不再进行任何操作并保持其态处于典型子空间中。如果结果 \(1\) 发生，那么我们从典型子空间中选择的一些标准态 \(|0\rangle\) 替换系统的态，而具体使用什么态并不重要。由此得出，编码是一个到 \(2^{nR}\) 维子空间 \(H_{c}^{\otimes n}\) 的映射 \(C^n: L(H^{\otimes n})\rightarrow L(H_c^{ n})\)，其具有求和表示：

\[C^n(\sigma) \equiv P(n,\epsilon)\sigma P(n,\epsilon) + \sum_i A_i \sigma A_i^\dagger \]

其中 \(A_i \equiv |0\rangle \langle i|\)，\(|i\rangle\) 是典型子空间正交补的标准正交基。

解码操作 \(D^n: L(H_c^n )\to L(H^{\otimes n})\) 被定义为 \(L(H_c^n)\) 上的恒等算子，即

\[D^n(\sigma) = \sigma. \]

有了上述编码和解码的定义，我们得到纠缠保真度为：

\[F(\rho^{\otimes n}, D^n \circ C^n) = \left|\mathrm{tr}(\rho^{\otimes n} P(n,\epsilon))\right|^2 + \sum_i \left|\mathrm{tr}(\rho^{\otimes n} A_i)\right|^2 \]

由于每一项都是非负实数，因此有不等式：

\[F(\rho^{\otimes n}, D^n \circ C^n) \geqslant \left|\mathrm{tr}(\rho^{\otimes n} P(n,\epsilon))\right|^2 \]

而根据典型子空间定理，有：

\[\left|\mathrm{tr}(\rho^{\otimes n} P(n,\epsilon))\right|^2 \geqslant |1 - \delta|^2 \geqslant 1 - 2\delta \]

其中最后一个不等式利用了 \(\delta < 1\) 时的初等不等式。因为对于充分大的 \(n\)，\(\delta\) 可以任意小，所以当 \(S(\rho) < R\) 时，存在压缩率为 \(R\) 的可靠压缩方案 \(\{C^n, D^n\}\)。

为证明其反面结论，假设 \(R < S(\rho)\)。不失一般性，设压缩操作 \(\mathcal{C}^n\) 是从 \(H^{\otimes n}\) 映射到一个 \(2^{nR}\) 维子空间，其对应的投影算子记为 \(S(n)\)。令 \(C_j\) 为压缩操作 \(\mathcal{C}^n\) 的 Kraus 算子，\(D_k\) 为解压缩操作 \(\mathcal{D}^n\) 的 Kraus 算子。于是我们有：

\[F(\rho^{\otimes n},\, \mathcal{D}^n \circ \mathcal{C}^n) = \sum_{j,k} \left| \operatorname{tr}(D_k C_j \rho^{\otimes n}) \right|^2 \]

每个算子 \(C_j\) 的像都落在投影算子 \(S(n)\) 所定义的子空间内，因此可写为 \(C_j = S(n) C_{j}\)。设 \(S^k(n)\) 是由 \(D_k\) 映射的目标子空间上的投影算子，则有：

\[S^k(n) D_k S(n) = D_k S(n) \]

因此可以推出：

\[D_k C_j = D_k S(n) C_j = S^k(n) D_k S(n) C_j = S^k(n) D_k C_j \]

于是我们得到：

\[F(\rho^{\otimes n},\, D^n \circ C^n) = \sum_{j,k} \left| \operatorname{tr}(D_k C_j \rho^{\otimes n} S^k(n)) \right|^2 \]

应用柯西–施瓦茨不等式可得：

\[F(\rho^{\otimes n},\, D^n \circ C^n) \leqslant \sum_{j,k} \operatorname{tr}(D_k C_j \rho^{\otimes n} C_j^\dagger D_k^\dagger)\cdot \operatorname{tr}(S^k(n) \rho^{\otimes n}) \]

根据典型子空间定理第(3)条，对于任意 \(\delta > 0\) 及充分大的 \(n\)，都有：

\[\operatorname{tr}(S^k(n) \rho^{\otimes n}) \leqslant \delta \]

此外，典型子空间定理的证明表明，这样的 \(n\) 的存在性与 \(k\) 无关, 上式和 \(k\) 没有关系。又由于 \(\mathcal{C}^n\) 和 \(\mathcal{D}^n\) 都是保迹映射，因此：

\begin{align}
F(\rho^{\otimes n},, D^n \circ C^n) &\leqslant \delta \sum_{j,k} \operatorname{tr}(D_k C_j \rho^{\otimes n} C_j^\dagger D_k^\dagger) \
&=\delta \operatorname{tr}\left( \sum_{jk}D_k C_j \rho^{\otimes n} C_j^\dagger D_k^\dagger \right) \
&=\delta \operatorname{tr} \left( D\circ C(\rho^{\otimes n}) \right) \
&= \delta
\end{align}

由于 \(\delta\) 可任意小，故当 \(n \to \infty\) 时有 \(F(\rho^{\otimes n},\, D^n \circ C^n) \to 0\)，因此该压缩方案是不可靠的。

可获取信息与 Holevo 信息

上一节我们讨论了无噪声量子信道传输量子态的压缩编码问题，并且发现编码压缩率和量子态集合对应的密度矩阵的量子熵有关系。某种意义上，如果一个量子信息源制备的态集合的 von Neumann 熵很高，那么这个信息源包含了很多信息，进而导致我们不能把它压缩到较小的系统中。

为了进一步理解与量子熵有关的信息量含义，在这一节里面我们考虑另外一个通信任务：甲希望把经典随机变量 \(X\) 的信息编码到一个量子态里面，随后将量子态传输给乙。为此，甲按照随机变量 \(X\) 所服从的概率分布 \(\{ p_x \}_x\) 制备量子态集合 \(\{ \rho_x \}\)，这个量子态的制备过程就是一个编码方案。将该集合记为 \(\mathcal{E}\)。为了获取 \(X\) 的信息，乙在接收到量子态后进行合适的量子测量，一般地，可以认为是 POVM 测量 \(\{ \Lambda_y \}\)，得到随机变量 \(Y\)。

在理想的情况下，\(Y\) 能够准确地恢复出 \(X\) 的信息，即两个随机变量在进行必要的重新排布后，具有相同的概率分布。不过在最一般的情况下，\(Y\) 可能和原始的信息 \(X\) 有所偏差。为了刻画乙通过 \(Y\) 对 \(X\) 所可能获取的信息量，可以用互信息 \(I(X{:}Y)\) 予以度量。

现在假定甲的编码过程已经确定。在解码信息的过程中，乙可以优化他的 POVM 测量，从而最大化对于 \(X\) 的了解。但容易看出，乙能否准确了解 \(X\)，受到量子态集合 \(\mathcal{E}\) 的限制。如果甲在编码过程中，将不同 \(x\) 对应的量子态制备成相互正交的量子态，那么乙是可以准确获取 \(X\) 的信息的；而如果这些量子态之间相互交叠，甚至完全相同，那么乙无论进行怎样的测量，都不可能完全准确地恢复出 \(X\) 的信息。由此可以定义对于态集合 \(\varepsilon\) 的可获取信息（accessible information）：

\[I_{\mathrm{acc}}(\mathcal{E}) = \max_{\{\Lambda_y\}} I(X{:}Y) \]

其中，条件概率 \(p(y|x) = \mathrm{tr}(\Lambda_{y} \rho_{x})\)。

一般来说，可获取信息的计算是困难的，但在具体问题里，常常只需要给出它的上界。一个常用的上界是 Holevo 信息（Holevo information），这一上界又被称作 Holevo 界（Holevo bound）。

定理（Holevo 界）
考虑量子态集合 \(\mathcal{E} = \{p_x, \rho_x\}\)，其 Holevo 信息 \(\chi(\mathcal{E})\) 为

\[\chi(\mathcal{E}) = S(\rho) - \sum_x p_x S(\rho_x) \]

其中，\(\rho = \sum_x p_x \rho_x\)。Holevo 信息 \(\chi(\mathcal{E})\) 是可获取信息 \(I_{\text{acc}}(\mathcal{E})\) 的上界：

\[I_{\text{acc}}(\mathcal{E}) \leqslant \chi(\mathcal{E}) \]

证明
霍列沃界的证明基于一个简单优美的构造。我们有三个量子系统，标记为 \(P\)、\(Q\) 和 \(M\)。系统 \(Q\) 是 Alice 给 Bob 的量子系统，\(P\) 和 \(M\) 则是类似于第 11 章中为证明熵不等式而引入的辅助系统。

直观来说，\(P\) 可以被当作“准备过程”的系统。根据定义，它具有标准正交基 \(\{|x\rangle\}\)，其中每个基向量对应于量子系统可能被准备的标签 \(0, \cdots, n\)。

系统 \(M\) 则可以直观地被认为是 Bob 的“测量设备”，它有一个基 \(\{|y\rangle\}\)，其中每个基向量对应于 Bob 的测量结果 \(1, \cdots, n\)。

我们按照 \(PQM\) 的顺序写出张量积形式，并假设全体系统的初始状态为
[
\rho^{PQM} = \sum_x p_x |x\rangle\langle x| \otimes \rho_x \otimes |0\rangle\langle 0|.
]

为了描述测量，我们引入了仅对系统 \(Q\) 和 \(M\) 起作用而不作用于 \(P\) 的量子算子 \(\mathcal{E}\)，其作用是对系统 \(Q\) 做 POVM 测量 \(\{E_y\}\)，并将测量结果存储在系统 \(M\) 中：
\begin{equation}
\mathcal{E}(\sigma \otimes |0\rangle\langle 0|) \equiv \sum_y \sqrt{E_y} \sigma \sqrt{E_y} \otimes |y\rangle\langle y|
\label{2}
\end{equation}
其中 \(\sigma\) 是系统 \(Q\) 的任意状态，\(|0\rangle\) 是测量装置的初始状态。

\textbf{问题}
定义 \(U_y\) 为作用在系统 \(M\) 上的算子，其作用在基上后 \(U_y|y^\prime\rangle \equiv |y^{\prime}+y\rangle\)，其中加法是在模 \(n+1\) 的意义下。证明算子集 \(\{\sqrt{E_y} \otimes U_y\}\) 定义了与式 (\ref{2}) 中一致的一个保迹算子 \(\mathcal{E}\)。

上面的问题并不难，首先设 \(M_y = \sqrt{E_y} \otimes U_y\)，直接计算
\begin{equation}
\sum_y M_y^\dagger M_y = \sum_y E_y \otimes I = I
\end{equation}
其次，
\begin{equation}
\sum_y M_y (\sigma \otimes |0\rangle\langle 0|) M_y^\dagger = \sum_y \sqrt{E_y} \sigma \sqrt{E_y} \otimes |y\rangle\langle y| = \mathcal{E}(\sigma \otimes |0\rangle\langle 0|)
\end{equation}

现在对于霍列沃界的证明如下。用激活态代指应用 \(\mathcal{E}\) 之后 \(PQM\) 的状态，用未激活态代指应用 \(\mathcal{E}\) 前的状态。因为 \(M\) 最初与 \(P\) 和 \(Q\) 不相关，所以我们有 \(S(P{:}Q) = S(P{:}Q,M)\)。而对 \(QM\) 应用量子算子 \(\mathcal{E}\) 不能增加 \(P\) 和 \(QM\) 间的互信息（定理：针对子系统的保迹量子操作不会增加互信息），故 \(S(P{:}Q,M) \geqslant S(P^{\prime}{:}Q^{\prime},M^{\prime})\)。最后，因为丢弃系统不能增加互信息（定理：丢弃不会增加互信息），故

\[S(P^{\prime}{:}Q^{\prime},M^{\prime}) \geqslant S(P^{\prime}{:}M^{\prime}) \]

综上可得

\[S(P':M') \leqslant S(P:Q) \]

我们来计算右侧的量。注意到
\begin{equation}
\rho^{PQ} = \sum_x p_x |x\rangle\langle x| \otimes \rho_x
\end{equation}
接着有 \(S(P) = H(p_x)\)，\(S(Q) = S(\rho)\)，以及 \(S(P,Q) = H(p_x) + \sum_x p_x S(\rho_x)\)，因此

\[S(P{:}Q) = S(P) + S(Q) - S(P,Q) = S(\rho) - \sum_x p_x S(\rho_x) \]

这正是我们想要的 Holevo 界右侧！

注意到

\[\rho^{P'Q'M'} = \sum_{xy} p_x |x\rangle\langle x| \otimes \sqrt{E_y} \rho_x \sqrt{E_y} \otimes |y\rangle\langle y| \]

对系统 \(Q\) 取迹并利用如下事实：对 \((X,Y)\) 的联合概率分布 \(p(x,y)\) 满足 \(p(x,y) = p_x p(y|x)\)，于是

\[\rho^{P'M'} = \sum_{xy} p(x,y) |x\rangle\langle x| \otimes |y\rangle\langle y| \]

因此 \(S(P':M') = H(X:Y)\)，这就是我们想要的 Holevo 界左侧！

这样就完成了对于 Holevo 界的证明。

posted @ 2025-04-14 16:02 夜秋子阅读(45) 评论(0) 收藏举报

刷新页面返回顶部

colorfulLau

欢迎来到这里，这是个很安静的地方。