面向金融的量子机器学习与优化-一-

面向金融的量子机器学习与优化(一)

原文:zh.annas-archive.org/md5/672c3b00edaf838546b2ff73dc54c7d0

译者:飞龙

协议:CC BY-NC-SA 4.0

前言

量子机器学习 – 既是最被夸大的领域,也是最被低估的领域。


约尔达尼斯·凯雷尼迪斯

引言

为什么是量子计算? 量子计算和人工智能将像 20 世纪下半叶的经典数字计算以及 21 世纪前二十年的互联网一样,彻底改变并颠覆我们的社会。

量子计算(或者更广泛地说,量子信息理论)自 1960 年代以来一直是广泛研究的主题,但直到最近十年,硬件方面的进展才使得量子计算算法的测试成为可能;而且直到最近几年,量子计算的优越性才最终被确认为一种实验事实(即在谷歌的 53 量子位 Sycamore 量子芯片上进行的具有里程碑意义的实验[16])。

量子计算的发展历程在这方面类似于人工智能的故事:人工智能诞生于 1950 年代,但经历了两次“寒冬”,在那时人工智能和机器学习的兴趣大幅下降(先是 1970 年代英国的 Lighthill 报告和美国的语音理解研究灾难,随后是 1990 年代 LISP 的崩溃),之后才广泛应用和接受,以至于我们现在无法想象没有它的生活。

尽管我们不能排除在量子计算技术像互联网、智能手机和人工智能那样深入日常生活之前会经历“量子计算寒冬”,但我们在过去几年中目睹的量子计算突破使这一可能性变得不太可能。

随着近期在该领域的进展,我们终于进入了噪声中间规模量子(NISQ)计算时代[237]。NISQ 时代的计算机足够强大,可以测试量子计算算法并解决具有挑战性的实际问题——并且在可比的经典硬件上建立量子加速和量子优势。

然而,首批真正的生产级商业应用可能会是混合量子-经典协议,其中大部分计算和数据处理是经典完成的,但最难的问题会外包给量子芯片。在金融领域,离散投资组合优化问题(即 NP 难问题)就是这样的例子,并且是明确的解决目标。

为什么选择量子机器学习? 它是量子计算和人工智能的结合,可能会带来最激动人心的机会,包括在金融领域的广泛应用,同时也包括在医学、化学、物理学等领域的应用。我们已经见证了使用参数化量子电路训练的第一个有前景的结果,这些电路可以作为生成模型(如量子电路博恩机,可作为合成数据生成器使用)或判别模型(如量子神经网络,可以作为分类器训练)。可能的应用场景包括市场生成器、数据匿名化、信用评分和交易信号生成。

到目前为止提到的所有模型和技术都依赖于通用的门模型量子计算机的存在。然而,还有另一种类型的量子硬件——量子退火器——它实现了绝热量子计算的原理。量子退火器是模拟量子计算机,非常适合解决对于经典计算机来说是 NP 难的复杂优化问题。优化问题是金融领域中大量难以解决的问题,更不用说许多金融中使用的监督学习和强化学习工具是通过解决优化问题(最小化成本函数,最大化奖励)进行训练的。

使用量子退火器解决的判别式机器学习问题的一个例子是通过多个弱分类器构建一个强分类器——量子提升算法。强分类器对过度训练和训练数据中物理可观察量相关性错误具有较强的抗干扰能力。量子退火训练的分类器的表现与最先进的经典机器学习方法相当。然而,与这些方法不同,基于退火的分类器是直接可解释的实验参数的简单函数,具有明确的物理意义,并且在小型训练数据集上,相比传统机器学习方法表现出一定的优势。

量子退火的另一个应用是生成学习。在深度学习中,训练深度神经网络的一个著名方法是先训练生成式深度玻尔兹曼机,通常使用对比散度(CD)算法,然后使用反向传播或其他判别技术对权重进行微调。然而,生成式训练通常耗时较长,因为玻尔兹曼(吉布斯)采样的混合速度较慢。基于量子采样的训练方法可以在生成式训练的迭代次数显著减少的情况下,达到与传统 CD 方法相当甚至更好的准确性。

因此,本书的主要焦点是解决可以在 NISQ 硬件上执行的量子机器学习(QML)算法的实际应用问题,而非采用传统的量子计算教材方式,详尽描述标准量子计算算法(如 Shor 算法、Grover 算法、),这些算法的量子硬件需求远超 NISQ 计算机的能力。书中还重点介绍了反映最有效利用量子计算能力的混合量子-经典计算协议——量子计算解决方案在与经典计算协同工作时,能为用户提供最大效益。

本书涵盖了所有主要的量子机器学习(QML)算法,这些算法已成为业界深入研究的对象,并且显示出了早期的量子优势潜力。我们还提供了对模拟量子计算机和数字量子计算机的平衡视角,并未试图预测哪种量子计算技术(超导量子比特、困束离子、中性原子等)最终会获胜。内容以硬件无关的方式呈现,重点强调算法的基本特性,而非它们的硬件实现,尽管我们并没有忽视算法的嵌入问题以及现有量子计算硬件的实际限制。

为什么选择金融? 可以合理预期,近年来我们所见证的量子硬件的快速进步,将促使量子计算技术在金融领域的广泛应用。金融行业已经在研究量子机器学习(QML)解决经典计算难题的潜力,并帮助实现数字化转型。我们可能已经超越了量子计算霸主地位的阶段,但我们探索量子计算优势的旅程才刚刚开始。

定量金融是一门充满有趣但计算上非常复杂的问题的学科。许多此类问题具有跨学科的特性,通常需要将其他领域中发展出的数学和计算技术进行转化和应用。例如,我们可以提到随机微分方程理论在期权定价中的应用[226],最优控制理论方法在管理科学和经济学中的应用[260],以及机器学习技术在投资组合构建和优化中的应用[193]。

这就是为什么当我们寻找各种现实世界的应用案例来测试(并改进!)量子计算算法时,我们转向金融领域。本书提供了许多量子计算技术和算法的示例,应用于解决实际的金融问题,如投资组合优化、信用卡违约预测、信用审批以及生成合成市场数据。同时,方法和技术以最一般的形式进行了表述和展示——我们希望读者能在金融及其他领域发现许多新的、令人兴奋的量子计算应用案例。

本书适合的读者

本书主要面向三个群体:学术研究人员和 STEM(科学、技术、工程和数学)学生;从事定量金融和相关领域的金融专业人士;计算机科学家以及机器学习/人工智能专家。同时,本书的组织方式使其对更广泛的受众也具备可读性和实用性。

本书不要求读者具备量子力学的前置知识,数学工具的复杂性不应让人感到畏惧:尽管我们没有牺牲数学的严谨性,但重点是理解模型和算法的基本属性。

本书的内容

本书分为两部分,反映了从类比量子计算到数字量子计算的自然进展,同时深入分析和理解算法。然而,我们从一章开始,讲解量子力学的基本原理,并为基于这些原理的计算方法提供动机。

第一章,量子力学原理,涵盖了量子力学的基本数学原理。它提供了必要的定义,并讨论了量子力学的公设及其与量子计算的相关性。

第一部分:类比量子计算 – 量子退火

多年来,量子退火器是唯一可用的大规模量子计算设备,用于解决非平凡的 NP 困难组合优化问题。尽管量子退火特别针对解决经典上难以解决的优化问题,但它也可以用于许多不同的量子-经典混合问题,例如采样器和分类器。本书详细介绍了这些应用,并通过具体的金融案例进行说明。

第二章,绝热量子计算,介绍了类比量子计算的概念。本章首先讲解了绝热量子计算的原理,并接着阐述了量子绝热定理。绝热量子计算的物理实现是量子退火,它与经典的退火方法——模拟退火一起进行解释。本章还讨论了绝热量子计算的实现、局限性和普适性。

第三章,二次无约束二进制优化,描述了量子退火最重要的应用:解决经典难度的优化问题。许多组合优化问题可以被表述为二次无约束二进制优化(QUBO)问题(或等价地,作为伊辛问题),这些问题可以通过量子退火器求解。本章深入讲解了前向和反向量子退火技术,并展示了量子退火在离散投资组合优化案例中的强大能力。

第四章,量子增强,将 QUBO 应用的范围扩展到组合优化以外,并概述了量子增强算法,该算法旨在将大量弱经典分类器组合成一个强分类器。该算法被表述为一个可在量子退火器上执行的 QUBO 问题,并应用于从大量弱预测器中构建信用卡违约强预测器的案例。

第五章,量子玻尔兹曼机,进一步探讨了量子退火在机器学习中的应用。量子玻尔兹曼机可以作为生成模型,用于从学习到的概率分布中进行采样,同时也是预训练深度前馈神经网络的高效方法。

第二部分:门模型量子计算

门模型量子计算硬件近年来取得了巨大的进展,正迅速接近量子优势的门槛。寻找量子优势——即量子计算解决方案在现实世界中能够优于任何可行的经典替代方案——是金融及其他领域量子计算研究的主要动力之一。本书探讨了在现有的 NISQ 设备上可实现的主要量子计算算法,并突出了可能从这一新量子计算范式中受益的各种金融应用。

第六章,量子比特与量子逻辑门,介绍了门模型量子计算的范式。我们从经典数字计算的基本概念开始,扩展计算逻辑以适应叠加和纠缠的新原则。本章对比了经典与量子逻辑门,并展示了如何从单个量子逻辑门组装量子电路。

第七章,参数化量子电路与数据编码,继续构建量子算法,涵盖了构建参数化量子电路(PQCs)的理论和实践方面,并展示了如何将经典样本编码为由 PQCs 处理的量子态。本章提供了具体数据编码技术的详细描述。

第八章,量子神经网络,探讨了训练为分类器的参数化量子电路。在本章中,我们展示了如何利用可微分和不可微分的学习算法高效地训练量子神经网络。本章还讨论了现有量子处理单元(QPUs)的局限性,以及如何设计量子电路以最大程度地从现有的量子计算硬件中获得益处。我们在信用审批的应用案例上调查了量子神经网络的性能,并将其与几种标准的经典分类器进行了对比。

第九章,量子电路博恩机器,介绍了量子版的经典生成模型,例如玻尔兹曼机——量子电路博恩机器(QCBM)。本章首先定义了 QCBM,并介绍了如何在现有的量子处理单元(QPUs)上高效地配置和运行它,接着讨论了可微分和不可微分的学习与训练过程,并以经典限制玻尔兹曼机为基准,最后讨论了市场生成器的应用案例。

第十章,变分量子特征求解器,介绍了变分原理,并制定了变分量子特征求解器(VQE)在优化问题中的方法。本章讨论了量子-经典混合方法来训练 VQE,并探讨了在 NISQ 设备上运行 VQE 的实际问题。

第十一章,量子近似优化算法,描述了门模型量子计算方法(受量子退火启发)解决 QUBO 类型问题的思路,例如 NP 难度的最大割优化问题。

第十二章,参数化量子电路的力量,探讨了我们期望在参数化量子电路的实际应用中展示量子优势的主要来源。本章重点讨论了两个方面:量子神经网络提供的强正则化和量子生成模型的表达能力。

第十三章,展望未来,讨论了新兴的有前景的量子算法和技术,例如量子核方法、量子生成对抗网络(GAN)、贝叶斯量子电路和量子半正定编程。

如何最大化本书的价值

本书旨在深入介绍量子计算技术在量化金融问题中的应用。虽然本书设计为自包含的,但假设读者对代数、分析和计算中的基本数学概念有所了解。不要求具备量子力学的知识,但书中的主要工具将会被解释,并使非物理学家也能理解。

使用的约定

本书中使用了多种文本约定。

CodeInText:表示文本中的代码词汇、软件包、文件夹名称、路径名等。

当我们希望引起您对某个特定定义或符号的注意时,相关的行或条目将采用斜体粗体显示。

重要的备注和结论以框框形式展示。

联系我们

我们始终欢迎来自读者的反馈。

一般反馈: 请通过电子邮件 feedback@packtpub.com,并在邮件主题中提及书名。如果您对本书的任何内容有疑问,请通过电子邮件联系 questions@packtpub.com。

勘误: 虽然我们已尽全力确保内容的准确性,但错误有时难以避免。如果您在本书中发现任何错误,我们将非常感激您向我们报告。请访问 www.packtpub.com/submit-errata,选择您的书籍,点击勘误提交表单链接,并填写相关详情。

盗版: 如果您在互联网上遇到任何非法的我们的作品副本,无论以何种形式,我们将非常感激您提供具体地址或网站名称。请通过 copyright@packtpub.com 联系我们,并提供链接。

如果您有兴趣成为作者: 如果您在某个领域有专业知识,并且有兴趣撰写或为书籍贡献内容,请访问 authors.packtpub.com

分享您的想法

一旦您阅读了 《量子机器学习与金融优化》,我们非常希望听到您的想法!请 点击这里直接前往亚马逊评论页面 并分享您的反馈。

您的评价对我们和技术社区非常重要,它帮助我们提供优秀的内容。

下载此书的免费 PDF 版本

感谢您购买本书!

您是否喜欢随时随地阅读,但又无法将纸质书籍随身携带?您的电子书购买是否与您选择的设备不兼容?

别担心,现在购买每本 Packt 书籍时,您都可以免费获得该书的无 DRM PDF 版本。

在任何地方、任何设备上随时阅读。直接从您最喜欢的技术书籍中搜索、复制并粘贴代码到您的应用程序中。

福利不仅仅止步于此,您还可以独享折扣、新闻简报,并每天将精彩的免费内容发送到您的收件箱。

按照以下简单步骤获取福利:

  1. 扫描二维码或访问下面的链接:

    图片

    packt.link/free-ebook/9781801813570

  2. 提交您的购买证明

  3. 就是这样!我们会直接将您的免费 PDF 和其他福利发送到您的电子邮件。

第一章:量子力学原理

量子力学是物理理论发展的框架;它本身并不是一种物理理论[80]。实际的物理理论是建立在量子力学的基础之上的。这也是为什么量子力学在所有自然科学中扮演着如此重要的角色。信息理论也不例外,同样从量子力学的思想和方法中获得了启发。

理解量子计算需要对量子力学的基本原理有一定的了解。本书不假定读者已有量子力学的背景知识,并在需要时提供所有必要的定义和解释。同时,鼓励读者根据自己熟悉的数学形式主义,进一步了解这一迷人的学科。在介绍量子力学的广泛教科书宇宙中,有必要提到经典的兰道和李夫希茨的书籍[182],以及同样经典的尼尔森和程关于量子计算的书籍[223],它们从量子计算的角度涵盖了量子力学的最相关方面。对于刚开始接触量子计算并希望获得整体概念和历史视角的人来说,伯恩哈特的优秀书籍[32]提供了这些内容,并且没有大量使用复杂的数学工具。寻求量子力学正式现代解读的读者可以参考罗宾内特的书籍[249]。量子计算的实际应用方面则在苏托尔的书籍[278]中得到了详细阐述,任何寻求量子计算编程的 Python 教材的读者,都可以在洛雷多的著作[195]中找到。

1.1 量子力学中的线性代数

量子计算和量子力学依赖于一种特定的符号体系,这是由于狄拉克的贡献,并且得到了经典线性代数的支持,特别是矩阵的厄米结构和张量积。我们在这里提供了这些工具的独立回顾,以便于理解本书的其余部分。我们从基本的线性代数原理开始,然后介绍狄拉克符号和线性代数工具的量子对应物。第 1.1.1 节到第 1.1.4 节集中介绍有限维希尔伯特空间和矩阵的标准定义,而第 1.1.5 节到第 1.1.7 节回顾了复矩阵的关键细节和性质(分解、厄米性质和旋转)。第 1.1.9 节到第 1.1.11 节介绍了狄拉克的形式主义及量子算符的基本方面。

1.1.1 基本定义和符号

我们令𝔽表示实数域ℝ或复数域ℂ。对于复数z = x+iy ∈ℂ,其中 x,y ∈ℝ,我们写作共轭 z^∗ := x−iy。我们令ℳm,n 表示维度为m × n,元素为𝔽的矩阵空间;当m = n时,写作ℳn。对于 A := (a[ij])[1≤i≤m; 1≤j≤n] ∈ℳm,n,A^∗ := (a[ij]^∗)[1≤i≤m; 1≤j≤n] 是其复共轭。如果 A ∈ℳn,我们写 A^⊤ 表示其转置,A^† := (A∗)⊤ 表示其厄米共轭。最后,令 I 为单位矩阵,并在需要强调维度时写作 I[n],0[m,n]表示ℳm,n 中的零矩阵。回想一下,若矩阵 A ∈ℳn 是可逆的(或非奇异的),则存在 B ∈ℳn 使得 AB = BA = I[n]。对于两个矩阵 A ∈ℳp,m 和 B ∈ℳq,n,我们定义它们的张量积为

 ⌊ ⌋ a11B ... a1mB || .. .. .. || A ⊗ B := ⌈ . . . ⌉ ∈ ℳpq,mn (𝔽). ap1B ... apmB

由于向量是矩阵的一种特例,对于 u ∈𝔽^m 和 v ∈𝔽^n,我们可以写作

 ⌊ ⌋ |u1v1 | ⌊ ⌋ ⌊ ⌋ || ... || u1 v1 | | || .. || || ..|| ||u1vn || mn u ⊗ v = ⌈ . ⌉ ⊗ ⌈ .⌉ = ||u v || ∈ 𝔽 . um vn || 2.1 || |⌈ .. |⌉ umvn

1.1.2 内积

定义域为𝔽的向量空间 V 是一个集合,并配备了

  • 一个交换的、结合的加法运算,

  • 一个标量乘法的操作。

加法和标量乘法具有以下性质(对于标量α,β ∈𝔽 和向量 u,v ∈V):

  • v + 0 = v;

  • v + (−v) = 0;

  • α(βv) = (αβ)v;

  • (α + β)v = αv + βv;

  • α(u + v) = αu + αv;

  • 1 ⋅ v = v。

有了这个,我们现在可以定义 V 上的内积:

定义 1. 一个映射 ⟨⋅,⋅⟩ : V ×V →𝔽 被称为内积,如果对于 u,v,w ∈V 和 α ∈𝔽,

  • (正定性) ⟨u,u⟩≥ 0,且 ⟨u,u⟩ = 0 当且仅当 u = 0;

  • (共轭对称性) ⟨u,v⟩ = ⟨v,u⟩^∗;

  • (第一个参数是线性的) ⟨u + v,w⟩ = ⟨u,w⟩ + ⟨v,w⟩ 且 ⟨αu,v⟩ = α⟨u,v⟩;

  • (第二个参数是反线性的) ⟨u,v + w⟩ = ⟨u,v⟩ + ⟨u,w⟩ 且 ⟨uv⟩ = α^∗⟨u,v⟩。

内积进一步被称为非退化的,如果 ⟨u,v⟩ = 0 对所有 v ∈V ∖{0} 都意味着 u = 0。

例如,以下空间带有自然内积:

  • 向量空间ℂ^n 的内积定义为 ⟨u,v⟩ := u^†v = ∑ [i=1]n*u*[i]v[i];

  • 定义在[0,1]上的复值连续函数空间,其内积定义为 ⟨f,g⟩ := ∫ [0]¹f(t)^∗g(t)dt

  • 如果 X,Y ∈ℳm,n,则 ⟨X,Y⟩ := Tr(X^⊤Y) = ∑ [i=1]^m ∑ [j=1]^nX[ij]Y[ij] 定义了(实数)矩阵空间上的内积。

投影矩阵在几何中特别有用:

定义 2. 一个矩阵 P ∈ℳn 称为(正交)投影,如果 P² = P。

特别地,如果 W 是𝔽^n 的一个向量子空间,并且有一个正交归一基 (w[1],…,w[d]),那么很容易验证满足 𝒫[W] : 𝔽^n →𝔽^n 的映射,它将𝔽^n 投影到 W 上。

 ∑d 𝒫W (v) := ⟨v,wi⟩wi, 对于任意 v ∈ 𝔽n, i=1

定义了一个正交投影。

1.1.3 从线性算子到矩阵

设 V 是一个定义在 𝔽 上的有限维向量空间,且 ⟨⋅,⋅⟩ 是 V 上的非退化内积。给定线性算子 𝒜 : V →V,根据 Riesz 表示定理 [309,第 III-6 节],存在唯一的线性算子 𝒜^† : V →V,称为伴随算子,使得

⟨𝒜u, v⟩ = ⟨u,𝒜 †v⟩, 对所有 u,v ∈ V.

实际上,对于任何 v ∈V,映射 u ∈V↦→⟨𝒜u,v⟩ 是一个线性泛函,因此它是对偶空间 V^†(V 上有界线性泛函的空间)中的一个元素,因此对于每个 v ∈V,存在 v′∈V 使得 ⟨𝒜u,v⟩ = ⟨u,v′⟩。然后可以容易地证明映射 v↦→v′ 是线性的,从而证明伴随算子是唯一确定的。在特别的情况下,当 𝒜 = 𝒜^† 时,算子 𝒜 称为厄米算子,这是量子力学中的一个关键要求:

定义 3. 如果 𝒜 = 𝒜^†,则称算子 𝒜 为 厄米算子,或 自伴随算子

对于厄米算子 𝒜,我们有,对于任意 u ∈V,

⟨𝒜u, u⟩ = ⟨u,𝒜 †u⟩ = ⟨u,𝒜u ⟩ = ⟨𝒜u,u⟩∗

通过共轭对称性(定义 1),因此 ⟨𝒜u,u⟩ 是实数。反之,如果 ⟨𝒜u,u⟩ 是实数,那么

 ∗ † ⟨𝒜u,u⟩ = ⟨𝒜u, u⟩ = ⟨u,𝒜u ⟩ = ⟨𝒜 u,u⟩.

因此,⟨( ) ⟩ 𝒜 − 𝒜† u,u = 0;因为对所有 u ∈V 这都成立,因此 𝒜 = 𝒜^†。

以下算子属性将有助于确保由算子驱动的系统保持距离或范数:

定义 4. 线性算子 𝒜 : V → V 称为 酉算子,如果它是满射的,并且

⟨𝒜u, 𝒜v ⟩ = ⟨u,v ⟩, 对所有 u, v ∈ V.

回想一下,两个有限维范数空间之间的线性算子是有界的,因此是连续的。对于任何 u ∈V,这意味着 ∥𝒜u∥ = ∥u∥,因此酉算子 𝒜 保持范数。在这种情况下,𝒜 是等距的,因此是单射的。由于它也是满射的,它是双射的,因此其逆存在。对于酉算子 𝒜 和任何 u,v ∈V,我们有

 † ⟨u,v⟩ = ⟨𝒜u, 𝒜v⟩ = ⟨u,𝒜 𝒜v ⟩

根据伴随算子的定义,意味着

𝒜 †𝒜 = ℐ = 𝒜 𝒜 †,

其中 ℐ 是单位算子。

示例(实矩阵): 如果 V = ℝ^n 且内积 ⟨u,v⟩ := u^⊤v 对于 u,v ∈ℝ^n,则线性算子 𝒜 可以看作 ℳn 中的矩阵 A。其伴随算子无非就是转置矩阵 A^⊤,因此 A 当且仅当它是对称矩阵时才是自伴随的。在这种情况下,如果 A 是酉矩阵(或正交矩阵),那么它是可逆的,并且 A^(−1) = A^⊤。在 ℝ² 中的旋转矩阵将在后续构建量子电路时发挥重要作用,它们是 ℝ² 上到自身的唯一酉映射,形式为

⌊ ⌋ cos(𝜃) δsin(𝜃) ⌈ ⌉, sin(𝜃) − δcos(𝜃)

对于 𝜃 ∈ 0,2π) 和 δ ∈{−1,+1}。

示例(复矩阵): 如果 V = ℂ^n,内积 ⟨u,v⟩ := v^†u,对于 u,v ∈ℂ^n,线性算子 𝒜 现在可以看作是 ℳ[n 中的一个矩阵。此时,该矩阵的伴随矩阵是 Hermitian 共轭 A^†,如果 A = A^† 则称 A 为 Hermitian 矩阵,如果 A^†A = I[n],则称 A 为酉矩阵。我们将用 𝒰n 表示 ℳn 中的酉矩阵集合。我们将在第 1.1.6 节中更详细地讨论复数域上的 Hermitian 矩阵。

1.1.4 条件数

为了操作矩阵并进行测量,我们需要矩阵范数:

定义 5. 矩阵范数 ∥⋅∥ : ℳm,n →ℝ 是一个满足以下条件的函数,对于任意 α ∈𝔽 和 A,*B ∈ℳm,n,

  • (正值)∥A∥≥ 0;

  • (确定的) ∥A∥ = 0 当且仅当 A = 0[m,n];

  • (绝对齐次)∥αA∥ = |α|∥A∥;

  • (三角不等式)∥A + B∥≤∥A∥ + ∥B∥。

如果 ∥AB∥≤∥A∥∥B∥,则该范数进一步称为子乘法范数。

矩阵的条件数是理解线性方程组 Ax = b 稳定性的重要工具,其中 A ∈ℳn,b ∈𝔽^n。假设 A 非奇异,则真实解显然是 x[∗] := A^(−1)b。然而,假设向量 b 仅通过某些(不一定是量子)测量误差已知,实际观察到的是 b + Δ[b]。此时解为 A^(−1)(b + Δ[b]) = x[∗] + Δ[x],其中 Δ[x] := A^(−1)Δ[b]。特别地,对于任何(子乘法)矩阵范数 ∥⋅∥,我们可以写作:

 −1 ∥Δx-∥ = ∥A---Δb-∥≤ ∥A− 1∥ --∥b∥--∥Δb-∥ ≤ ∥A −1∥∥A∥ ∥Δb∥-. ∥x∥ ∥A −1b∥ ∥A− 1b∥ ∥b∥ ∥b ∥

从这个不等式中,我们可以看出,数量 ∥A^(−1)∥∥A∥ 约束了解的相对误差与输入向量 b 测量误差的相对误差之间的关系。这引出了以下术语:

定义 6. 给定矩阵 A ∈ ℳn 和子乘法范数 ∥⋅∥,我们称

κ ∥⋅∥(A) := ∥A −1∥∥A ∥

条件数(相对于范数 ∥⋅∥)是矩阵 A 的一个重要指标(如果 A 是奇异的,则赋予其无穷大值)。

备注: 上述条件数的定义适用于任何矩阵范数 ∥⋅∥,但在特定情况下,对于谱范数 ∥⋅∥[2],具有更为明确的表示。

∥A ∥2 := sup ∥Ax∥2-, x⁄=0 ∥x ∥2

其中 ∥x∥[2] := (∑ ) ni=1|xi|2^(1 2) 是向量的 L [2] 范数。如果矩阵 A 非奇异,则

 |λ (A )| κ (A ) :=--max----, |λmin(A)|

其中 λmax 和 λmin 分别表示矩阵 A 的最大和最小特征值。

1.1.5 矩阵分解与谱定理

在定义了(复)矩阵的基本属性后,我们现在引入几个基本工具,帮助我们更好地理解它们的性质。

奇异值分解是分析矩阵性质和行为的关键工具。它在应用统计学和机器学习中无处不在,能够将一个大矩阵的解释维度缩减为少数几个有意义的成分。

定理 1(奇异值分解). A ∈ℳm,n p := min(m,n)。存在 U ∈𝒰m V ∈𝒰n σ[1] ≥⋅⋅⋅σ[p] ≥ 0 使得 A = UΣV^†,其中 Σ ∈ℳm,n 是对角矩阵,且 Σ[ii] = σ[i] 对于 i = 1,…,p Σ[ii] = 0 对于 *i > p**。

数字 {σ[1],…,σ[p]} 称为 A 的奇异值,并且是唯一确定的。U 和 V 的列向量分别是 A 的左奇异向量和右奇异向量,即如果 σ ∈ {σ[1],…,σ[p]},则存在 U 的一列向量 u 和 V 的一列向量 v,使得 Av = σu 和 A^†u = σv。回顾一下,矩阵的秩定义为其列的张成空间的维度。根据奇异值分解定理,矩阵的秩等于非零奇异值的数量。奇异值分解是一般性的,即它适用于任何矩阵。在方阵的特定情况下,舒尔分解和谱定理提供了更精细的结果。

谱定理是线性算子理论中的基石结果,特别是对于(有限维)矩阵。回顾一下,算子 𝒜 : V →V 被称为正常的,如果它与其伴随算子对易,即 𝒜𝒜^† = 𝒜^†𝒜。自伴算子(或厄米算子)显然是正常的,但反之不一定成立。进一步回顾,𝒜 的特征向量是一个非零向量 u ∈V,满足 𝒜u = λu,其中 λ ∈ℂ,我们用 σ(𝒜) 表示 𝒜 的特征值集合。

以下结果比后续的谱定理更一般,它允许我们分解任何任意的复方阵。

定理 2(舒尔分解). 对于任意 A ∈ ℳn ,存在一个 酉矩阵 U ∈ 𝒰n 和一个上三角矩阵 T ,使得 A = UTU^(−1)*。

注意,由于 U 是酉矩阵,因此 U^(−1) = U^†。我们称矩阵 T 为 A 的舒尔变换,定理中的恒等式意味着 A 和 T 是相似的,特别地,它们具有相同的特征值,这些特征值都位于 T 的对角线上。如果 A 是一个正常矩阵,则 T 也是正常矩阵,因此 T 必须是对角矩阵,且为清晰起见,我们写作 T = D。在这种情况下,我们称矩阵 A 是可对角化的,且 A = UDU^†,其中 D 的对角元素是 A 的特征值,U 的列向量是 A 的标准正交特征向量。

定理 3(谱定理). 线性算子 𝒜 : V → V 正常的当且仅当存在一个由 A 的特征向量组成的* V 的标准正交基*。

对于每个特征值 λσ(𝒜),记对应的特征空间为

𝒱λ := {u ∈ V : 𝒜u = λu} .

由于向量空间 V 是各个特征空间(按 𝒜 的特征值索引)的正交直和,因此我们可以写出谱分解

 ∑ 𝒜 = λ𝒫 λ, λ∈σ(𝒜)

其中 𝒫[λ] 是对 𝒱[λ] 的正交投影算子。注意,这样的算子自然是自伴的  [309, 定理 2, 第 III-1 节]。

1.1.6 厄米矩阵

我们上面介绍了厄米矩阵作为复数域 ℂ 上的矩阵集合 A,满足 A = A^†。作为量子计算的基础构建块,我们进一步研究了它们的性质。显然,一个实矩阵当且仅当它是对称矩阵时才是厄米矩阵,这时 A^⊤ = A。

命题 1。 厄米矩阵的特征值是实数。

证明。 如果 Ax = λx 且 λ ∈ℂ 和 x ∈ℂ^n,那么

⟨Ax,x⟩ = x^†Ax = λx^†x = λ∥x∥²,
⟨x,Ax⟩ = (Ax)^†x = (λx)^†x = λ∗x†x = λ^∗∥x∥².

由于这两者通过厄米性质相等,因此 λ = λ^∗,从而证明了命题。 □

奇异值分解(定理 1)在厄米矩阵的情况下有其特定的形式:

定理 4。 *根据定理 1的符号,如果 *A ∈ ℳn *厄米矩阵,那么矩阵 *U *和 *V *是相等的,并且矩阵 *Σ 实对角矩阵。

定理 5。 对于一个厄米矩阵 A ∈ ℳn,以下条件是 等价的:

  1. 特征值是非负的。

  2. 存在一个厄米矩阵 B ∈ℳn 使得 A = B²

  3. 存在一个矩阵 B ∈ℳn 使得 A = B^†B

  4. 对于每个 x ∈ℂ^n, ⟨Ax,x⟩≥ 0

这样的矩阵称为半正定矩阵。

证明。 谱定理表明,存在一个酉矩阵 U ∈𝒰n 和一个对角矩阵 Σ ∈ℳn,使得 A = UΣU^†,其中 Σ 的对角元素是 A 的特征值。假设 (i),我们可以定义 B = U√ Σ-U^†∈ℳn。然后显然

 † 2 ( √ -- †)( √ -- †) B = B and B = U ΣU U ΣU = A,

因为 U 是酉矩阵。等式 A = B^†B 也是显然的。后者意味着

 † 2 n ⟨Ax, x⟩ = ⟨B Bx,x⟩ = ⟨Bx,Bx ⟩ = ∥Bx ∥ ≥ 0, for any x ∈ ℂ .

最后,假设 (iv),并且让 λ 是 A 的一个特征值,特征向量为 u。那么

 2 ⟨Au, u⟩ = ⟨λu,u⟩ = λ⟨u,u⟩ = λ∥u∥ .

由于后者严格大于零,因此显然 λ ≥ 0。

以下性质是量子系统哈密顿量模拟的核心:

定理 6。 如果 A ∈ ℳn 是厄米矩阵,那么,对于任何 t ∈ ℝ e^(itA) 是酉矩阵;反之,每个酉矩阵都可以表示为 e^(itA) ,其中 A 是某个厄米矩阵。

回顾一下,对于一个矩阵 A ∈ℳn,它的指数是由以下公式给出的

 A ∑ Ak- e = k! . k≥0

然而在实践中,给定一个厄米矩阵 A,找到对应的酉矩阵 U 并不容易。哈密顿量模拟问题定义如下。

哈密顿量问题: 给定一个厄米矩阵 A ∈ℳn,一个时间 t > 0,一个容差水平 𝜀 > 0,以及某个矩阵范数 ∥⋅∥,找到一个酉矩阵 U,使得 ∥∥ itA ∥∥ U − e𝜀

1.1.7 旋转矩阵

旋转矩阵以及它们的量子门等效形式将在构建量子电路中发挥关键作用。我们从以下引理开始:

引理 1. 如果一个矩阵 A ∈ℳn 满足 A² = I,那么对于任何 𝜃 ∈ℝ

ei𝜃A = cos(𝜃)I + isin(𝜃)A.

证明。 这直接来自于级数展开

 ∑ xk ex = --, k≥0 k!

该式具有无限的收敛半径。□

引理 1 对于计算目的将是至关重要的。作为简单的例子,考虑以下内容:

练习: 计算 A ∈{X,Y,Z} 和 𝜃 ∈ℝ 时的 e^(i𝜃A),其中

 ⌊ ⌋ ⌊ ⌋ ⌊ ⌋ X = ⌈0 1⌉ , Y = ⌈0 − i⌉, Z = ⌈1 0 ⌉. 1 0 i 0 0 − 1

对于任意 α ∈ [0,2π),现在考虑映射 ℛ[α] : ℝ² →ℝ²,使得

 ( ) ( ) ℛ α r cos(𝜃),rsin(𝜃) := r cos(𝜃 + α),rsin(𝜃 + α ) , ![对于任意 r ∈ ℝ 和 𝜃 ∈ 0,2π),

其本质上是角度 α 的旋转,并且不会影响输入向量的范数。对于映射 ℛ[α],我们可以关联矩阵 R[α],使得对于任何 u ∈ℝ²,ℛα = R[α]u。很容易(练习)证明以下内容:

引理 2. *矩阵 *R[α] 具有以下形式

 ⌊ ⌋ cos(α ) − sin(α) R α = ⌈ ⌉ . sin (α ) cos(α)

这个表示是 ℝ² 中旋转矩阵的一般形式(在(1.1.3)中引入)。

练习: 写出前面练习中 A ∈{X,Y,Z} 的矩阵 e^(i𝜃A) 作为旋转矩阵。

1.1.8 极坐标

记住,一个点 z = x + iy,其中 x,y ∈ℝ,位于单位圆上,可以写作 z = e^(i𝜃),其中 𝜃 ∈ 0,2π)。事实上,只需让 x = r cos(𝜃),y = r sin(𝜃) 并加上约束 r = 1。现在考虑一个形式为的通用向量 u ∈ℂ²

![u = αe1 + βe2,

其中,α,β ∈ℂ,满足 |α|² + |β|² = 1。这里,(e[1],e[2]) 构成了 ℝ² 的一个基:

 ⌊ ⌋ ⌊ ⌋ 1 0 e1 := ⌈ ⌉, e2 := ⌈ ⌉ . 0 1

在极坐标系中,我们可以写为

 i𝜃α i𝜃β u = rαe e1 + rβe e2.

请注意,任意的乘法相位没有影响——这是量子力学中的一个关键事实——因为,对于任何 γ ∈ℝ,

|eiγα|2 = (eiγα)∗eiγα = α ∗e−iγeiγα = α∗α = |α|2,

因此,实际上,乘以全局相位 e^(−i𝜃[α]) 并令 𝜃 := 𝜃[β] −𝜃[α],我们考虑

 i𝜃 u = rαe1 + rβe e2.

写下暂时的 r[β]e^(i𝜃) = x + iy。坚持让 u 在单位球面上,进一步要求 ∥u∥² = 1,即

1 = ∥u∥² = (r[α]e[1] + (x + iy)e[2])^†(r[α]e[1] + (x + iy)e[2])
= (r[α]e[1]^⊤ + (x − iy)e [2]^⊤)(r[α]e[1] + (x + iy)e[2])
= r[α]² + x² + y²,

由于 (e[1],e[2]) 是正交归一的。这不过是单位球面的方程。在极坐标中,我们可以写为

x = rsin(𝜃)cos(ϕ), y = rsin(𝜃)sin(ϕ), rα = r cos(𝜃),

并且显然 r = 1,因为我们位于单位球面上。因此

u = cos(𝜃)e[1] + (sin(𝜃)cos(ϕ) + isin(𝜃)sin(ϕ))e[2]
= cos(𝜃)e[1] + sin(𝜃)e^(iϕ)e [2].

1.1.9 狄拉克符号

给定一个向量 v ∈ℂ^n,狄拉克的 ketbra 符号表示为

 ⌊ ⌋ |v1| |v2| |v⟩ := || .|| 和 ⟨v| := [v∗1,v2∗,...,v∗n]. |⌈ ..|⌉ vn

使用这些符号,操作 ⟨u,v⟩ := ⟨u|v⟩ 定义了 ℂ^n 上的内积。标准正交归一基的符号是 (|i⟩)[i=0,…,n−1],即,

 ⌊ 1⌋ ⌊ 0⌋ ⌊ 0⌋ | | | | | | || 0|| || 1|| || 0|| |0⟩ := || ..||, |1⟩ := || ..|| , ... |n − 1⟩ := || ..||. ⌈ .⌉ ⌈ .⌉ ⌈ .⌉ 0 0 1

在坐标系中,我们可以写出,对于任何 u,v ∈ℂ^n,

|u⟩ = ∑ u |i⟩ 和 |v⟩ = ∑ v |i⟩, i i i i

因此,

 ∑ ⟨u,v⟩ = u ∗ivi. i

1.1.10 量子算子

在狄拉克符号的语言中,我们可以定义 外积 |u⟩⟨v|(对于 u ∈U 和 v ∈V)作为从 V 到 U 的线性算子,这里有两个向量空间,形式为

( ) |u⟩ ⟨v| |w⟩ := ⟨v|w ⟩ |u⟩,对于任何 w ∈ V.

特别地,|v⟩⟨v| 是对由 |v ⟩ 生成的一维空间的投影。任何线性算子都可以表示为外积的线性组合,形式为

 ∑ 𝒜 = Aij |i⟩⟨j|, ij

其中 |i⟩|j⟩ 是标准基向量(1.1.9)。

与上面线性代数的设置类似,我们可以定义线性算子 𝒜 : V →V 的特征向量为非零向量 |v ⟩,使得

𝒜 |v⟩ = λ |v⟩

对于某些复特征值 λ,与任何线性算子 𝒜 相关联的伴随算子 𝒜^† 满足

 ⟨ ⟩ ⟨u|𝒜v ⟩ = 𝒜 †u|v .

事实上,在上述线性算子的语言中,我们有

⟨u,𝒜v ⟩ = ⟨𝒜v, u⟩∗ = ⟨v,𝒜 †u⟩∗ = ⟨𝒜 †u,v⟩,

根据内积的定义(定义 1)。

1.1.11 张量积

给定两个维度分别为 mn 的向量空间 U 和 V,张量积 U ⊗V 是一个维度为 mn 的向量空间。对于 u ∈U 和 v ∈V,我们可以形成向量 |uv ⟩ := |u⟩|v⟩∈U ⊗V,具有以下性质:

  •  ′ |(u + u )v⟩ = |uv ⟩ +  ′ |u v⟩,对于任何 u′∈U;

  • |u(v + v′)⟩ = |uv ⟩ + |uv′⟩,对于任何 v′∈V;

  • α |uv⟩ = |(αu)v⟩ = |u(αv)⟩,对于任何 α ∈ℂ。

给定线性算子 𝒜 : U →U 和 ℬ : V →V,我们可以将它们的张量积定义为作用在 U ⊗V 上的算子 𝒜⊗ℬ:

( ) 𝒜 ⊗ ℬ |uv ⟩ := |(𝒜u),(ℬv)⟩,

它可以用矩阵形式表示为 A ⊗ B ∈ℳmn,mn。

这个狄拉克形式主义,完全植根于(经典)线性代数,现在为深入探索量子力学基础打开了大门。

1.2 量子力学的公设

量子力学陈述了物理理论必须满足的几个数学公设。事实证明,量子力学的数学允许更一般的 计算:与经典数字计算相比,更一般的 记忆状态 定义和更广泛的 变换 可能性。一个自然的问题是:为什么这种优越的计算模式直到最近才被使用?答案是,尽管量子力学几乎一个世纪前就被提出(保罗·狄拉克的开创性著作《量子力学原理》[86]于 1930 年出版),但将量子力学的规则应用于在经典数字计算机上执行的计算协议需要巨大的内存。计算能力的指数增长被指数级的内存需求所抵消。

为了高效地执行量子计算,我们需要使用实际的量子力学系统,利用其在状态中编码信息的能力。为了说明这一点,由 n 个量子比特(qubits)组成的量子系统的状态可以通过指定 2^n 个概率振幅来描述——即使对于非常小的系统(n ∼ 100)来说,这也是一个庞大的信息量,并且在经典内存中存储这些信息是不可能的。在量子处理单元(QPUs)——控制量子力学系统进行计算的设备——变得可行之前,经历了数十年的技术进步。

现在让我们继续推导构成量子力学基础的数学公设。这些公设规定了描述物理系统行为的一般框架[80,182,249]:

  1. 如何描述一个封闭系统的状态。

  2. 如何描述一个封闭系统的演化。

  3. 如何描述系统与外部系统的相互作用。

  4. 如何描述系统的可观测量。

  5. 如何描述复合系统的状态,以及它的组成部分。

1.2.1 第一个公设——静力学

公设 1与任何物理系统相关联的是一个复杂的内积空间被称为该系统的状态空间。系统在任何给定时刻完全由其状态向量描述,该状态向量是其状态空间中的单位向量。

从量子计算的角度来看,第一个公设的重要性是什么?答案是,量子力学为我们提供了经典二进制位(bit)的直接推广。经典比特是一个二态系统,在这两个状态之间有控制的转换。例如,我们可以使用一个电气开关,它可以处于两个离散的、稳定的状态(“开”和“关”)之一。尽管在晶体管时代,电气开关似乎是比特的一个奇怪物理实现,但它们说明了一个关于计算的一般重要观点:它是独立于底层硬件的。使用电气继电器和 CMOS 晶体管可以获得完全相同的计算结果。

量子力学中的比特版本,称为量子二进制位(量子比特,qubit),是一个量子力学的二态系统。量子力学的第一个公设告诉我们,这样一个系统的状态可以通过一个二维复数向量空间中的单位向量在数学上表示。这也意味着这样的系统可以存在于基态的叠加态中。事实上,任何向量|v⟩在二维复数向量空间中,

 ⌊ ⌋ α |v⟩ = ⌈ ⌉ , β

可以表示为标准基向量的线性组合:

⌊ ⌋ ⌊ ⌋ ⌊ ⌋ ⌈ α⌉ ⌈1⌉ ⌈0⌉ β = α 0 + β 1 , |v⟩ = α |0⟩ + β |1⟩.

由于状态向量是单位向量,系数αβ必须满足

|α|2 + |β|2 = 1.

系数αβ概率振幅。尽管一个量子比特可以存在于基态的叠加中,但一旦测量(见公设 3),其状态会塌缩到基态之一:|α|²和|β|²分别给出了在测量后找到量子比特处于状态|0⟩|1⟩的概率。

我们可以类比自然数空间ℕ如何扩展到实数空间ℝ,然后扩展到复数空间ℂ。相比于ℕ,我们在ℝ和ℂ中有更多的函数可以操作并取得值。类似地,允许二态系统存在于叠加态显著扩展了可以转换这些状态的算子的范围(即进行计算)。

例如,不存在一个布尔函数f,当它作用于经典比特两次时,会产生一个 NOT 门:f(f(0)) = 1 且 f(f(1)) = 0。然而,在量子计算中,确实存在这样的算子。我们可以通过直接计算轻松验证,矩阵

 ⌊ ⌋ 1 + i 1 − i M := 1-⌈ ⌉ , 2 1 − i 1 + i

对基向量|0⟩应用两次会将其转换为基向量|1⟩,对基向量|1⟩应用两次会将其转换为基向量|0⟩。M 是一个量子逻辑门的例子——它是一个转换量子比特状态的算符,从而实现计算。

备注: 物理系统的状态空间可以是无限维的。基于无限维希尔伯特空间的量子计算范式被称为连续变量量子计算,例如在一些光子量子计算系统中得以实现。然而,在数字量子计算的背景下,我们将限制分析为有限维状态空间。

量子比特(量子计算的基本存储单元,是经典比特概念的推广)的状态可以在数学上描述为二维复向量空间中的单位向量。任何其状态空间可以由ℂ²描述的物理系统都可以作为量子比特的实现。

1.2.2 第二公设 – 动力学

公设 2: 闭合量子系统的时间演化由 薛定谔方程 描述

iℏd-|ψ-(t)⟩ = ℋ |ψ(t)⟩, dt

其中是普朗克常数,是一个与时间无关的厄米算符被称为系统的哈密顿量

一个量子系统的哈密顿量是对应于该系统总能量的算符,其特征值是系统可能的能级。对哈密顿量的了解提供了关于系统动力学的所有必要信息。

在薛定谔方程(1.2.2)中,闭合量子系统在时间t[1]的状态|ψ(t1)⟩与时间t[2]的状态|ψ(t2)⟩之间通过仅依赖于t[1]和t[2]的单位算符𝒰(t[1],t[2])相互联系:

|ψ(t2)⟩ = 𝒰 (t1,t2) |ψ(t1)⟩ ,

其中𝒰(t[1],t[2])是由哈密顿量ℋ得到的。

 ( ) iℋ-(t2-−-t1) 𝒰 (t1,t2) = exp − ℏ .

单位算符保持内积(因此保持范数、长度和距离),这意味着对于两个向量|u⟩|v⟩,如果𝒰是单位算符,那么𝒰|u⟩与𝒰|v⟩之间的内积与|u⟩|v⟩之间的内积是相同的:

 † ⟨u|𝒰 𝒰 |v⟩ = ⟨u|v⟩ .

单位算符是旋转的复数推广:单位算符将正交基变换到另一个正交基,任何具备此性质的算符都是单位算符。在量子力学中,物理变换如旋转、平移和时间演化对应于将量子态映射到其他量子态的映射。这些映射应该是线性的,并且保持内积。这使得我们可以将单位算符视为实现量子计算协议的量子 逻辑门。此外,单位算符是可逆的,这一关键特性确保了量子计算是可逆的

量子逻辑门(经典计算中的布尔逻辑门的量子对应物)是单位算符,能够变换量子态,从而实现计算。

1.2.3 第三公设 – 测量

给定一个厄米算符 𝒜,谱定理意味着系统的状态 |ψ⟩ 可以写成一个叠加态

 ∑N |ψ⟩ = αi |ψi⟩ , i=1

其中系数(α[i])[i=1,…,N]是复数概率振幅,假设已标准化,满足∑ [i=1]^N|α[i]|² = 1,并且 (|ψi⟩)[i=1,…,N] 是𝒜的特征函数。测量公设则如下所述:

公设 3如果我们在状态 |ψ⟩ 中测量厄米算符 𝒜 ,则测量的可能结果是 𝒜 的特征值 (λ[i])[i=1,…,N] ,并且测量到 λ[i] 的概率 **p[i] p[i] = |α[i]|²给出。测量结果 *λ[i]后,系统的状态变为

|ψ⟩ = |ψi⟩.

在相同计算基下的即时测量将给出相同的 结果,没有任何不确定性。

量子测量由测量算符 (𝒫[i])[i=1,…,N] 描述,作用于系统的状态空间,具有N个可能结果。如果系统的状态在测量前是 |ψ⟩,则结果i的概率为

ℙ(i) = ⟨ψ |𝒫 †i𝒫i |ψ ⟩.

测量算符还应满足完整性条件

∑N 𝒫 †i𝒫i = ℐ, i=1

其中ℐ是单位算符。这确保了所有结果的概率之和为 1。

这些测量算符是线性的,但不是单位的。从量子计算的角度来看,我们关注的是投影测量算符(定义 2),它们是计算基的投影,例如由 (1.1.9)给出的标准正交基。

例如,单个量子比特的测量算符可以定义为

 ⌊ ⌋ ⌊ ⌋ 1 0 0 0 𝒫0 := |0⟩⟨0| = ⌈ ⌉ and 𝒫1 := |1⟩⟨1| = ⌈ ⌉ . 0 0 0 1

我们可以很容易验证𝒫[0]² = 𝒫[0]且𝒫[1]² = 𝒫[1],这正是投影算符的性质,并且满足完整性条件(1.2.3)。如果量子比特处于状态|ψ⟩ = α|0⟩ + β|1⟩,那么测量算符𝒫[0]将以概率|α|²给出|0⟩,测量算符𝒫[1]将以概率|β|²给出|1⟩。实际上,

𝒫[0]|ψ ⟩ = |0⟩⟨0|(α|0⟩ + β|1⟩) = α|0⟩⟨0||0⟩ + β|0⟩⟨0||1⟩ = α|0⟩,
𝒫[1]|ψ ⟩ = |1⟩⟨1|(α|0⟩ + β|1⟩) = α|1⟩⟨1||0⟩ + β|1⟩⟨1||1⟩ = β|1⟩.

量子力学的测量公设表明,在相同的计算基中进行的直接测量将返回相同的结果,不会有任何不确定性。这里的关键词是“相同的计算基”。如果接下来的测量是在另一个基中进行(由来自状态空间的另一组线性无关的单位向量指定的基)会发生什么呢?例如,假设量子比特处于状态

 1 1 |ψ⟩ = √---|0⟩ + √---|1⟩. 2 2

测量|ψ⟩在{|0⟩,|1⟩}计算基中,将以相等的概率 12 观察到态|0⟩|1⟩。假设我们测量了|0⟩,此时量子比特的状态为

 ′⟩ |ψ = 1 ⋅ |0⟩+ 0 ⋅ |1⟩.

如果我们在相同的{|0⟩,|1⟩}计算基中重复测量,我们将以概率 1 得到状态|0⟩,这符合测量公设。然而,如果我们在哈达玛基{|+ ⟩,|− ⟩}基中测量状态|ψ′⟩,则由下式给出

|+ ⟩ := √1-(|0⟩+ |1⟩) 和 |− ⟩ := 1√--(|0⟩ − |1⟩), 2 2

我们将有相等的概率得到|+⟩|− ⟩的结果。假设我们测量了|− ⟩,此时量子比特的状态为

 ′′⟩ |ψ = 0 ⋅ |+ ⟩+ 1 ⋅ |− ⟩ .

如果我们在哈达马尔基{|+⟩,|− ⟩}中重复测量态|ψ ′′⟩,我们以概率 1 获得态|− ⟩。但是从{|0⟩,|1⟩}计算基的角度看,量子比特的状态是态|0 ⟩|1⟩的等幅叠加,在这个基中我们有相等的机会测量到|0⟩|1⟩

备注: 组成标准计算基的基向量|0⟩|1⟩可以通过应用以下幺正算符(旋转),称为哈达马尔门,转换为组成哈达马尔基的基向量|+⟩|− ⟩

 ⌊ ⌋ -1-⌈1 1 ⌉ H = √2-- 1 − 1 .

第 6、10 和 11 章提供了哈达马尔门应用的示例。

测量在量子计算中起着至关重要的作用。这个过程是坍缩量子态并读取经典信息:测量编码量子态的量子比特将产生一个经典比特串。测量过程会生成概率性的结果。因此,我们需要对同一个量子态进行多次测量,以生成足够多的经典比特串,从而产生可靠的统计数据。

测量过程描述了量子态由于与环境的接触而坍缩的过程。测量后,量子比特的状态是已知的且没有任何不确定性。从一个量子比特中最多可以提取 1 比特信息。为了提取有关给定量子态中编码的概率分布的更多信息,需要对同一个状态进行多次测量。

1.2.4 第四公设 – 可观察量

公设 4对于物理系统的每个可测量属性,都存在一个 相应的厄米算符。物理可观察量的值 对应于厄米算符的期望值。厄米算符 ⟨𝒜 ⟩ 在归一化态|ψ ⟩ 中的期望值由下式给出

⟨𝒜 ⟩ := ⟨ψ|𝒜 |ψ⟩.

让我们考虑一般情况,其中厄米算符𝒜在态|ψ ⟩中计算其期望值,且此态并不是𝒜的本征函数。根据谱定理 3(另见(1.2.3)),系统的态|ψ ⟩可以表示为叠加态

 N ∑ |ψ⟩ = αi |ψi⟩ , i=1

其中 (|ψi⟩)[i=1,…,N]是𝒜的本征函数,(α[i])[i=1,…,N]是相应的概率幅度。

因此,给定状态|ψ⟩下𝒜的期望值,根据(1.2.4),其计算公式为

 ∑N ∑N N∑ ∑N ⟨𝒜⟩ = α∗iαj ⟨ψi|𝒜 |ψj⟩ = α ∗iαjλj ⟨ψi|ψj⟩, i=1j=1 i=1 j=1

其中 (λ[i])[i=1,…,N] 是𝒜的特征值。由于特征函数的正交性,只有当 i = j 时,表达式中的项才会存在,因此

 N N ∑ ∗ ∑ 2 ⟨𝒜 ⟩ = α iαiλi = |αi| λi. i=1 i=1

因此,物理可观测量的值是对应的厄米算符特征值的加权平均值。加权因子是系数 (|α[i]|²)[i=1,…,N],它们是测量𝒜对应特征态的概率。

厄米算符在量子力学中扮演着异常重要的角色,因为它们的期望值对应于物理可观测量。

1.2.5 第五公设 – 复合系统

公设 5. 复合物理系统的状态空间是各个组分物理系统状态空间的张量积。

如果第一个组分物理系统处于状态|ψA ⟩,而第二个组分物理系统处于状态|ψB⟩,那么组合系统的状态|ψ⟩由张量积给出:

|ψ⟩ = |ψA⟩ ⊗ |ψB⟩ .

并非所有组合系统的状态都可以分解为单个组分状态的张量积。如果一个系统的状态无法分解为组分部分的状态,我们称这些组分部分是纠缠的。

量子系统的纠缠是量子计算计算能力的主要来源之一。它使得我们可以将信息以指数级别存储在各个子系统(在极限情况下——单个量子比特)的状态之间的关联中,而不是直接存储在各个子系统的状态中。

为了说明这一点,我们可以看一下描述n量子比特系统状态所需的概率幅度的数量。经过测量后,单个量子比特可以处于两种可能的状态之一——两种基态之一,|0⟩|1⟩。这意味着我们需要指定两个概率幅度来完全描述量子比特在测量之前的状态。如果所有量子比特是独立的,并且系统的状态可以表示为单个量子比特状态的张量积,

|ψ⟩ = |ψ1 ⟩⊗ |ψ2⟩⊗ ...⊗ |ψn ⟩,

然后,我们需要指定 2n个概率振幅(每个单独量子态都有两个)来描述系统的态|ψ ⟩。然而,如果所有单个量子比特都发生纠缠,并且系统态的张量积表示|ψ ⟩不存在,我们则需要指定 2^n 个概率振幅——这是可以存储在系统中的有效信息度量。

量子计算的力量源自叠加原理和纠缠原理。纠缠使我们能够将大部分信息存储在量子比特态之间的关联中。

1.3 纯态与混合态

在某些情况下,量子力学系统的态不能通过状态向量来描述。在这里,我们将讨论这种情况,并提供一个数学工具来描述它们。

1.3.1 密度矩阵

让我们从一个由两个组成部分的物理系统的态开始,该系统由公式(1.2.5)给出。让 (|i⟩)[i=1,...,N] 和 (|j⟩)[j=1,...,M] 分别表示系统AB的希尔伯特空间的标准正交基:

 N M ∑ ∑ |ψA ⟩ = αi |i⟩, |ψB ⟩ = βj |j⟩, i=1 j=1

其中(α[i])[i=1,...,N] 和 (β[j])[j=1,...,M]是一些概率振幅。允许通过状态向量表示的态(1.3.1)称为纯态。在这种情况下,组合系统的状态为

 ∑N M∑ |ψ ⟩ = |ψA ⟩⊗ |ψB ⟩ = αiβj |i⟩⊗ |j⟩. i=1 j=1

然而,通常情况下,组合系统的状态将呈现如下形式:

 ∑N ∑M |ψ⟩ = γij |i⟩⊗ |j⟩, i=1 j=1

其中γ[ij]是可能不能分解为概率振幅的乘积(α[i])[i=1,...,N] 和 (β[j])[j=1,...,M])的概率振幅。如果γ[ij]不能分解为α[i]β[j],则组成系统AB是纠缠的,其状态不能通过状态向量表示(1.3.1)。这种系统AB的态称为混合态

更一般的设置是由集合形式的态组成,形式为 {p[k],|ψk ⟩}[k=1,…,N],其中每个|ψi⟩是一个量子态,其波函数已知且确定(尽管这并不一定提供测量统计的完整知识),而每个p[k]是与之关联的概率(而非振幅),范围在[0,1]之间。为了正确定义纯态和混合态,引入密度算符如下:

定义 7. 密度算符ρ是一个正半定的厄米算符,其迹为 1,并且形式为

 ∑N ρ := pk |ψk⟩⟨ψk|, k=1

其中 ∑ [k=1]^Np[k] = 1,且⟨ψ |ψ ⟩ k lk = l时为 1,否则为零。

从数学上讲,这样的密度算子 ρ 对应于一个 密度矩阵 (ρ[kl])[k,l=1,…,N],使得

 N ρ = ρ†, Tr(ρ) ≡ ∑ ρ = 1, ρ ≥ 0, for all k = 1,...,N. kk kk k=1

1.3.2 纯态

纯态是可以通过一个态向量表示的。

 N∑ |ψ⟩ = αi |i⟩, i=1

其中 (α[i])[i=1,...,N] 是在 ℂ 中的概率振幅,满足 ∑ [i=1]^N|α[i]|² = 1。在上述集合设置中,这意味着存在 k^∗∈{1,…,N} 使得 p[k^∗] = 1,因此 |ψ⟩ = |ψk∗⟩,因此 ρ = |ψ ⟩ψ|。密度矩阵还允许我们计算类似于(1.2.4)的期望值:

引理 3. *设 *ρ *为与纯态关联的密度矩阵(1.3.2),且 *𝒜 为可观测量(厄米算子),则

⟨𝒜⟩ := ⟨ψ |𝒜 |ψ ⟩ = Tr (ρ𝒜 ).

证明。 该引理由直接计算得出。

ψ|𝒜|ψ⟩ = ⟨ψ|𝒜∑ [i=1]^Nα [i]|i⟩
= ∑ [i=1]^Nα [i] ⟨ψ|𝒜|i⟩
= ∑ [i=1]^N⟨i|ψ ⟩ψ|𝒜|i⟩
= ∑ [i=1]^N ⟨i|ρ𝒜|i⟩ = Tr(ρ𝒜).

通过状态 |ψ ⟩ 给定的(1.3.2),我们得到

 N∑ ∑N ⟨𝒜 ⟩ = αiα ∗j ⟨j|𝒜 |i⟩. i=1 j=1

同时我们有

 ∑N ∑N ⟨𝒜 ⟩ = Tr(ρ𝒜) = ρij ⟨j|𝒜 |i⟩. i=1j=1

比较(1.3.2)和(1.3.2)得到纯态密度矩阵的以下表达式:

 ∑N ∑N ρij = αiα∗, ρ = αiα∗ |i⟩⟨j| = |ψ ⟩⟨ψ |. j i=1 j=1 j

示例: 纯态的一个例子是哈达玛尔态

 ⌊ ⌋ -1- -1- 1 |+ ⟩ = √2-(|0⟩+ |1⟩) = √2-⌈ ⌉, 1

对应的密度矩阵为

 ⌊ ⌋ ρ = |+ ⟩⟨+ | = 1-⌈1 1⌉ . 2 1 1

1.3.3 混合态

混合态是无法用单一的纯态向量表示的,因此它被表示为纯态的统计分布,形式为量子态的集合 {p[k],|ψk ⟩}[k=1,…,N],其中 ∑ [k=1]^Np[k] = 1 且 p[k] ∈ [0,1] 对每个 k 都成立。因此,混合态的密度表示为

 N ∑ ρ = pk |ψk ⟩⟨ψk|. k=1

类似于引理 3,我们可以使用密度矩阵表示关于混合态的观测量期望:

引理 4. *设 *ρ *为与混合态关联的密度矩阵(1.3.3),且 *𝒜 为可观测量(厄米算子),则

 ∑N Tr(ρ𝒜 ) = pk⟨ψk|𝒜 |ψk⟩ . k=1

证明。 该引理由直接计算得出。

Tr(ρ𝒜) = ∑ [i=1]^N ⟨i|ρ𝒜|i⟩
= ∑ [i=1]^N ⟨i|( N∑ ) pk |ψk ⟩⟨ψk| k=1𝒜|i⟩
= ∑ [k=1]^Np [k](∑N ) ⟨i|ψ ⟩⟨ψ |𝒜 |i⟩ i=1 k k
= ∑ [k=1]^Np [k] ⟨ψ[k]|𝒜|ψk⟩.

现在让我们看看密度矩阵形式如何帮助我们描述复合系统的状态。考虑一个由两个系统 AB 组成的纠缠态,给定为 (1.3.1),并且一个只在系统 A 的希尔伯特空间内起作用的厄米算符 𝒜。这个态中 𝒜 的期望值是多少?从 (1.2.4) 开始,我们得到

 N∑ ∑M ∑N M∑ ∗ ⟨𝒜 ⟩ = γijγ kl⟨k|𝒜 |i⟩⟨l|j⟩. i=1 j=1k=1 l=1

由于在 (1.3.3) 中,只有 l = j 的项才会存活,这是因为基态的正交性,我们得到

 ( ) ∑N ∑N ∑M ⟨𝒜 ⟩ = ( γijγ∗kj) ⟨k|𝒜 |i⟩. i=1 k=1 j=1

因此,描述系统 A 的混合态的密度矩阵为

 M ∑ ∗ ρik = γijγkj. j=1

注意,如果概率幅度 γ[ij] 可以分解为概率幅度 (α[i])[i=1,…,N] 和 (β[j])[j=1,…,M] 的乘积,则我们得到

 M∑ ∗ ∗ ∗∑M 2 ∗ ρik = αiβjαkβj = αiα k |βj| = αiαk, j=1 j=1

这描述了一个纯态。

区分纯态和混合态的一个简单标准如下:

引理 5. 令 *ρ 为一个密度矩阵。 不等式 Tr(ρ²) ≤ 1* 始终成立,且当且仅当 ρ 对应纯态时 Tr(ρ²) = 1

证明。 考虑一个由纯态组成的集合 {p[i],|ψi⟩}[i=1,…,N],其密度矩阵由 (1.3.3) 给出。因此

Tr(ρ²) = Tr( ( ) ( ) ) ∑N ∑N ( pi |ψi⟩⟨ψi| ( pj |ψj⟩⟨ψj|) ) i=1 j=1
= Tr( ) ( ∑N ∑N ) pipj |ψi⟩⟨ψi| |ψj⟩ ⟨ψj | i=1 j=1
= Tr( ∑N ) p2i |ψi⟩ ⟨ψi| i=1 = ∑ [i=1]^Np [i]²Tr(|ψi⟩ψ[i]|) = ∑ [i=1]^Np [i]²⟨ψi|ψi⟩ = ∑ [i=1]^Np [i]²,

由于 p[i] 是位于 [0,1] 之间的概率,且其和为 1,因此它小于 1。现在假设 Tr(ρ²) 等于 1,那么 ∑ [i=1]^Np[i]² 也成立。如果对于所有 i = 1,…,Np[i] ∈ (0,1),则

 ∑N 2 ∑N 1 = pi < pi = 1, i=1 i=1

这是一个矛盾,因此存在 i^∗∈{1,…,N},使得 p[i^∗] = 1,从而 ρ = |ψi∗⟩ψ[i^∗]| 是纯态。反之,如果 ρ = |ψi⟩ψ[i]| 对某些 i ∈{1,…,N} 代表纯态,那么

Tr(ρ2) = Tr(|ψ ⟩⟨ψ | |ψ ⟩⟨ψ |) = Tr(|ψ ⟩⟨ψ |) = ⟨ψ |ψ ⟩ = 1. i i i i i i i i

示例: 一个混合态的示例是统计集,由状态|0⟩|1⟩组成。如果一个物理系统以相等的概率处于状态|0⟩或状态|1⟩,则它可以用混合态来描述。

 ⌊ ⌋ 1- 1- 1-⌈1 0⌉ ρ = 2 |0⟩⟨0|+ 2 |1⟩⟨1| = 2 0 1 .

请注意,这与纯态的密度矩阵不同

|ψ ⟩ = 1√--(|0⟩ + |1⟩), 2

它的表达式为

 ⌊ ⌋ ρ = |ψ⟩⟨ψ | = 1(|0⟩+ |1⟩)(⟨0|+ ⟨1|) = 1(|0⟩⟨0|+|1⟩⟨0|+ |0⟩⟨1|+ |1⟩⟨1|) = 1⌈1 1⌉. ψ 2 2 2 1 1

与纯量子态不同,混合量子态无法用单一的态矢量来描述。然而,纯态和混合态都可以通过密度矩阵来描述。

总结

在本章中,我们学习了量子力学的关键原理,首先回顾了线性代数的基本元素,然后介绍了狄拉克符号。

我们接着介绍了量子力学的主要公设及其在量子计算中的相关性。我们学习了如何描述一个封闭系统的状态(静态)和演化(动态),系统与外部系统的相互作用(测量),可观察量,以及复合系统的状态如何通过其组成部分来表示。

我们最终介绍了密度算符,它使我们能够描述纯态和混合态量子态,并与只能表示纯量子态的态矢量进行对比。

在下一章中,我们将探讨量子力学原理在模拟量子计算中的应用——量子退火。

加入我们书籍的 Discord 空间

加入我们的 Discord 社区,结识志同道合的人,并与 2000 多名成员一起学习:packt.link/quantum

图片

第一部分:模拟量子计算 – 量子退火

第二章:绝热量子计算

搜索算法是计算机科学中最重要和最基础的算法之一,最基本的例子就是在包含N个项目的列表中找到一个特定项。已知经典算法在时间上与问题规模N成正比解决这个问题,当N变得非常大时,问题变得非常难以处理。1996 年,格罗弗(Grover)[117]设计了一种量子算法,可以在时间上实现二次加速来解决此类搜索问题,但显然在那个时候量子计算机尚不存在。不久之后,法希(Farhi)、戈德斯通(Goldstone)、古特曼(Gutmann)和西普瑟(Sipser)[98]通过绝热演化的量子计算方法将格罗弗问题重新表述为可满足性问题。

另一个难以用经典方法解决的难题是组合优化问题。卡车调度问题最早由丹齐格(Dantzig)和拉姆塞尔(Ramser)提出[78],旨在寻找最佳的送货卡车路线,它是著名的旅行商问题(TSP)的推广。其他同类著名的优化问题还包括划分问题和二进制整数线性规划,等等。精确算法仅对小规模问题有效。启发式算法和元启发式算法(例如,进化搜索启发式算法,如遗传算法和粒子群优化算法)通常更适用于实际应用,因为现实世界中的问题规模通常较大。由于搜索时间随着问题规模呈指数增长,因此一直有强烈的动力寻找替代方法来解决这些具有广泛实际应用的问题,尤其是在金融领域。绝热量子计算(AQC)准备进入舞台。

2.1 计算问题的复杂度

在本章及随后的章节中,我们将常常讨论对经典计算机来说难以处理,但可以通过量子算法和硬件高效解决的计算问题。我们如何量化计算问题的难度呢?一种方法是从计算资源的角度来分析问题:解决这些问题需要多少时间和内存?这引出了复杂度类的概念。以下是一些重要的示例:

  • P 类(多项式)是指可以通过确定性图灵机在多项式时间内解决的决策问题的集合。

  • NP 类(非确定性多项式)是指可以通过非确定性图灵机在多项式时间内解决的决策问题的集合。

这些定义要求我们进一步指定以下对象:

  • 决策问题是指可以将输入值表示为是/否问题的计算问题。

  • 多项式时间意味着算法的运行时间在算法输入的大小上被一个多项式表达式所上界。

  • 图灵机 是一种计算的抽象模型,其通用性足以涵盖任何计算机问题。

  • 确定性图灵机 是最基本类型的图灵机,它使用一组固定的规则来确定其未来的操作。

  • 非确定性图灵机 是一种能够从给定状态探索多个备选未来操作的图灵机。

在计算难度方面,我们将特别关注那些 NP 完全NP 难 的问题。

当一个问题是 NP 完全问题时

  1. 每个解的正确性都可以在多项式时间内验证,且蛮力搜索算法可以通过尝试所有可能的解来找到一个解;

  2. 它可以用来模拟其他每个我们能够在多项式时间内验证其解是否正确的问题。

NP 完全问题是最困难的,它们的解可以快速(在多项式时间内)被验证。如果我们能够快速找到某些 NP 完全问题的解,那么我们就能快速找到每个其他问题的解,只要给定的解能够容易地被验证。

当 NP 中的每个问题都能在多项式时间内归约到该问题时,该问题是 NP 难的。或者说,当每个 NP 完全问题都能在多项式时间内归约到该问题时,该问题是 NP 难的。由于 NP 中的每个问题都能在多项式时间内归约到一个 NP 完全问题,因此第二个定义也意味着第一个定义。

NP 难类不限于决策问题,还包括搜索问题和优化问题。这意味着 NP 难问题不必属于复杂度类 NP。

可以说,计算机科学中最重要的未解问题是 P = NP 是否成立。尽管尚未证明,但广泛认为 P NP。图 2.1 展示了两种情形下复杂度类之间的关系。

图 2.1:P、NP、NP 完全和 NP 难问题集之间关系的示意图。

图 2.1:P、NP、NP 完全和 NP 难问题集之间关系的示意图。

2.2 绝热量子计算的原理

绝热量子优化是一种有前景的方法,用于解决 NP 完全和 NP 难问题 [97]。假设优化问题的解被编码在量子哈密顿量 ℋ[F] 的基态(即对应于最低本征值的量子态)中。根据量子力学的第二公设(第 1.2.2 节),量子系统的动力学完全由其哈密顿量来指定。如果我们知道如何将我们想要最小化的目标函数编码到量子系统的哈密顿量中,那么找到哈密顿量的基态就等同于找到最小化目标函数的决策变量集。

作为一个简单的例子,考虑一个函数 f :{0,1}^n →ℝ,它需要被最小化,并且取哈密顿量

 ∑ ℋF := f(z) |z⟩⟨z|. z∈ {0,1}n

显然,对于任何 z[0] ∈{0,1}^n,

 ( ) ℋ |z ⟩ = ( ∑ f(z) |z⟩⟨z|) |z ⟩ = f(z ) |z⟩ ⟨z |z ⟩ = f(z ) |z ⟩, F 0 n 0 0 0 0 0 0 0 z∈{0,1}

由于计算基(|z⟩)[z∈{0,1}^n] 是正交归一的。因此,任何 z[0] ∈{0,1}^n 都是 ℋ[F] 的本征态,具有本征值 f(z[0])。因此,最小化 f 显然等同于找到哈密顿量 ℋ[F] 的最低本征值。

让我们进一步假设有另一个量子哈密顿量 ℋ[0],其基态易于找到并且容易在实验设置中准备。那么,如果我们将量子系统准备在 ℋ[0] 的基态,然后绝热地(缓慢地)改变系统哈密顿量 ℋ(t),从 t = 0 时的 ℋ[0] 到 t = τ 时的 ℋ[F],根据以下时间演化:

 ( ) ℋ (t) = 1− -t ℋ0 + tℋF , τ τ

然后,如果 τ 足够大,并且 ℋ[0] 与 ℋ[F] 不对易,则量子系统将始终保持在基态,按照量子绝热定理进行。测量 t = τ 时的量子状态将产生我们问题的解(一个编码二进制决策变量最优配置的比特串)。

我们在第 2.2.1 节中提供了详细的绝热量子优化算法解释以及量子绝热定理的说明。就与最佳经典算法相比,可能实现的量子加速而言,对于大小为 N 的问题,量子优化器在时间上按以下比例解决 NP-困难的组合优化问题:

 γ exp(βN ),

随着 N 趋向无穷大,对于正系数 βγ,它们可能小于已知的经典算法 [197]。事实上,早期实现绝热量子计算原理的量子退火器实验展示了数个数量级的量子加速(忽略各种计算开销,随着量子退火技术的成熟,这些开销可能会减少) [175,201,296]。

系数 γ 迄今为止是最重要的。这可以通过以下表格来说明,表中提供了计算时间的估算值,作为问题规模的函数。假设单次操作需要 1 微秒,且操作次数按 2^N(“经典基准”)或 e^(√ -- N)(“量子优化”时 γ = 0.5)来变化,我们得到以下结果:

N 2^(N) e^(Table 2.1: 计算时间与问题规模的关系。)
10 1 毫秒 0.024 毫秒
50 35.7 年 1.2 毫秒
100 4 × 10¹⁶ 年 22 毫秒
500 10¹³⁷ 年 1.4 小时

表 2.1:计算时间与问题规模的关系。

绝热系统演化持续时间 T 的渐近估计是问题规模的指数函数,它来源于系统应始终保持在局部哈密顿量的基态这一要求。随着基态与第一激发态之间的能量间隙变小,系统演化过程应相应减缓。

然而,如果我们仅对近似解感兴趣(并愿意接受所得到解的质量有所下降),我们可以预期,当 N 变大时,NP-困难的组合问题能够在多项式时间内得到解决,且解的时间与 N^γ 成正比,其中 γ > 0 [23, 253]。

绝热量子计算的优势在于它能够通过物理系统的自然演化解决困难的计算问题。

2.2.1 量子绝热定理

在薛定谔方程 (1.2.2) 中(归一化时取ℏ = 1)且哈密顿量 ℋ 恒定的情况下,如果系统从 |ψ (0)⟩ 开始,则解会发展到

 −iℋt |ψ (t)⟩ = e |ψ(0)⟩

在时刻 t ≥ 0 时。这尤其意味着,任何哈密顿量 ℋ 的本征态 |ψ0 ⟩,满足 ℋ|ψ0⟩ = λ[0]|ψ0 ⟩ 对某个本征值 λ[0],将通过薛定谔方程从 |ψ0⟩ 演化到

 −iℋt −iλ0t |ψ(t)⟩ = e |ψ0⟩ = e |ψ0⟩ ,

即本征态仅获得一个相位 e^(−iλ[0]t),且不同本征态之间不存在时间上的跃迁。我们现在考虑的更有趣的情况是时间依赖的哈密顿量。

再次考虑薛定谔方程 (1.2.2)(归一化时取ℏ = 1),时间区间为 [0],其中哈密顿量 ℋ 是时间的函数。时间变化 t(⋅),使得 t(0) = 1 且 t(1) = τ,得出

 d |ψ(s)⟩ i--------= t′(s)ℋ (s) |ψ(s)⟩ ds

在单位时间区间 [0,1] 内。需要注意的是,哈密顿量 ℋ 与时间区间 τ 本身无关。特别是,这排除了具有多个时间尺度的哈密顿量,如在 [206] 中所述。在这里,我们主要关注的是(稍微推广的)形式为 (2.2) 的哈密顿量,

ℋ (s) = r(s)ℋ0 + (1− r(s))ℋF ,

对于给定的两个哈密顿量 ℋ[0] 和 ℋ[F],其中 r(⋅) 是一个连续的绝热演化路径,从 r(0) = 1 递减到 r(1) = 0。标准的绝热调度由 r(s) = 1 − s 给出。

量子绝热定理的核心内容如下。假设系统从 ℋ[0] 的基态开始。如果哈密顿量的时间演化足够缓慢,则系统将保持在随时间演化的哈密顿量的基态,直到时间 1。该定理最初由 Born 和 Fock 提出 [41],并通过 Kato [156] 使用线性算符扰动理论进行了推广。

为了正确陈述,设 |ψ (⋅)⟩ 为施罗丁格方程 (2.2.1) 的解,因此对于任意 s ∈ [0,1],存在一个单位算符 𝒰,使得

|ψ (s)⟩ = 𝒰(s) |ψ(0)⟩.

考虑形式为 (2.2.1) 的哈密顿量和时间变化 t(s) = (因此 t′(s) = τ),使得施罗丁格演化动态可以写作

id |ψ(t)⟩= τ ℋ(t) |ψ(t)⟩, dt

在区间 [0,1] 上,对于每个 t ∈ [0,1],我们用 |ϕ(t)⟩ 表示 ℋ[t] 的基态。

我们最终呈现以下量子绝热定理的版本,该定理由 Jansen、Seiler 和 Ruskai 提出 [149]。我们回顾一下,如果存在与某个特征值关联的唯一特征态,则该特征值称为非简并的。对于任意 t ∈ [0,1],给定哈密顿量 ℋ(t),我们用 Δ[t] 表示 ℋ[t] 的最低特征值和下一个特征值之间的(严格正的)能隙。

定理 7(量子绝热定理)。假设对于任意 t ∈ [0,1] 哈密顿量 ℋ(t) 具有非简并的基态,并且存在 𝜀 > 0 使得

2 { ∥ℋ ′(0)∥ ∥ℋ ′(1)∥ ∫ 1[( ) ∥ℋ′(s)∥2 ∥ℋ ′′(s)∥] } -- c0----2---+ c1----2---+ 3c21 + c1 + c3 ----3---+ c2----2--- ds ≤ τ. 𝜀 Δ0 Δ 1 0 Δ s Δs

然后,从状态 |ψ(0)⟩ = |ϕ (0)⟩* 开始系统,施罗丁格演化在时间 1 时给出一个状态 |ψ (1)⟩ 满足

∥|ϕ(1)⟩− |ψ(1)⟩∥ ≤ 𝜀.

这种量化版本的绝热定理提供了一个估计,说明时间范围 τ 需要多大才能达到足够的精度 𝜀。例如,考虑插值方案 (2.2.1),其中 r(s) = 1 − s,因此

ℋ (s) = (1 − s)ℋ0 + sℋF ,

因此,ℋ′(s) = −ℋ[0] + ℋ[F] 且 ℋ′′(s) = 0。在这种情况下,定理 7 中的定量估计简化为以下形式:

推论 1在定理 7 中的相同假设下,并且采用上述插值方案,定量估计

 { } 2 ∥ℋF − ℋ0 ∥ ( 2 ) ∥ ℋF − ℋ0 ∥2 τ ≥ 𝜀- c0------2----+ 3c1 + c1 + c3-------3---- , Δ Δ

并且 Δ := min[s∈[0,1]]Δ[s],再次确保 ∥|ϕ(1)⟩− |ψ(1)⟩∥≤ *𝜀**。

这个推论特别突出了谱隙 Δ的重要性。它越小,等待绝热特性变得高效的时间就越长。量子绝热定理有不同的版本,每个版本有稍微不同的假设。Avron 和 Elgart [19] 以及 Bornemann [40] 证明了没有谱隙条件的弱形式。

量子绝热定理的证明相当技术性且有多个版本,每个版本的证明略有不同。然而,它们都依赖于分析对应于哈密顿量的演化算符 𝒰(⋅),显然它能够解决

d𝒰(t)- dt = − iτℋ (t)𝒰 (t)

从恒等式出发,特别是需要构造一个绝热算符 𝒰A,它解决相同的薛定谔方程,将 ℋ(⋅)替换为其绝热版本。

 -i ′ ℋA (t) = ℋ (t)+ τ [𝒫 (t),𝒫(t)],

其中 𝒫(t)表示投影算符,投影到 ℋ(t)的期望本征态。然后,证明跟随通过展示随着 τ增大,𝒰[A]和𝒰变得足够接近。

通过将量子系统的绝热极限的几何特性与向量束中的平行运输联系起来,Berry [33] 和 Simon [267] 的研究催生了几何量子计算。Van Dam、Mosca 和 Vazirani [291] 证明了可以构造出一个离散时间的演化算符 𝒰的近似,且只需要多项式时间的开销。

量子绝热定理为绝热量子计算提供了理论背景。

2.2.2 优化与元启发式算法

元启发式算法用于寻找“一般”优化问题的“良好”近似解。通俗来说,元启发式算法是一种搜索策略,通过在某些点评估优化函数 f(⋅),来探索优化过程。存在无数的元启发式算法,它们根据函数评估的历史决定接下来(在哪个 x 值)评估 f(x),但所有这些算法都基于同一基本原则,即好的解往往靠近其他好的解,换句话说,优化表面具有一定的平滑性。这揭示了所有元启发式算法必须权衡的探索与开发的取舍。

元启发式算法可以通过逐步下降来利用其“当前”状态。风险在于,这可能会返回一个(可能并不太好的)局部最小值。另一方面,元启发式算法可以通过进行“较大移动”来探索优化表面,以发现是否有其他部分的优化表面返回更小的f(x)值。在这种情况下,可能会找到全局最小值,但返回的 x 值可能只是实际全局最小值的一个相当差的近似值。

模拟退火

模拟退火是一种受热退火启发的元启发式算法。考虑在某个定义域 D ⊂ℝ^n 上最小化给定函数 f : D →ℝ。算法的工作流程如下:

  1. 从初始值 x ∈ D 开始,并计算 f(x)。

  2. 随机选择一个邻居 y 作为 x 的邻居,并计算 f(y)。

  3. 如果 f(y) < f(x),则设 x = y。

  4. 否则,保持 x 不变或设 x = y。

  5. 重复直到达到结束标准。

关键步骤是步骤 4 中的随机选择,旨在避免陷入局部最小值,并且至少在算法的开始阶段,偏向于探索而非开发利用。在 f(y) ≥ f(x) 的情况下,我们将以概率 y↦→x 进行切换。

 ( ) ℙ (switch) = exp − f(y)−f(x) , τ

其中,τ 充当热退火温度:当系统较热时,粒子会移动(探索),而当需要精细化(开发)时,它会冷却下来。

量子退火与量子隧穿

量子退火将模拟退火的思想与量子绝热定理结合,通过考虑时间依赖的哈密顿量。

ℋ(t) = ℋF + Γ(t)ℋ0,

其中,ℋ[F] 是最终的纵向场哈密顿量,其基态编码了优化问题的最优解,ℋ[0] 是初始的横向场哈密顿量,假设与 ℋ[F] 不对易。函数 Γ 是横向场系数,它充当热退火的温度,即一个随着 t 接近最终时间时逐渐趋近于零的连续下降函数。根据量子绝热定理(定理 7),如果系统处于 ℋ(0) 的基态,并且 ℋ(⋅) 随时间缓慢演化,那么它将始终保持在每个时刻的 ℋ(t) 基态,因此会收敛到 ℋ[F] 的基态(从而收敛到问题的最优解)。顺便提一下,模拟退火框架中跨越局部山丘的量子等价物是量子隧穿。

图 x1-54006r2:量子退火求解优化问题的示意图。目标是通过绝热演化将系统保持在ℋ(t)的基态。

图 2.2:量子退火求解优化问题的示意图。目标是通过绝热演化将系统保持在ℋ(t)的基态。

图 2.2 说明了量子退火在解决优化问题中的实际应用。我们首先将系统置于某个易于准备的横向场哈密顿量 ℋ[0] 的基态中。然后,初始哈密顿量缓慢(绝热地)转变为最终的纵向场哈密顿量 ℋ[F]。如果系统在整个量子退火过程中始终保持在局部哈密顿量的基态,那么读取结果将为我们提供与最终哈密顿量中编码的目标函数全局最小值对应的二进制决策变量(量子比特值)的最优配置。

回顾以下两个(比特)字符串之间的哈明距离定义:

定义 8. 设 a := (a[1],…,a[n]) 和 b := (b[1],…,b[n]) 表示两个比特字符串,属于 {0,1}^n。a 和 b 之间的哈明距离定义为

∑n |ai − bi|. i=1

在寻找全局最小值的过程中,有两个重要的机制:热退火和量子隧穿。在图 2.2 中,最终哈密顿量在状态 101101 处具有全局最小值,而在状态 010110111001 处具有两个局部最小值。尽管两个局部最小值的能量相同,但它们与全局最小值的哈明距离不同。状态 010110 和全局最小值状态 101101 之间的哈明距离是 5:需要翻转 5 位才能从这个局部最小值状态到达全局最小值。状态 111001 和全局最小值之间的哈明距离是 2。然而,由于它们之间有高能量障碍,从状态 111001 到全局最小值状态 101101 更为困难,而从状态 010110 到全局最小值则相对简单:通过热退火,可以通过一个相对较低且平坦的能量障碍进行一系列连续的比特翻转。幸运的是,我们还拥有量子隧穿效应,这使得系统能够穿越高但窄的能量障碍。一次性翻转 5 位(宽障碍)对于量子隧穿来说可能是一个具有挑战性的任务,但翻转 2 位(窄障碍)则是一个可以以足够高的概率发生的过程。

量子退火是绝热量子计算原理的实际实现,可以与其经典对手——模拟退火进行对比。量子退火的强大来自两个来源:热退火和量子隧穿。正是这些经典和量子效应的结合,使得量子退火能够实现卓越的性能。

2.3 AQC 的实现

我们如何构建量子退火器?它们的物理实现是什么?我们能找到一种合适的度量标准来客观量化它们的性能吗?我们在它们的发展过程中是否观察到稳定的进展?在本节中,我们将提供这些问题的答案,这些答案是二十年来深入研究的成果。

2.3.1 量子退火的简短历史

第一个主要的专利由 Amin 和 Steininger 为 D-Wave Systems 设计[11],并导致了开创性的论文[151]。从那时起,许多研究探讨了 D-Wave 计算机的价值,特别是 McGeoch 和 Wang[211],他们证明了在早期的 D-Wave 处理器(D-Wave Two,512 量子比特)上针对特定问题的显著加速。此后,更多的实验跟进了这一早期研究,其中有两个结果,毋庸置疑,它们从许多其他有趣的发现中脱颖而出。

首先,D-Wave 量子退火器的性能已经通过在 D-Wave Two [38]上的实验确立了量子隧穿的贡献。观察到了多量子比特隧穿,并且实验表明它在可编程量子退火器中发挥了计算作用。

然后,Denchev et al. [83] 在一个精心设计的、具有高且窄能量屏障并通过这些屏障将局部极小值分开的问题上,在 1,152 量子比特的 D-Wave 2X 处理器上,相对于经典基准(模拟退火),实现了 8 个数量级的加速。对于具有 945 个变量的实例,D-Wave 2X 量子退火器的 99%成功概率的时间比在单个处理器核心上运行的模拟退火快了 1 亿倍。

此外,Venturelli 和 Kondratyev 通过在较新的 2,048 量子比特 D-Wave 2000Q 处理器上执行正向和反向量子退火,解决了一个完全连接图问题[175,296]。第三章提供了这一用例的详细描述。

截至撰写本文时,最先进的 D-Wave 机器是 5,760 量子比特的 Advantage 系统,它还具有更低的噪声和更好的量子比特连接性——一个物理量子比特可以直接连接最多 15 个其他物理量子比特,而在 D-Wave 2000Q 中,一个物理量子比特最多只能与 6 个其他物理量子比特连接[92]。因此,表示二进制变量的逻辑量子比特由更短且更稳定的物理量子比特链组成。例如,对于问题规模N = 64(对应于可以嵌入 D-Wave 2000Q 的最大完全连接图),D-Wave 2000Q Chimera 图的链长为 17,而 Advantage Pegasus 图的链长仅为 7。

有趣的是,量子计算算法促使了经典算法的密集改进,并且最近在优化经典算法方面的进展证明[259],它们至少能够与 D-Wave 机器匹敌。

2.3.2 D-Wave 量子退火器的跨代比较

D-Wave 量子退火器的技术进展已被 Pokharel 等人 [235]研究过。研究了四代 D-Wave 量子退火器在解决一类参数化调度问题集合中的表现。这些问题是 NP 难的,并且有许多实际应用。

量子退火器的性能通过一种叫做“解决时间”(TTS)的指标来衡量。在基准测试研究中,使用量子退火器多次运行收集的数据来计算给定可调参数配置下找到基态解的概率。这个概率由以下公式给出:

 基态解的数量 p = ------------------------------. 总运行次数

等效 TTS 定义为在成功概率为 α 的情况下,至少一次获得基态解所需的期望时间,计算公式为:

TTS = trunlog(1−-α-), log(1− p)

其中 t[run] 是量子退火器单次运行的退火时间,α 默认取值为 99%。

由于调度问题是 NP 难的,TTS 应该在渐近极限下随着问题大小 N 指数级增长,如公式(2.2)所示,γ = 1。这是一个关于参数 β(缩放指数)取什么值最能符合实验结果的问题。

TTS = T0 exp (βN ),

对于某些常数 T[0] > 0。正如在[235]中所确定的,缩放指数从 D-Wave Two 的 1.01 到 D-Wave Advantage 的 0.17 不等。

为了说明这种改进的规模,我们设定 N = 10,并且对于两种情况(β = 1.01 和 β = 0.17),TTS = 100 微秒。这产生了表 2.2 中所示的 TTS 作为 N 的函数的以下显著结果:

N TTS (β = 1.01) TTS (β = 0.17)
10 100 微秒 100 微秒
15 16 毫秒 234 微秒
20 2.4 秒 547 微秒
25 6.3 分钟 1.3 毫秒
30 16.5 小时 3.0 毫秒

表 2.2:TTS 作为问题大小 N 的函数,适用于不同的缩放指数值。

2.3.3 量子退火器的物理实现

量子退火机是一种通过首先指定具有容易计算的基态的初始哈密顿量,然后慢慢演化到最终问题哈密顿量的设备。硬件方面,为了确保量子相干性,系统处于封闭环境中,远离外部磁源,并保持在极低的温度下。系统的状态被视为量子比特的叠加态,每个量子比特都通过超导环表示,从而量子比特的状态定义为环中的电流方向。在计算过程中,电流的方向是未知的,但当系统解相干(由于观测或噪声)时,电流方向变得已知。每个量子比特的自旋方向通过施加在环上的磁场物理表示,磁场作为噪声可能扰动量子比特的自旋。量子比特之间还通过铁磁性(反铁磁性)耦合相连接,迫使它们的自旋朝同一方向或相反方向排列。

D-Wave 量子退火机依赖于哈密顿量的 Ising 公式化。这一做法得到了验证,因为 Barahona [24] 显示,求解 Ising 自旋玻璃的基态是 NP-hard 的。这意味着任何 NP 完全问题都可以通过多项式时间复杂度的开销转化为 Ising 自旋玻璃问题(参见第 2.1 节)。从数学上讲,优化问题被公式化为代价函数的最小化问题。

 ∑N ∑N ∑N LIsing(s) = gisi + Jijsisj, i=1 i=1 j=i+1

其中 s := (s[1],…,s[N]) 是二进制决策变量的向量(经典自旋变量取值 {−1,+1}),而 (g[i])[i=1,…,N] 和 (J[ij])[1≤i<j≤N] 是编码优化问题参数的系数。

根据量子力学中自旋的描述,我们需要将经典自旋变量替换为相应的算符——保利算符 σ[x]、σ[y] 和 σ[z](它们的矩阵表示请参见第 6.3.3 节)。然后,问题最终 哈密顿量呈现以下 Ising 形式 [147]:

 ∑N ∑N ∑N ℋF = giσi + Jijσiσj, i=1 z i=1j=i+1 z z

其中 g[i] 是施加在量子比特 i 上的偏置,而 J[ij] 是量子比特 ij 之间的耦合。

初始 哈密顿量的形式为

 N ℋ = ∑ σi, 0 x i=1

其中算符 σ[x](见第 6.3.3 节)是量子 NOT 门,用于翻转量子比特的状态:

NOT |0⟩ = |1⟩ and NOT |1⟩ = |0⟩ .

回忆在 (1.2.3) 中定义的量子态 |+ ⟩ 和 |− ⟩,我们得到

NOT|+ ⟩ =  1 √--- 2NOT(|0⟩ + |1⟩) =  1 √--- 2(|1⟩ + |0⟩) = |+ ⟩
NOT|− ⟩ = √1-- 2NOT(|0⟩|1⟩) = √1-- 2(|1⟩|0⟩) = −|− ⟩,

因此,|+⟩|− ⟩ 是两个本征态。

初始哈密顿量的本征态(2.3.3)是所有单独量子比特的状态|0⟩|1⟩的等权重叠加:

[ ]⊗N √1-(|0⟩+ |1⟩) . 2

哈密顿量ℋ[0]是横场哈密顿量。它的作用是制造无序,防止自旋彼此对齐(沿z轴)。哈密顿量ℋ[F]是纵场哈密顿量。在退火过程结束时,当横场和σ[x]项趋于零时,自旋应该沿z方向彼此对齐,可能是平行的,也可能是反平行的(这取决于相应耦合因子的值及其各自的偏差)。

D-Wave 量子退火机的架构基于一个特定的图(在 D-Wave 2000Q 的情况下是Chimera图,或在 Advantage 系统中的情况下是Pegasus图),该图实现了物理量子比特之间的特定连接模式。如前所述,这些图并不是完全连接的,这意味着要在量子退火机上解决的具体优化问题必须首先转换(嵌入)为一个图。我们请读者参考[63, 64],其中给出了这些嵌入的理论描述。在这里,我们仅展示Chimera图的示意图,并展示如何从多个物理量子比特的链中构建逻辑量子比特。

除了 D-Wave,Steffen [273] 还使用核磁共振构建了一种在室温下可用的绝热量子计算,基于量子绝热定理的离散时间近似。另一个核磁共振实现是[305]中为整数因式分解开发的。

最后,有必要提到一种基于中性原子技术的类比量子计算机的构建方法[131, 163]。中性原子量子退火器有可能超越其他技术构建的量子退火器,并缩小 NISQ 和容错优势之间的差距。

2.3.4 Chimera 图和逻辑量子比特的嵌入

Chimera 图拓扑结构[76, 91]具有一个重复出现的二分图结构,称为单元格,如图 2.3 所示。单元格由两组各包含四个量子比特的组构成,不同组之间的量子比特有配对连接,而同一组内的量子比特之间没有连接。因此,每个单元格图由 8 个顶点(物理量子比特)和 16 条边(物理量子比特之间的连接)构成。这些物理量子比特(超导回路)通过内部耦合器连接。单元格之间的连接通过外部耦合器实现。

每个物理量子比特在Chimera 图中与其他六个物理量子比特相连(通过四个内部耦合器和两个外部耦合器)。如果我们希望在二进制决策变量(逻辑量子比特)和相应的物理量子比特之间建立一对一映射,这就对可嵌入图中的问题类型提出了严峻的限制。然而,如果逻辑量子比特可以通过一串物理量子比特表示,那么逻辑量子比特之间的有效连接可以得到改善。这将使我们能够到达图的遥远角落,从而解决完全连接图的问题。图 2.3 展示了由量子比特 A、B、C 和 D(由粗线连接的深色阴影量子比特)形成的量子比特链的示例。尽管单个量子比特只有六个连接,量子比特链 A-B-C-D 却有 18 个外部连接。

图 x1-59006r3: Chimera 图。图中展示了四个单元格的裁剪视图。每个物理量子比特以圆圈表示,内部耦合器以直线表示,外部耦合器以弯曲线表示。量子比特 A、B、C 和 D 形成一个量子比特链(逻辑量子比特)。

图 2.3: Chimera 图。图中展示了四个单元格的裁剪视图。每个物理量子比特以圆圈表示,内部耦合器以直线表示,外部耦合器以弯曲线表示。量子比特 A、B、C 和 D 形成一个量子比特链(逻辑量子比特)。

为了确保量子比特 A、B、C 和 D 作为一个单一的逻辑量子比特工作,我们需要使它们之间的连接足够强,以便它们的状态始终保持对齐,并且在逻辑量子比特翻转时它们能够同时翻转。由于它们现在表示一个单一的二进制决策变量(逻辑量子比特),相应的偏置g(见 (2.3.3) 和 (2.3.3))将在链中的所有四个物理量子比特之间均匀共享。

我们期望链中的所有物理量子比特在测量后具有相同的值,但实际情况并不总是如此。当量子比特链条过长,且物理量子比特之间的内部和外部耦合器过多时,链条可能在某个点断裂。这将表现为构成链条的物理量子比特之间的分歧——其中一些会被测量为-1,另一些为+1。解决方法是应用多数投票规则:逻辑量子比特的值由所有组成物理量子比特值的众数决定。例如,如果物理量子比特 A、B 和 C 被测量为-1,而量子比特 D 被测量为+1,则逻辑量子比特的值假定为-1。链条越长,断裂的可能性越大。这就是为什么与旧的Chimera图相比,新的Pegasus图改进了连接性,从而为完全连接的图问题生成更短的链条,并导致 TTS 显著减少的原因。

量子退火已成功地通过超导量子比特实现,超导量子比特由微波辐射脉冲控制。近年来,在提高连接性和扩大系统规模方面取得了显著进展,量子退火器已经展示了其作为强大优化器的潜力。

2.4 AQC 的普适性

量子计算在理论上具有能够同时表示指数数量的状态的优势,从而相比经典算法证明了指数级的加速。历史上重要的例子包括 Shor 的整数因式分解 [265] 和 Grover 的数据库搜索 [117]。然而,在实践层面,仍然不清楚这种加速是否真正触手可及,尤其是对于 NP 难问题。

绝热量子计算(AQC)是一种与门模型量子计算完全不同的范式——尽管它们有些相似——并且基于量子绝热定理。与门模型量子计算不同,AQC 具有固有的容错性,如 [61] 所证明。由于其性能依赖于绝热定理中的谱间隙,可以通过在比该间隙低得多的温度下运行 AQC 设备来最小化环境去相干。

连接门模型量子计算和其绝热版本的关键见解由 Aharonov 等人 提供[7],以及由 Farhi 等人 提供[97]。前者证明了 AQC 可以模拟任何算法,而相比于门模型量子计算,其仅需多项式级别的额外开销;后者则展示了门模型量子计算机能够重现任何 AQC 计算。因此,这两项结果意味着 AQC 和门模型量子计算在多项式意义上是等价的。[7]中的证明假设在绝热公式中,初始和最终的哈密顿量是所谓的k局部的,意味着它们可以表示为多个独立哈密顿量的和,每个哈密顿量仅作用于k个量子比特。现有的 AQC 算法依赖于关于最终哈密顿量的若干假设,其中主要假设是该哈密顿量的非对角元素为零,且具有 2 局部的连通性结构,如 D-Wave 量子退火机的情况。不幸的是,这一假设目前不在[7]的范围内,因此关于这一设置的普适性仍然是一个未解之谜。还有其他 AQC 算法,特别是涉及 stoquastic 哈密顿量[45],其非对角元素为实数且为非正数,或更为严格的考虑[35]。

比较算法(无论是经典的、量子的还是绝热的)的标准背景是复杂性类别。在这里我们不会深入探讨太多技术细节,而是参阅[197]以获取更多信息。在那里,给出了针对大量 NP 完全和 NP 难问题的 Ising 问题(AQC 解决的标准问题)的数学公式,其中包括对 Karp 提出的 21 个基础 NP 完全问题[155]的精确表述,这是一个完美的比较量子算法的实验平台。

摘要

在本章开始时,我们介绍了几种基本的复杂性类别并讨论了它们之间的关系。解决 NP 难题所需的时间随问题规模的增长呈指数级增长,这为探索替代方法(如模拟的绝热量子计算)提供了强大的动力。尽管量子优化器在时间上也以问题规模的指数增长解决 NP 难的组合优化问题,但其指数中的前因子可能比已知的经典算法要小。此外,我们还可以期待在多项式时间内找到一个近似解,这为绝热量子计算的许多实际应用提供了强大的动力。

我们接着介绍了基于绝热量子定理的 AQC 原理。AQC 的物理实现——量子退火——与其经典对应物——模拟退火进行了对比。我们强调了量子退火计算能力的两个主要来源:热退火,它帮助我们找到目标函数在宽而适中的能量障碍下的最小值;以及量子隧穿,它使我们能够穿越狭窄而陡峭的能量障碍。两者的结合确保了在许多实际问题中能够高效地收敛到目标函数的全局最小值。

在确立了 AQC 的原理和相应的理论框架后,我们考察了基于超导量子比特的量子退火器形式的 AQC 实际应用。我们还介绍了伊辛模型,它为量子退火器可解决的问题提供了数学描述。

我们学习了量子芯片布局(图)的重要性,以及如何将多个物理量子比特耦合在一起,形成一个表示单一逻辑量子比特的链条。最后,我们触及了 AQC 的普适性。

在下一章中,我们将学习量子退火如何用于解决实际的 NP 难优化问题,如离散投资组合优化。

加入我们书籍的 Discord 空间

加入我们的 Discord 社区,结识志同道合的人,与超过 2000 名成员一起学习,链接:packt.link/quantum

PIC

第三章:二次无约束二进制优化

毋庸置疑,二次无约束二进制优化(QUBO)是量子退火的旗舰应用。只需要仔细观察这一类优化问题的名称,就能理解其原因:

  • 量子退火器操作在二进制自旋变量上。二进制决策变量(由逻辑量子比特表示)与自旋变量之间的映射非常直接。

  • 二次优化问题的目标函数只有线性项和二次项。这大大简化了模型,并允许其嵌入现有的量子退火硬件中。

  • 无约束优化意味着尽管 QUBO 允许我们指定必须满足的条件,但这些条件并不是硬性约束。约束的违反通过 QUBO 目标函数中的附加项来惩罚,但仍然有可能找到违反指定约束的解。

所有这些特性使得 QUBO 问题可以在量子退火器上求解。同时,QUBO 形式也适用于许多重要的 NP 难的组合优化问题,如图划分、作业车间调度、二进制整数线性规划等。此类问题还包括我们在本章中考虑的离散投资组合优化问题。我们还应在此提到一些最近使用经典方法解决离散投资组合优化问题的尝试,例如 Vaezi 人提出的背包问题形式 [289],以及 Anagnostopoulos 和 Mamanis 使用遗传算法等进化搜索方法的应用 [12]。背包问题和遗传算法将在本章中讨论。

3.1 二次无约束二进制优化原理

QUBO 表示需要在所有可能的 2^N 个变量赋值中最小化 N 个二进制变量 q[1],…,q[N] 的二次函数的优化问题。需要最小化的函数称为 成本函数,可以表示为

 N N N ∑ ∑ ∑ LQUBO (q ) = aiqi + bijqiqj, i=1 i=1 j=i+1

其中 q := (q[1],…,q[N]) ∈{0,1}^N 表示 N 个二进制决策变量的赋值。

一类具有许多实际应用的优化问题可以采用 QUBO 公式化 [197]。为了精确求解困难的 QUBO 问题,已知的经典算法需要指数级的时间(时间复杂度以二进制决策变量数量 N 为基础)[120]。已经有几种近似经典方法被设计出来以降低计算成本;然而,快速发展的量子退火技术旨在证明在最困难的 QUBO 问题上,如 NP-hard 离散投资组合优化问题,能够显著提高计算速度 [175, 296]。

3.1.1 QUBO 到 Ising 转换

QUBO 问题可以很容易地转化为一个可以在量子退火机上求解的 Ising 问题。N 个自旋变量 s := (s[1],…,s[N]) ∈{−1,+1}^N 的 Ising 代价函数为:

 N N N ∑ ∑ ∑ LIsing(s) = gisi + Jijsisj. i=1 i=1 j=i+1

Ising 模型和 QUBO 模型通过转换 s[i] = 2q[i] − 1 相关联,因此与 (3.1) 的关系为:

 (i∑−1 ∑N ) Jij = 1bij and gi = 1ai + 1- bki + bil 4 2 4 k=1 l=i+1

忽略优化中不重要的常数偏移量。

3.1.2 QUBO 问题示例

有许多重要的 QUBO 问题示例可以直接应用于金融领域的实际案例。这里,按照 Lucas [197] 的做法,我们列举了其中一些传统的公式化问题。

数字划分

给定一组 N 个正数 {n[1],…,n[N]},是否可以将这组数字划分为两个不相交的子集,使得两个子集中的元素和相等?例如,我们可以将这组数字 {n[1],…,n[N]} 看作必须平等分配给两个方的资产。该问题的 Ising 公式化为:

 ( )2 ∑N L(s) = sini , i=1

其中自旋变量 (s[i])[i=1,…,N] ∈{−1,+1} 是决策变量。如果 Ising 模型有解且 L = 0,那么就存在一种自旋配置,使得对于 +1 自旋的 n[i] 的和与 −1 自旋的 n[i] 的和相同。数字划分问题在经济学和金融中有广泛的应用,从路由和调度问题 [71] 到信号检测和时间序列分析 [148]。

图划分

考虑一个无向图

G = (V,E ),

其中 V 代表顶点集合,E 代表边集合,且顶点数 N 为偶数。任务是将集合 V 划分为两个大小相等的子集 N∕2,使得连接这两个子集的边的数量最小化。这个问题有许多应用:找到这些划分可以让我们在两个划分上并行运行一些图算法,然后根据连接边数较少的情况进行一些修改 [36]。自旋变量表示图的顶点,值 +1 和 −1 表示顶点属于 {+} 集合或 {−} 集合。该问题通过由两个部分组成的成本函数来求解:

L(s) = LA(s)+ LB (s),

其中

 N∑ LA(s) = A si i=1

如果 {+} 集合中的元素数量与 {−} 集合中的元素数量不相等,则会提供惩罚,且

 ∑ LB (s) = B 1-−-susv (u,v)∈E 2

是一个术语,每当一条边连接来自不同子集的顶点时,都会提供惩罚。如果 B > 0,则我们希望最小化两个子集之间的边数;如果 B < 0,则我们会选择最大化这个数字。如果选择 B < 0,必须确保 B 足够小,以便永远不会违反 L[A] 约束。图划分问题可应用于研究金融市场中的聚类 [271]。

这两个问题,数目问题和图划分问题,都是 NP-困难问题 [155]。

二进制整数线性规划

令 q := (q[1],…,q[N]) 为 N 个二进制变量的向量。任务是最大化 c ⋅ q,对于某个向量 c,给定约束条件

Sq = b

其中 S ∈ℳm,N,b ∈ℝ^m。许多问题可以表述为二进制整数线性规划,例如,在监管约束下最大化利润 [255]。

与该问题相关的成本函数 L(q) 可以构造为两项之和,L(q) = LA + LB,其中第一项是

 m ( N )2 ∑ ∑ LA (q) = A bj − Sijqi , j=1 i=1

对于某个常数 A > 0。注意 L[A] = 0 强制执行约束 Sq = b。第二项是

 N∑ LB(q) = − B ciqi, i=1

另有一个正的常数 B < A

背包问题(整数权重)

我们有一个 N 个对象的列表,按索引 i = 1,…,N 标记,每个对象的权重为 w[i] ∈ℕ,值为 c[i],并且我们有一个只能容纳最大重量 W[max] ∈ℕ 的背包。如果 q[i] 是一个二进制变量,表示对象 i 是否包含在背包中(q[i] = 1),则背包中的总重量为

 ∑N W = wiqi, i=1

总值为

 N C = ∑ c q. i=1 i i

任务是最大化C,同时约束WW[max]。背包问题在经济学和金融中有多种应用[159, 289]。

我们为每个n = 1,…,W[max]引入一个二进制变量,y[n],当背包的最终重量为n时,y[n]为 1,否则为 0。如前所述,成本函数由两项组成,L(q) = LA + LB,其中

 ( )2 ( )2 W∑max Wm∑ax ∑N LA (q) = A 1 − yn + A nyn − wiqi , n=1 n=1 i=1

这确保了重量只能取一个值,并且背包中物品的重量等于我们声明的值,且

 N∑ LB(q) = − B ciqi. i=1

由于我们要求不能找到一个解,其中L[A]在L[B]变得更加负的情况下被弱违反,因此我们要求 0 < B max[i=1,…,N]c[i] < A(即不允许向背包中添加一个使其过重的物品)。

许多其他著名的 NP-hard 优化问题可以在量子退火器上解决。在这里,我们可以提到图着色问题[76]和作业车间调度问题[295],它们已在 D-Wave 量子退火器上成功解决。在本章中,我们详细描述并分析了一个与金融相关的重要 QUBO 问题——Venturelli 和 Kondratyev 研究的离散投资组合优化问题[175, 296]。这是一个困难的完全连接图问题,最适合使用新开发的反向量子退火技术来解决。

许多著名的 NP-hard 问题可以在量子退火器上通过 QUBO 形式有效解决,即使是包含非平凡数量变量的情况。这使得量子退火成为处理经典难度优化问题的有用工具。

3.2 正向和反向量子退火

在定义了 QUBO 问题之后,我们现在回顾量子退火如何作为一种高效的求解器。

3.2.1 正向量子退火

量子退火协议受到量子力学中绝热原理的启发,详细内容见第二章,它要求将系统从初始哈密顿量ℋ[0]的易于准备的基态驱动到问题哈密顿量ℋ[F]的未知低能量子空间,理想情况下达到与目标函数全局最小值对应的最低能量状态。这一正向量子退火过程可以理想地描述为试图驱动时间依赖哈密顿量的演化

ℋ (t) = A (t)ℋ0 + B (t)ℋF ,

从以下开始

 ∑N ( ∑Nc ) ℋ0 = σic , i=1 c=1 x

其中,ℋ[0]是描述每个自旋系统中独立局部横向磁场的哈密顿量(σ[x]是保利 X 自旋算符,或量子 NOT 门,详见第 6.3.3 节)。

在表达式(3.2.1)中,第一个求和符号遍历所有逻辑量子比特,它们代表 QUBO 优化问题中二进制决策变量,而第二个求和符号遍历所有代表逻辑量子比特的链中的物理量子比特。从一链物理量子比特构建逻辑量子比特的过程在第二章中有详细说明,图 2.3 展示了在Chimera图上的量子比特链的示例嵌入。任何物理量子比特不能属于多个量子比特链。假设采用最密集的嵌入方案,我们有N × N[c] = K,其中K是量子芯片中物理量子比特的总数。然而,在实际应用中,对于大多数需要逻辑量子比特间完全连接的现实规模问题,N × N[c] < K。例如,在一个由K = 2,048 个物理量子比特构成的 D-Wave 2000Q Chimera图中,最大数量的完全连接逻辑量子比特为 64,链中物理量子比特的最大数量为 17,这意味着N × N[c] = 1,088。

图 3.1 展示了A(t)和B(t)在总退火时间τ尺度上是如何变化的。

图 x1-72002r1:正向退火计划示意图。A(t)表示横向磁场的强度,B(t)表示纵向磁场的强度。

图 3.1:正向退火计划示意图。A(t)表示横向磁场的强度,B(t)表示纵向磁场的强度。

在退火过程结束时,A(τ) = 0,系统通过对每个量子比特的磁化测量投影到计算基上。退火的持续时间τ是一个自由参数,因此通常有必要定义退火进度的分数完成度s = t∕τ

3.2.2 反向量子退火

图 3.2 展示了当量子退火机被设置为反向退火机时的量子退火协议。

图 x1-73002r2:反向退火计划示意图。A(t)表示横向磁场的强度,B(t)表示纵向磁场的强度。

图 3.2:反向退火计划示意图。A(t)表示横向磁场的强度,B(t)表示纵向磁场的强度。

系统初始化时,B(0) = max{B},A(0) = 0,且自旋设置为经典的比特串。随后,演化过程进行逆过程调度,直到哈密顿量的时间依赖性被暂时暂停。参考哈密顿量演化(见 3.2.1),我们为该协议编程的横场演化是以下的三阶段函数(对于B(t)的类比方程):

 AR (t) := A(τ + (sp − 1)t) 逆退火:t ∈ [0,τ ], AP (t) := A (spτ) 退火暂停:t ∈ [τ,τ + ρ], F A (t) := A ((1− sp)(t− ρ)− (1 − 2sp)τ) 前向退火:t ∈ [τ + ρ,2τ + ρ],

其中,ρ是暂停的持续时间,s[p] ∈ [0,1]表示实施暂停的前向调度的位置。所选的逆退火协议的总持续时间为 2τ + ρ,而前向退火的持续时间为τ。尽管逆退火的理论才刚刚开始被研究,逆退火的物理学原理可以在这个过于简化的观点中找到:如果系统初始化为状态𝒮,该状态对应于目标函数的局部最小值,那么量子波动和热波动的相互作用可能有助于在逆退火过程中让状态从能量陷阱中“隧穿”出来,而退火暂停(以及在某种程度上最终的前向退火)则允许系统在新发现的最小值邻域内热化并放松。初始状态𝒮的质量可能会显著影响逆退火过程。对于本章介绍的投资组合优化应用案例,可以使用经典的贪婪算法来设定𝒮,具体方法见[296]。

逆量子退火与经典贪婪搜索算法的结合有潜力大幅加速 QUBO 求解器,从而实现一种有前景的混合量子-经典算法。

3.3 离散投资组合优化

最优投资组合构建问题是量化金融中最广泛研究的问题之一。现代投资组合理论(MPT)[202]为极具影响力的均值-方差投资组合优化方法奠定了基础。根据 MPT,典型的投资组合优化问题可以表述如下。令N为资产数量,μ[i]为资产i的预期回报,Σ[ij]为资产i和资产j之间的回报协方差,R为目标投资组合回报。那么决策变量为权重w[i],即与资产i相关的投资额(w[i] ∈ℝ)。标准的马科维茨均值-方差方法包括受约束的二次优化问题。

 ∑N ∑N N∑ N∑ min wiwjΣij, 约束条件:wi = 1 和 wiμi = R. i=1j=1 i=1 i=1

这种形式的二次问题可以通过标准计算方法(例如,带线性约束的二次规划)有效求解,前提是协方差矩阵是正定的。然而,相关的离散投资组合优化问题(带有离散权重w[i])则更难解决。事实上,它们被认为是 NP 完全的[158]。

有趣的是,这个问题也可以转化为一个无约束的二次优化问题,这对于量子退火器是一个合适的模型[116, 205, 234, 251]。我们要解决的问题是从已知特征(如资产回报率、波动率和成对相关性)的资产集合中构建最优投资组合。一个典型的投资组合优化问题是从N个可投资资产中选择M个资产。这些M个资产应该根据某些标准,理想地是最优选择。

我们所针对的场景是一个基金组合经理,他面临着选择最佳基金的任务,这些基金遵循特定的交易策略,以根据某个模型最大化风险调整后的回报[175],并且有一个约束条件,即资产选择时要赋予相等的偏好权重[82]。如果我们希望通过更大比例的分配给某一特定资产来推广投资组合,我们可以通过克隆资产并将其视为新资产,从而允许参考权重的倍数。

3.3.1 QUBO 编码

选择M个基金( 替换)的问题可以通过二次形式进行编码:

 N∑ ∑N ∑N L(q) = aiqi + bijqiqj, i=1 i=1j=i+1

其中,q[i] = 1 表示选择了资产iq[i] = 0 表示未选择资产i。任务就是找到一个 q := (q[1],…,q[N])的配置,使得L(q)最小化,并满足基数约束(即选择恰好M个资产)。解决基数约束的常见方法是,在成本函数中添加一个项Lpenalty,根据(3.3.1),使得不满足约束的选择会受到一个大值P ≫ 1 的惩罚,从而迫使全局最小值满足∑ [i=1]^Nq[i] = M

 ( N )2 L (q) = P M − ∑ q . penalty i i=1

系数(a[i])[1≤i≤N] 反映了资产的独立吸引力,可以通过单个资产的预期风险调整回报来推导得出。具有较大预期风险调整回报的资产应该通过负值的a[i]来奖励,而具有较小预期风险调整回报的资产则应该通过正值的a[i]来惩罚。系数(b[ij])[1≤i<j≤N] 反映了成对的多样化惩罚(正值)和奖励(负值)。这些系数可以通过成对的相关性来推导得出。

给定的 QUBO 代价函数的最小化(见 3.3.1 和 3.3.1)应通过使用夏普比率的度量优化风险调整后的回报。夏普比率(以资产波动率单位衡量的超额资产回报)计算公式为(rr[0])∕σ,其中 r 是预期的年化资产回报,r[0] 是适用的无风险利率,σ 是资产波动率(资产回报的年化标准差)。基金的夏普比率越高,意味着基金相对于其承担的风险所获得的回报越好。波动率可以通过净资产价值回报(每股)的历史年化标准差来估算。预期回报可以通过基金投资的历史回报来估算,或者由分析师/投资组合经理独立推算,考虑未来基金表现的不同因素。

3.3.2 粗粒度编码方案

与其使用从金融数据中获得的原始实数作为 QUBO 系数,我们选择将单个基金的夏普比率及其相互相关性粗粒度化为整数值,方法是将区间分组到桶中(样本映射方案见表 3.1)。通过使用桶化值,我们定义了一个评分卡,该评分卡松散地基于过去的基金表现,但可以由投资组合经理根据他们的个人观点以及任何尚未反映在基金报告中的新信息进行轻松调整。

夏普比率桶 系数 a[i]
等间距桶, 映射方案:
从最差到最好 A
第一 15
第二 12
第三 9
第四 6
第五 3
第六 0
第七 −3
第八 −6
第九 −9
第十 −12
第十一 −15
相关性桶 系数 b[ij]
映射方案:
D
−1.00 ≤ρ[ij] < −0.25 −5
−0.25 ≤ρ[ij] < −0.15 −3
−0.15 ≤ρ[ij] < −0.05 −1
−0.05 ≤ρ[ij] < 0.05 0
0.05 ≤ρ[ij] < 0.15 1
0.15 ≤ρ[ij] < 0.25 3
0.25 ≤ρ[ij] ≤1.00 5

表 3.1:来自净资产值时间序列市场数据的样本 QUBO 系数规格。

QUBO 系数选择为小整数是由现有量子退火器架构的技术实现所决定的(超导芯片电路的精度)。在这一限制下,投资组合经理可以为 QUBO 系数选择任何线性或非线性比例。例如,二次映射方案 B 强烈惩罚低夏普比率基金,并且强烈奖励高夏普比率基金。线性映射方案 A 和 C 则能更好地区分表现一般的基金。类似地,映射方案 E 比映射方案 D 更强烈地惩罚大正相关,并奖励大负相关。

3.3.3 数值实验的实例集构建

我们案例研究中使用的实例集是通过模拟资产价值获得的,借助于相关几何布朗运动过程,具有常数相关性ρ、漂移μ和对数正态波动率σ。这些参数的具体值来源于广泛的基金行业研究(见[79],关于夏普比率分布的部分),因此,可以视为行业的代表。模拟的时间范围选择为一年,时间步长设为一个月。

每个模拟(或“实际”)的投资组合场景都包含每个资产的 12 个月回报率。根据这些回报率,我们计算了每个资产的总实际回报和实际波动率(显然,它们与其预期值μσ不同),以及整个投资组合的总回报和波动率。我们还根据输入的统一相关性ρ计算了所有资产之间的实际成对相关性。最后,我们计算了单个资产和投资组合的夏普比率。作为参考,当ρ = 0.1,μ = 0.075,σ = 0.15,且常数无风险利率设定为r[0] = 0.015 时,投资组合中每个资产的预期夏普比率为 0.4。由于资产之间的多样化和低相关性,N资产投资组合的预期夏普比率要显著更高,例如,对于一个 48 个资产的投资组合,我们预计夏普比率的值将在 0.5(第 25 百分位)到 2.1(第 75 百分位)之间,均值约为 1.4。

3.3.4 经典基准 – 遗传算法

我们选择遗传算法(GA)作为经典基准启发式方法,GA 是解决难度较大的组合优化问题的流行选择。遗传算法是一种通过应用模仿自然遗传继承的算子并模拟达尔文生存斗争来搜索解空间的自适应方法。遗传算法在投资组合优化问题中的应用有着丰富的历史,最近的研究包括[172,179]。

在投资组合优化的情况下,解(染色体)是一个向量 q := (q[1],…,q[N]),由 N 个元素(基因)组成,这些元素可以取二进制值 {0,1}。任务是找到一种基因组合,最小化代价(适应度)函数 L(q)。由于解由相对较短的比特字符串表示,我们不使用交叉重组机制,因为它对提高算法收敛性几乎没有价值。算法 1 对 GA 程序进行了详细描述。

--------------------------------------------------------------------- 算法 1:GA − 具有基数约束的投资组合优化 ------------------------------------------------------------ 结果:最优投资组合。 1:通过从可能的元素值池 {0, 1} 中随机抽取生成 L 个初始解,要求“1”分配给恰好 M 个元素的值,“0”分配给剩余 N − M 个元素的值。 2:评估每个解的代价(适应度)函数。 3:根据代价函数评估结果将解从“最好”到“最差”进行排序。 对于从 0 到迭代次数 − 1 的每次迭代,执行 | | | a) 从上一代选择 K 个最佳解,并通过随机交换两个具有相反值的元素的值来生成 L 个新解。若 L = mK,则每个“最佳”解都会用来生成 m 个新解。 | | | b) 评估每个解的代价(适应度)函数。 | | c) 根据代价函数评估结果将解从“最好”到“最差”进行排序。 结束 ---------------------------------------------------------------------

参数 LK 的最佳值依赖于问题规模和具体的 QUBO 系数映射方案,可以通过反复试验来找到。这里的目标是通过最少的目标函数调用次数实现目标收敛。

我们的首要任务是验证所提出的映射方案是否合理,即最小化目标函数(3.3.1)和(3.3.1)是否确实能够构建最优投资组合。选择从 N 个可投资资产中挑选出 M 个最佳资产的问题的一个可能方法是根据各自的 Sharpe 比率选择 M 个单独最佳的资产。此方法忽视了某些单独最佳资产之间可能存在的较大正相关性对多样化的负面影响,因此没有理由相信这样的投资组合是最优的。因此,我们应该要求,通过最小化 L(q) + Lpenalty 构建的最优投资组合应优于 M 个单独最佳资产的投资组合。

例如,我们可以比较从 48 个资产的集合中选择的最优 24 资产投资组合的结果(对于 10,000 个投资组合实例,模拟条件为ρ = 0.1,μ = 0.075,σ = 0.15;如前所述,假设一个恒定的无风险利率r[0] = 0.015)。表 3.2 显示了根据表 3.1 提供的样本 QUBO 系数映射方案获得的夏普比率分布统计[296]。结果以以下格式呈现:平均值(第 25 百分位;第 75 百分位)。


|


|


|

b [ij] 映射方案

|


|


|

D E F
映射 A 4.7 (2.5; 6.4) 4.5 (2.1; 6.1) 4.0 (1.7; 5.5)

|


|


|


|

方案 B 4.8 (2.7; 6.5) 4.3 (2.0; 5.9) 4.2 (2.0; 5.8)

|


|


|


|

对于 a[i] C 5.0 (3.0; 6.7) 4.8 (2.6; 6.3) 4.6 (2.5; 6.1)

表 3.2:不同映射方案的夏普比率分布统计。

对于个别最佳资产的投资组合,夏普比率分布统计如下:

平均值:3.8,第 25 百分位:2.6,第 75 百分位:4.7

平均而言,最优投资组合的夏普比率比个别最佳资产的投资组合高 0.8,尽管一些 QUBO 系数映射方案的结果优于其他方案。图 3.3 展示了通过最小化成本函数L(q) + Lpenalty 找到的最优投资组合相对于由 24 个个别最佳资产组成的投资组合,在映射方案 A 和 D 中的表现更好。

我们的第二个任务是了解解决方案所需的时间如何随着问题规模的变化而变化,以及量子退火是否能与经典算法相比表现出显著的加速效果。移除最优投资组合中资产数量的约束将会是一个有趣的实验。图 3.3 中展示的投资组合优化结果是针对M = N∕2 的情况获得的,这可能是最难的组合优化问题之一,因为它涉及到资产数量的约束,基于搜索空间的大小[175]。从蛮力方法的角度来看,如果我们去掉这个约束,问题将变得更加困难,因为解空间会随着N的增加而增长,变成 2^N,而不是---N!---- M!(N− M)!

Figurex1-78014r3: 夏普比率直方图(QUBO 系数映射方案 A 和 D)。M = N∕2\。

图 3.3:夏普比率直方图(QUBO 系数映射方案 A 和 D)。M = N∕2\。

去除基数约束也是必要的,因为表达式(3.3.1)中的大能量尺度 P 通常与量子退火机器的模拟性质相关,并且与量子芯片局部元件上可控编程的最大能量物理限制有关。然而,可以采取多种混合量子-经典策略来克服这一限制。

例如,我们观察到,通过常量±Δ人为地调整夏普比率值(并根据所选的规定添加桶,例如表 3.1),本质上相当于迫使无约束问题的基态解选出大致期望数量的资产。因此,尽管没有解决相同的问题,我们可以想象一种解算器,它可以解决类似约束的问题,将量子退火过程封装在一个经典循环中,检查最优解中选定的资产数量 m(Δ),并且当Δ = 0 时,根据 m 大于或小于 M 来增加或减少资产的单独期望值,并再次运行,直到 m(Δ) = M 且 Δ = Δ^⋆。尽管在这种情况下这是对原始问题的一种近似,但这种混合方案在量子辅助解算器中并不少见[285],且预期的运行轮次应按二分查找的方式与 log 2 成比例增长,这为解决时间复杂度引入了一个常数因子,应该能够保持可管理。也可以提出其他混合方法来应对约束,例如在预处理过程中通过样本持久性来固定一些资产选择[154]。

根据前述论点,在我们的基准案例研究中,我们集中精力运行无约束问题,设置 Δ = 0。表 3.3 提供了基准实例集的特征[296]。对于给定大小的问题,该表报告了在 30 个实例中,无约束投资组合优化问题的最优投资组合中资产的中位数(括号中为最小值和最大值)。

问题 资产数量
大小 在最优投资组合中
N (无约束问题)
42 16 (−7,+6)
48 17 (−6,+5)
54 19 (−7,+12)
60 23 (−13,+15)

表 3.3:基准实例集特征。

3.3.5 建立量子加速

目标是解决在 D-Wave 2000Q 量子退火器编程能力极限下的代表性投资组合实例。D-Wave 2000Q 拥有 2,048 个物理量子比特;然而,由于 D-Wave 2000Q 的Chimera图的连接性有限,我们最多可以在完全连接的图上嵌入 64 个逻辑二进制变量。实际上,我们将自己限制为最多使用 60 个逻辑量子比特,这意味着我们基准测试的最大搜索空间约为 60!(30!)² ≃ 10¹⁷,如果M = N∕2。这个限制决定了实例集的配置,实例集由 30 个随机生成的实例组成,N = {42,48,54,60}个资产。

如第二章所述,一个常用的衡量非确定性迭代启发式方法与量子退火性能的标准是解决时间(TTS)[250]。后者定义为在给定概率(置信水平)α ∈ (0,1)下,找到基态所需的量子退火器独立运行次数的期望值。

log(1−α) TTS = trunlog(1− p),

其中t[run]是单次运行的运行时间——对于正向退火是τ(见第 3.2.1 节),对于反向退火是 2τ + ρ(见第 3.2.2 节)——而p是该单次实验中找到目标函数最优解的概率。

图 3.4 显示了 GA、正向量子退火求解器(QA)和反向量子退火求解器(QA)对于使用映射方案 A 和 D 编码的无约束投资组合优化问题的 TTS 结果[296]。图中,标记表示中位数值,误差条表示在 30 实例集上的第 30 和第 70 百分位数。所有 TTS 都已测量,但不包括运行初始化初始假设𝒮的贪婪下降所需的时间,也不包括操作量子退火器的开销时间。

图 x1-79003r4: 解决时间(99%置信水平):GA、正向和反向量子退火。使用映射方案 A 和 D 对无约束投资组合优化问题进行编码。

图 3.4:解决时间(99%置信水平):GA、正向和反向量子退火。使用映射方案 A 和 D 对无约束投资组合优化问题进行编码。

GA 也可以通过贪婪搜索启发式方法初始化,这也减少了 GA 找到全局最小值所需的 TTS。实验研究表明,最佳结果出现在最小可能的退火时间和暂停时间(1 微秒)下[296]。在中位数情况下,应用反向量子退火相比正向量子退火或经典基准,能观察到一到三个数量级的加速。

很可能,N = 54 时反向量子退火 TTS 的非单调行为并非具有根本意义,而是由于我们实例集的有限、小规模噪声所致。尽管实例集的规模较小使得很难对量子退火与问题规模之间的扩展性做出明确结论,但似乎反向量子退火在N = 54 个资产的投资组合中显示出与遗传算法类似的扩展性——如虚线回归线所示。对于N = 60 个资产的极限情况,表现较差的扩展性可能是由于此时物理量子比特链条过长,且更容易断裂。值得注意的是,出于同样的原因,N = 60 也是正向退火的一个非常困难的情况。与正向退火相比,反向退火显示出显著更好的扩展性。当正向退火中的参数β为 0.3 时,反向退火中的β为 0.1。

离散投资组合优化是一个 NP 难度问题,可以通过量子退火器使用混合量子-经典反向退火技术来解决,量子加速比可达到几个数量级(忽略测量和系统重置的计算开销)。尽管目前还为时过早,无法确定量子退火是否能成为一种广泛应用的投资组合优化工具,但有迹象表明,随着技术和理论的进步,它可能会成为一个可行的选择。

总结

在这一章中,我们应用量子退火解决离散投资组合优化问题。我们从二次无约束二进制优化的原理开始,研究了几个 NP 难度优化问题及其 QUBO 表述。

然后,我们引入了量子退火协议的概念,并指定了两种此类协议:正向退火和反向退火。我们还指定了经典基准:遗传算法,一种理想适用于二进制变量操作的进化搜索启发式方法。

一旦我们拥有所有必要的构建模块,我们将一个样本离散投资组合优化问题转化为 QUBO,并在 D-Wave 2000Q 量子退火器上尝试解决它的实例。我们收集了足够的统计数据,涵盖了各种问题规模,以便将正向和反向量子退火的表现与经典基准进行比较。在 TTS 方面,我们特别对反向量子退火协议取得的令人鼓舞的结果表示满意。

在下一章,我们将学习如何将量子退火应用于构建一个强健分类器的问题。所提的解决方案——量子提升——是一种混合量子-经典分类器(量子训练,经典运行),其性能与标准的经典模型相当,且有时能够超越它们。

加入我们书籍的 Discord 空间

加入我们的 Discord 社区,与志同道合的人一起学习,和超过 2000 名成员共同成长,网址:packt.link/quantum

PIC

第四章:量子提升

在本章中,我们考虑经典提升元算法的量子版本——这是一类机器学习算法,能够将弱分类器转化为强分类器。经典的提升包括两个主要操作:i)对弱分类器进行自适应(迭代)训练,从而提高它们的个体性能,ii)在将弱学习器组合成一个强学习器时,找到一组最优的权重配置。

自适应学习包括对训练数据集中的样本进行迭代重新加权,迫使模型通过赋予难以分类的样本更高的权重来提高其性能。这些权重在每次算法迭代时都会进行调整。可以说,最著名和最成功的这种算法示例就是流行的自适应提升(AdaBoost)模型。该模型最早由 Freund 和 Schapire 于 1997 年提出[107],他们的工作在 2003 年获得了著名的 Gödel 奖。

AdaBoost 的主要原理是基分类器(弱学习器)按顺序训练,每个基分类器都使用加权形式的数据集进行训练:与每个样本相关的加权系数取决于前一个分类器的性能。被某个基分类器误分类的样本,在用来训练下一个基分类器时会被赋予更大的权重。一旦所有基分类器都训练完成,它们的预测结果通过某种加权多数投票方案结合起来[37]。因此,AdaBoost 可以被看作是一个通用框架,允许多种实现方式,具有不同程度的复杂性,而不是一个狭义定义的算法。

与 AdaBoost 不同,提升方法通过为个体弱学习器找到一组最优权重(弱学习器按常规方式训练)来实现,这种方法易于实现,并依赖于标准的优化程序。然而,当引入额外约束条件时,这一任务变成了一个复杂的组合问题。当权重只能取二进制值时,该问题自然可以表述为一个 QUBO 问题。

量子退火在这里发挥着作用,正如我们在第三章中所看到的那样。对于足够数量的弱分类器,搜索空间会变得巨大,经典算法(如各种进化搜索启发式方法)可能需要相当长的时间才能找到最优的权重配置(或者至少找到一个好的近似解)。这是量子退火展示其优势的理想场景,包括实现物质量子加速的可能性。

量子提升是一种基于 QUBO 的技术,通过构造二进制分类器的最优线性组合,将单个弱学习器组合成一个强分类器。它是透明的、易于解释的,并且抗过拟合。

4.1 量子退火与机器学习

量子提升是我们在本书中将要考虑的第一个 QML 算法。这也是最能发挥量子退火自然优势的算法。

4.1.1 QBoost 算法的一般原理

我们先从量子提升(QBoost)算法的一般原理开始,再探讨一个具体的与金融相关的应用。在 QBoost 的公式中,我们将使用以下定义和符号:

对象 定义
x[τ] = (x1,x2,…,xN) N个变量(特征)的向量
y[τ] = ±1 二进制标签,表示 x[τ]是否对应类别 0(−1)或类别 1(+1)
{x[τ],y[τ]}[τ=1,…,M] 训练事件集
ci = ±表 4.1:QBoost 算法符号 弱分类器i在事件τ上的值
q := (q[1],q[2],…,q[N]) 与每个弱分类器相关联的二进制(0 或 1)权重的向量

表 4.1:QBoost 算法符号

我们首先指定样本τ的分类误差,该误差由平方误差给出:

( N )2 ∑ ci(xτ)qi − yτ . i=1

最小化的总成本函数是所有样本的平方误差之和:

 M ( N )2 L(q) = ∑ ∑ c (x )q − y i τ i τ τ=1( i=1 ) M∑ ∑N ∑N ∑N 2 = ( ci(xτ)qi cj(xτ)qj − 2yτ ci(xτ)qi + yτ) . τ=1 i=1 j=1 i=1

请注意,y[τ]²不依赖于 q,因此对L的最小化没有影响。为了防止过拟合,添加一个惩罚项λ > 0,因此最小化的目标函数为:

 M ( N N N ) N ^L(q) = ∑ ( ∑ c (x )q ∑ c(x )q − 2y ∑ c (x )q ) + λ ∑ q i τ i j τ j τ i τ i i τ=1 ( i=1 j=1 i=1 ) i=1 M∑ ∑N ∑N ∑N N∑ = ( qiqjci(xτ)cj(xτ)− 2 qici(xτ)yτ) + λ qi τ=1 i=1j=1 i=1 i=1 N N ( M ) N ( M ) N = ∑ ∑ ∑ c (x )c(x ) q q − 2∑ ∑ c(x )y q + λ ∑ q i τ j τ i j i τ τ i i i=1 j=1 τ=1 i=1 τ=1 i=1 N∑ ∑N ∑N = Cijqiqj + (λ − 2Ci)qi, i=1 j=1 i=1

 ∑M ∑M Cij := ci(xτ)cj(xτ) 和 Ci := ci(xτ)yτ. τ=1 τ=1

备注: 添加一个由系数λ控制的惩罚项类似于 LASSO 回归方法[6],其使用L[1]惩罚项,在机器学习中非常常见。岭回归[243]使用L[2]惩罚项,也可以使用,并且也会导致一个 QUBO 问题。

4.1.2 从 QUBO 到 Ising

如在第 3.1.1 章中所述,我们现在执行从 QUBO 到 Ising 的转换,使用二进制决策变量 q := (q[1],…,q[N]) ∈{0,1}^N 到自旋变量 s := (s[1],…,s[N]) ∈{−1,+1}^N 的转换:

s = 2q − 1 或 q = 1(s+ 1 ). 2

因此,量子退火器上待解决的 Ising 问题可以表示为

 ∑N ( ) ( ) ∑N ( ) ℋ = L^(s) = 1si + 1- 1-sj + 1 Cij + 1si + 1- (λ− 2Ci ) i,j=1 2 2 2 2 i=1 2 2 N N N 1-∑ 1-∑ 1-∑ = 4 sisjCij + 2 siCij + 4 Cij i,j=1 i,j=1 i,j=1 1 N∑ λN ∑N ∑N + -- siλ+ ---− siCi − Ci. 2 i=1 2 i=1 i=1

由于这三个术语

1 ∑N λN ∑N 4- Cij, -2--, 和 Ci i,j=1 i=1

不依赖于 s,它们可以从成本函数中移除。替换 λ = 1 2λ 后,得到最终的 Ising 问题

 N N N ℋ = 1-∑ s sC + 1-∑ sC + ∑ s (λ− C ). 4 ij ij 2 i ij i i i,j=1 i,j=1 i=1

量子退火尝试解决的问题是最小化 ℋ 并返回最小化的基态自旋配置(s[i]^g)[i=1,…,N]。然后,强分类器被构建为

 N ∑ g R (x) = sici(x) ∈ [− 1,1], i=1

对于我们希望分类的每一个新事件 x [218]。

4.2 QBoost 在金融领域的应用

量子退火在机器学习(QAML)领域已经成功应用于广泛的金融和非金融用例。与传统的经典机器学习模型(如基于二叉决策树的极端梯度提升(XGBoost)和深度神经网络(DNN)分类器)相比,QAML 在处理相对较小的数据集时表现出明显的性能优势。QAML 的应用案例来自多个不同领域,如高能物理(希格斯玻色子的探测[218])和计算生物学(转录因子结合的分类和排名[186])。在金融领域,QAML 的最明显应用是信用评分和欺诈检测,以及通过大量弱二进制(买/卖)交易信号构建强交易信号。

在本节中,我们分析了 QBoost 在更常见的二元分类问题上的表现——预测信用卡客户违约。我们还提供了经典基准(梯度提升和前馈神经网络分类器),并从不同角度分析了 QBoost 的表现。选择的数据集相对较大,包含数万样本,应该能够帮助标准经典分类器避免过拟合,并展示它们的最佳性能。

已有研究表明[218],QBoost 算法具有抗过拟合的能力,因为它通过显式地线性化相关性(因此在较小数据集上的表现优于经典基准)。该模型的另一个有用特点是它具有可解释性,每个弱分类器都对应一个特定的特征或特征组合(或它们的函数),而强分类器则是这些特征的简单线性组合。这与“黑箱”机器学习判别方法(如使用梯度提升或深度神经网络)相比,具有显著优势。对于面向零售客户的金融产品,这一点尤为重要。

4.2.1 信用卡违约

信用卡客户违约(DCCC)数据集可以从 UCI 机器学习库获得 [307, 308]。该数据集包含 30,000 个样本,进行二分类:客户违约(类 1)和客户未违约(类 0)。共有 23 个特征(F1-F23),这些特征至少具有一定的预测能力,可以用于分类决策:

  • F1:给定信用额度(新台币):包括个人消费者信用和其家庭(附加)信用。

  • F2:性别(1 = 男;2 = 女)。

  • F3:教育程度(1 = 研究生;2 = 大学;3 = 高中;4 = 其他)。

  • F4:婚姻状况(1 = 已婚;2 = 单身;3 = 其他)。

  • F5:年龄(岁)。

  • F6-F11:过去支付历史。F6 – 上个月的还款状态,F7 – 两个月前的还款状态,依此类推。还款状态的测量标准为:−1 = 按时还款;1 = 延迟一个月还款;2 = 延迟两个月还款;;8 = 延迟八个月还款;9 = 延迟九个月及以上还款。

  • F12-F17:账单金额(新台币)。F12 – 上个月的账单金额,F13 – 两个月前的账单金额,依此类推。

  • F18-F23:上一期付款金额(新台币)。F18 – 上个月支付的金额,F19 – 两个月前支付的金额,依此类推。

弱分类器的构建方式如下:每个特征单独作为输入,用于逻辑回归分类器,目的是做出二分类预测:−1∕N表示类别 0(无违约),+1∕N表示类别 1(有违约),其中N = 23 表示弱分类器的总数(数据集中的特征数量)。需要注意的是,这不是唯一可能的方法。通过某些(可能是非线性的)特征组合来构建弱分类器是完全可行的。每当我们清楚地了解哪些特征组合能产生更有意义和洞察力的结果时,就应该采用这种方法。然而,在这个特定的例子中,我们的目的是阐明 QBoost 算法的基本原理,因此我们并不假设拥有足够的专业知识来构建更好的衍生特征。

我们使用了来自scikit-learn包的sklearn.linear_model.LogisticRegression [230] 作为弱分类器。数据集按照 70:30 的比例被划分为训练集和测试集,并借助 sklearn.model_selection.train_test_split 模块完成。根据 QBoost 算法的要求,类标签被编码为−1 表示类别 0(无违约),+1 表示类别 1(有违约)。

构建弱分类器数据集时使用了以下LogisticRegression模型配置(其他所有参数均设置为默认值):

  • penalty = ‘l2’

  • C = 1.0

  • solver = ‘lbfgs’

  • max_iter = 1000

因此,我们有一个训练数据集(21,000 个样本)和一个测试数据集(9,000 个样本),每个数据集都包含 23 个弱分类器的预测(取值{−123, +123})和类标签(取值{−1, +1})。如果强分类器的预测由弱分类器的预测和(简单多数投票方法)给出,那么其值将位于[−1,1]范围内,只有当所有弱分类器完全一致时,才会得到−1 或+1 的值。

QBoost 通过找到最优配置的弱分类器来改进这一方法,使得多数投票仅在部分可用的弱分类器上执行。换句话说,对所有弱分类器执行的多数投票只是 QBoost 的一种特殊情况(即其中一种可能的配置)。因此,有必要将 QBoost 的性能与更先进的经典机器学习模型(如梯度提升和神经网络)进行比较。我们将在第 4.3 节提供这种比较。

4.2.2 QUBO 分类结果

DCCC 数据集中的每个特征都唯一地映射到相应的(弱)逻辑回归分类器,并与二进制决策变量(q[i])[i=1,…,23]相关联。这些决策变量在 QUBO/Ising 形式的优化问题中由逻辑量子比特/自旋变量表示。

非零决策变量(权重)的数量取决于我们希望施加的正则化程度。表 4.2 展示了作为训练数据集惩罚λ的函数,权重的最优配置。考虑到我们例子中的弱分类器数量相对较少,可以通过穷举搜索找到最优配置。正如预期的那样,惩罚λ值越大,非零权重的数量越小。

λ 非零权重
500 {q[1],q[6],q[7],q[8],q[9],q[10],q[11]}
600 {q[6],q[7],q[8],q[9],q[10],q[11]}
700 {q[6],q[7],q[10],q[11]}
800 {q[6],q[10],q[11]}
900 {q[6],q[11]}
1000 {q[6]}

表 4.2:不同惩罚λ值下 QUBO 权重* q*的最优配置。最优配置列出了所有非零权重。

给定一组权重配置,我们可以按照(4.1.2)构建强分类器。然后,我们可以比较获得的强分类器在训练(样本内)和测试(样本外)数据集上的表现。选择的性能指标是准确率精确度召回率。分类器的性能也可以借助混淆矩阵来可视化。以下是它们的定义。

  • 准确率是正确预测的观察结果与总观察结果的比例。准确率是评估类别大小大致相同且重要性相当时的一个良好指标。然而,在我们的例子中,它是一个不太理想的指标:类别 0 样本(无违约)远比类别 1 样本(违约)多,但类别 1 样本的相对重要性要高得多。

  • 精确度是正确预测的正类观察结果与总预测正类观察结果的比例。高精确度意味着低假阳性率。在信用卡违约的背景下,如果错误的违约预测代价高昂,这个指标是我们希望最大化的。

  • 召回率是正确预测的正类观察结果与所有正类观察结果的比例。在信用卡违约的背景下,这个指标显示了有多少实际违约被分类器预测出来。从风险管理的角度来看,我们希望最大化这一指标。

  • 混淆矩阵是二分类器的一个 2 × 2 矩阵,其元素是分类器预测的真实正例(TP)、真实负例(TN)、假正例(FP)和假负例(FN)的计数,如图 4.1 所示。

Figurex1-88004r1: 二分类器的混淆矩阵。

图 4.1:二分类器的混淆矩阵。

准确率、精确度和召回率的定义如下:

准确率 :=  TP + TN TP-+-TN--+-FP-+-FN--,
精确度 :=  TP --------- TP + FP,
召回率 := --TP----- FN + TP.

图 4.2 显示了强 QBoost 分类器的样本内和样本外混淆矩阵,假设类别 1(违约)为正类,类别 0(无违约)为负类。惩罚参数设置为 λ = 10³,从而强制执行强正则化。

样本内和样本外的结果非常接近,正如从一个强正则化的分类器所期望的那样。表 4.3 总结了结果。

Figurex1-88006r2: QBoost 分类器的混淆矩阵(DCCC 数据集)。

图 4.2:QBoost 分类器的混淆矩阵(DCCC 数据集)。

准确率 精确度 召回率
样本内 0.82 0.69 0.33
样本外 0.83 0.71 0.33

表 4.3:QBoost 分类器在 DCCC 数据集上训练和测试后的准确率、精确度和召回率。

4.3 经典基准

经典基准测试是量子算法测试中的一个重要组成部分。小规模(甚至是风格化的)问题非常适合这个任务。让我们看看 QBoost 模型与标准经典机器学习分类器(神经网络和梯度提升)相比的表现。

4.3.1 人工神经网络

人工神经网络(ANN)是由互联的 激活 单元(或 人工神经元)组成的网络,其中每个激活单元执行三项主要功能(图 4.3):

  • 输入信号的求和(x[i])[i=1,…,N],来自所有上游单元,并与相应的权重(w[i])[i=1,…,N] 相乘;

  • 聚合输入的非线性变换;

  • 将结果发送到其连接的下游单元。

有时,激活单元还执行二值化(或更一般地,数字化)输出任务——通常,这是作为分类器训练的 ANN 输出层中的激活单元的任务。

Figurex1-90004r3: 人工神经元(感知器)的示意图。

图 4.3:人工神经元(感知器)的示意图。

在最简单的形式下,ANN 组织为激活单元的层次结构:输入层、输出层以及一个或多个隐藏层,如图 4.4 所示。

Figurex1-90006r4: 前馈人工神经网络的示意图。

图 4.4:前馈人工神经网络的示意图。

图 4.3 中的激活单元被称为 感知器,由感知器层组成的人工神经网络(ANN)被称为多层感知器(MLP)。MLP 是 前馈 神经网络:信号从输入层沿一个方向传递到输出层。ANN 也可以以不同方式组织,信号在各层之间来回传递,我们将在下一章探讨其中一个模型。然而,在构建分类器时,简单的前馈架构在实践中效果很好。

人工神经网络架构的实际方法基于 Cybenko 获得的基本结果[75]。该结果表明,任意的决策区域可以通过仅包含一个隐藏层和任何连续的 sigmoid 非线性激活函数的连续前馈神经网络进行任意逼近。Hornik、Stinchcombe 和 White[141]进一步将这一结果推广到了更广泛的激活函数范围。研究表明,具有单个隐藏层并且隐藏层激活函数平滑的多层前馈网络能够以任意精度逼近任何任意函数及其导数。事实上,这些网络甚至可以逼近那些在经典意义上不可微的函数,而只具有广义导数[224]。

4.3.2 训练人工神经网络

训练人工神经网络的过程是找到一组网络参数(权重和偏置)的最佳配置,使得新的未见输入能以期望的方式转化。网络是在所谓的训练数据集上进行训练的。训练数据集中的样本可以是有标签的(每个样本都被分配一个类标签,可能是数值的,也可能是分类的)。在这种情况下,我们可以执行监督学习,其中网络的任务是学习特征与类标签之间的映射——在监督学习模式下训练的人工神经网络变成了分类器。当样本没有标签时,我们可以将网络训练为回归器。虽然作为分类器训练的人工神经网络似乎是最明显的实际决策工具,但回归器在各种定量金融领域也有着广泛的应用,例如用于学习利率曲线的自然动态和变化[169]。

然而,我们希望在这里重点讨论有标签的数据集,因为我们的目标是考虑 QBoost 分类器的经典对照。训练前馈人工神经网络的标准方法是通过梯度下降的反向传播误差[113]。我们简要解释这种方法的主要思想。

起点是指定一些合适的代价函数,以指示我们与正确分类的距离。为了不失一般性,假设我们使用一个包含M个样本的训练数据集,其中每个样本是一个N维特征向量和一个二进制类标签的组合:

{xj,yj} , 其中 xj := (xj,...,xj ) 且 (yj) ∈ {0,1}。j=1,...,M 1 N j=1,...,M

令 (ŷ^j)[j=1,…,M] 为人工神经网络根据某个网络权重配置 w = (w[1],…,w[K]) 分配给相应训练样本的类标签。然后,我们可以定义代价函数为

 ∑M ( ) L (w) := g yj,ˆyj(w) , j=1

其中g(yj*,ŷ*j(w))是样本j的估计误差。指定误差函数的方法有很多种,最常见的是平方误差。

g(yj,ˆyj) := (yj − ˆyj)2.

给定代价函数L(⋅),我们可以计算其敏感度(导数)∂L(w)∕∂w[k],对于每个k = 1,…,K,即对于网络权重的敏感度。然后我们可以通过在与对应梯度相反的方向上更新权重,从而减少估计误差:

 ∂L (w) wk ← − wk − η--∂w--, k

其中系数η称为学习率,它可以是常数或动态的。我们接着按照(4.3.2)、(4.3.2)和(4.3.2)给出的步骤进行迭代,直到估计误差降到预定阈值以下或达到最大迭代次数。学习率通常初始设置为较大的值,然后随着迭代次数的增加呈指数衰减。

梯度可以通过数值方法(例如,使用有限差分法)或解析法计算,后者显然更为可取。最常用的非线性激活函数及其梯度列在表 4.4 中,相关图形展示在图 4.5 中:

Table 4.4: 激活函数。

表 4.4: 激活函数。

Figure 4.5: 激活函数。

图 4.5: 激活函数。

备注: Sigmoid 激活函数,如逻辑 Sigmoid 和双曲正切,是浅层神经网络(只有少数隐藏层)的首选激活函数。在这种情况下,可以利用 Sigmoid 函数的平滑性来实现对我们试图学习的函数的最佳近似。然而,对于具有大量隐藏层的深层神经网络,我们面临梯度消失的问题——当x → ±∞时,σ(x)和 tanh(x)的梯度变为零。同时,ReLU 对于所有x > 0 总是具有非零梯度,这使得它成为深层神经网络中首选的激活函数,特别是当可以为了非零梯度而牺牲激活函数的平滑性时。

最后,过拟合问题可以通过向(4.3.2)中添加正则化惩罚项来解决,例如以下的L[2]惩罚项,它能抑制与强非线性相关的大权重:

 ∑M ( ) L (w) := g yj,ˆyj(w) + λ ||w||2, j=1

其中参数λ控制正则化的程度。

4.3.3 决策树与梯度提升

决策树分类方法基于通过可用特征划分数据集的概念,以最大化信息增益,定义为

 M G(D, f) = I(D )− ∑ Nj-I(d ), j=1 N j

其中,D 是父节点的数据集,(d[j])[j=1,…,M] 是父节点被划分成的子节点的数据集,N 是父节点中的样本数,(N[j])[j=1,…,M] 是子节点中的样本数,I 是选择的不纯度度量。后者表示同一节点中来自不同类别的样本的存在:如果节点只包含某一类的样本,则为零;如果节点包含来自所有类别的样本,则为最大。因此,信息增益的最大化通过最小化子节点的不纯度来实现。

图 4.6 提供了基于二元("雨天/非雨天")和连续("风速")特征的决策树的示意图。决策树算法从根节点开始,在图中显示为阴影框。基于根特征划分数据集会产生最大的 信息增益。划分导致了分支(图中以箭头表示,从父节点指向子节点)和叶子(图中以白色框表示)的生成。终端叶子(类)以虚线框表示。划分持续进行,直到无法再创建更多分支或达到最大允许深度为止。通过施加剪枝(限制树的最大深度)来避免构建过深的树是一个好习惯,以避免过拟合。

图 x1-92004r6: 决策树的示意图。

图 4.6:决策树的示意图。

最常用的不纯度度量是基尼不纯度。设 (p[i]^l)[i=1,…,C] 为节点 l 中属于类 i 的样本比例。那么不纯度度量定义为

 C C ∑ l l ∑ l l IGini := pi(1 − pi) 和 IEntropy := − pilog2(pi). i=1 i=1

决策树可以视为弱学习器,可以通过提升变成强学习器。将弱分类器组合成一个强分类器的最流行方法之一是梯度提升。梯度提升的主要原理如下[185]。

目标是通过迭代过程改进弱分类器,改进的度量是最小化估计误差(例如,由(4.3.2)给出的平方误差)。如前所述,假设我们处理的是二分类问题(4.3.2)。进一步假设在第k次迭代中,弱学习器为样本 x^j 返回估计值ŷk。为了改进分类结果,算法应该添加一些估计器h[k],使得对于给定的样本 x^j,我们有

ˆyk+1(xj) := ˆyk(xj)+ hk(xj) = yj,

其中y^j 是样本 x^j 的正确类别标签。换句话说,任务是将新的估计器h[k]拟合到残差y^j −ŷk,j = 1,…,M。我们还注意到,估计器h[k]与平方误差(4.3.2)相对于ŷ[k]的负梯度成正比:

 j j j 1∂g(yj,ˆyk(xj)) hk(x ) := y − yˆk(x ) = − 2 ∂ˆyk .

因此,梯度提升将提升与梯度下降算法结合起来。

4.3.4 与标准经典分类器的基准比较

经典的基准选择是 MLP 分类器(sklearn.neural_network.MLPClassifier)和梯度提升分类器(sklearn.ensemble.GradientBoostingClassifier)。表 4.5 列出了经过弱优化的模型参数:我们没有寻找绝对最优的模型参数集,而是尝试了少数几种配置。可以将其看作是一种非常粗略的网格搜索方法,产生了一个可行的模型参数配置,但不一定是最优的。所有其他模型参数都设置为默认值。

梯度提升分类器 MLP 分类器
loss = ‘deviance’ hidden_layer_sizes = (20)
learning_rate = 0.1 activation = ‘tanh’
n_estimators = 1000 solver = ‘adam’
criterion = ‘friedman_mse’ alpha = 0.1
max_depth = 3 max_iter = 5000
alpha = 0.01

表 4.5:经典基准模型参数。

图 4.7 显示了经典基准模型的外部样本混淆矩阵,表 4.6 提供了 QBoost 和经典分类器的外部样本结果的直接对比。

Figurex1-93005r7: 梯度提升和 MLP 分类器的混淆矩阵(DCCC 数据集,外部样本结果)。

图 4.7:梯度提升和 MLP 分类器的混淆矩阵(DCCC 数据集,外部样本结果)。

准确度 精度 召回率
梯度提升 0.83 0.69 0.35
MLP 0.83 0.69 0.35
QBoost 0.83 0.71 0.33

表 4.6:QBoost、梯度提升和 MLP 分类器在 DCCC 数据集上的外部样本准确度、精度和召回率。

QBoost 在样本外的表现与梯度提升和多层感知器(MLP)分类器相似。样本内和样本外的 QBoost 性能对比证明了 QBoost 能够施加强大的正则化并避免过拟合。与此同时,QBoost 提供了对强分类器所依赖的特征的完全透明性。我们还可以为任何给定的正则化程度获得明确的最优特征配置。传统的机器学习模型则不同,可能需要广泛分析敏感性和特征重要性,才能揭示其“黑盒”机制。

量子提升可以应用于金融优化问题,特别是在强调透明性、可解释性和鲁棒性的场景中。

总结

在本章中,我们学习了如何应用量子退火将多个弱分类器组合成一个强分类器。我们从量子提升的基本原理及其对应的 QUBO 公式开始。

我们接着演示了如何将 QBoost 算法应用于解决实际的金融问题,即预测信用卡客户违约的情况。所选的数据集既足够大又足够复杂,能够提供有意义的挑战,同时结果易于理解和解释。

与对应的经典模型进行客观对比是非常重要的。为此,我们介绍了几种基于前馈神经网络和决策树概念的经典分类器。我们使用准确率、精确度和召回率等指标,将 QBoost 与 MLP 和梯度提升模型进行了基准测试。

在下一章中,我们将学习量子退火如何帮助训练强大的生成式机器学习模型。

加入我们书籍的 Discord 空间

加入我们的 Discord 社区,与志同道合的人一起学习,和 2000 多名成员共同成长:packt.link/quantum

图片

第五章:量子玻尔兹曼机

正如我们在第三章和第四章中看到的,量子退火可以用来解决难度较大的优化问题。然而,量子退火的应用范围远不止于此。在本章中,我们将讨论两个不同但相关的应用案例,这些应用超出了优化问题的解决:采样和训练深度神经网络。具体来说,我们将重点介绍量子玻尔兹曼机(QBM)——一种生成模型,是经典限制玻尔兹曼机(RBM)和深度玻尔兹曼机(DBM)的直接量子退火对应物——以及深度玻尔兹曼机(DBM)——一种由多层潜在变量组成的深度神经网络,层与层之间有连接,但层内单元之间没有连接。

我们首先提供经典 RBM 的详细描述,包括相应的训练算法。由于 RBM 在随机二进制激活单元上操作,因此可以建立 RBM 图与嵌入到量子芯片上的 QUBO 图之间的对应关系。这为使用量子退火进行玻尔兹曼采样(RBM 和 DBM 训练过程中的关键阶段)提供了主要动力。

DBM 可以作为生成模型和判别模型进行训练。在这两种情况下,由于 DBM 可以通过堆叠 RBM 层来构建,因此高效的玻尔兹曼采样是训练过程中的关键元素。量子退火可以集成到混合量子经典训练过程中,具有提高速度和准确度的潜力。量子加速是预期量子优势中特别有吸引力的元素,因为它不仅可以在 RBM 训练阶段实现,还可以在生成新样本的过程中实现。

5.1 从图论到玻尔兹曼机

我们在此提供一个简短的图论自包含回顾,以介绍玻尔兹曼机(或能量模型),它们可以视为特定类型的连接图或网络。

是一组顶点(点或节点)和连接顶点的边。有向图 是一种包含有序顶点对的图,而无向图 是一种包含无序顶点对的图。

我们考虑一个图 𝒢 = (𝒱,ℰ),其中𝒱表示有限个顶点,ℰ表示无向边。对于给定的顶点 v ∈𝒱,其邻域被定义为与它通过某条边相连的所有顶点的集合,或者

𝒩 (v) := {w ∈ 𝒱 : {v,w} ∈ ℰ}.

最后, 𝒞是𝒱的一个子集,满足𝒞中的所有顶点通过ℰ中的某条边成对相连。

对于每个顶点 v ∈𝒱,我们将关联一个随机变量 X[v],它的取值来自某个空间 𝒳。向量 X ∈𝒳^(|𝒱|) 被称为马尔可夫随机场,如果

Law (Xv |(Xw ){w∈𝒱∖{v}}) = Law (Xv |(Xw ){w∈𝒩 (v)}).

以下定理最初由哈默斯利和克利福德[125](另见[167,定理 4.2])证明,提供了一种在图上以方便的形式表达马尔可夫随机场法则的方法。马尔可夫性质在此处至关重要,因为动态(例如,从隐藏层到可见层的信号传递,在 RBM 网络中)应仅依赖于当前状态,而不依赖于系统所经过的整个路径。

定理 8(哈默斯利-克利福德定理) A 严格正分布仅当且仅当它在无向图上进行因式分解时,才满足马尔可夫性质。

换句话说,定理表明,如果其分布可以表示为

 1 ∏ ℙX (x) := ℙ(X = x) = -- ψC (xC), for all x ∈ 𝒳 |𝒱|, Z C∈𝒞

对于一个函数集{ψ[C]}[C∈𝒞],这些函数被称为所有团体C ∈𝒞上的潜力函数,其中Z是一个归一化常数,确保概率的积分为 1。在这里,x[C]自然对应于向量 x 在团体C上的元素。分解通常是在所谓的最大团体上进行的,即那些如果添加任何节点就不再是团体的团体。如果X的分布严格为正,那么{ψ[C]}[C∈𝒞]也是正的,因此(5.1)可以写为

 ( ) 1 ∑ 1 ℙX (x) = --exp log(ψC (xC)) =: --e−E(x), Z C∈𝒞 Z

对于所有 x ∈𝒳^(|𝒱|)。该函数

 ∑ E (x) := − log(ψC(xC )) C∈𝒞

该函数称为能量函数。由于它们在统计物理学中的应用,马尔可夫随机场的严格正分布,形式为(5.1),也被称为玻尔兹曼分布或吉布斯分布。

基于能量的模型是生成模型,通过对观察到的和潜在变量的每种配置应用兼容性度量(标量能量)来发现数据依赖性。推理的目标是寻找潜在变量的值,在给定观察变量值的情况下,使得能量最小化。基于能量的模型具有许多有用的属性(简洁性、稳定性、灵活性、可组合性)——这使得它们成为学习复杂多变量概率分布的首选模型。

5.2 限制玻尔兹曼机

5.2.1 RBM 作为一种基于能量的模型

RBM 对应于这种图的特殊结构,称为二分图,其中顶点集 𝒱 可以被拆分成两个组,分别是可见顶点 𝒱[V] 和隐藏顶点 𝒱[H],使得边集 ℰ 仅由形式为 {v,h}∈𝒱[V] ×𝒱[H] 的元素组成。图 5.1 提供了实现二分图结构的 RBM 的示意图。这特别意味着,团只能是大小为一(所有单点节点)或二(所有 (v,h) 对)在 𝒱[V] ×𝒱[H] 中。为了简化,我们将 v 表示为 𝒳^(|𝒱[V] |) 的一个元素,h 表示为 𝒳^(|𝒱[H]|) 的一个元素,并将随机变量 X 与顶点对应。以下引理给出了 RBM 的能量函数的一般形式(5.1)。

引理 6(RBM 能量引理). 在限制玻尔兹曼机中,能量函数的形式为

 ∑N ∑M ∑N ∑M E (v,h ) = Ev(vi)+ Eh (hj)+ Ev,h(vi,hj), i=1 j=1 i=1j=1

对于任何 v := (v[1],…,v[N]) ∈𝒳^(|𝒱[V] |), h := (h[1],…,h[M]) ∈𝒳^(|𝒱[H]|). 这里,N* 是可见顶点的数量,M 是隐藏顶点的数量。*

证明。 根据哈默斯利-克利福德定理,对于任何 v ∈𝒳^(|𝒱[V] |),h ∈𝒳^(|𝒱[H]|),我们有以下分解式:

ℙ(v,h) = -1 Z∏ [C∈𝒞]ψC ∈ C)
= -1 Z∏ [{{v}:v∈𝒱[V] }]ψ∏ [{{h}:h∈𝒱[H]}]ψ∏ [{{v,h}∈𝒱[V] ×𝒱[H]}]ψ
= -1 Zexp{− E (v,h)},

在所有单点集(大小为一的团)和二点集(大小为二的团)上,其中项 −E(v,h) 表示

E(v,h) = log ( ) ∏ ∏ ∏ ( ψ {v}(v) ψ{h}(h ) ψ {v,h}(v,h)) {{v}:v∈𝒱V} {{h}:h∈𝒱H} {{v,h}∈ 𝒱V×𝒱H}
= log ( ) ( ∏ ) ψ {v}(v) {{v}:v∈𝒱V}
+ log ( ) ∏ ( ψ {h}(h)) {{h}:h∈𝒱H}
+ log ( ) ∏ ( ψ{v,h}(v,h)) {{v,h}∈𝒱V×𝒱H }
= ∑ [{{v}:v∈𝒱[V] }]log ( ) ψ{v}(v)
+ ∑ [{{h}:h∈𝒱[H]}]log (ψ{h}(h))
+ ∑ [{{v,h}∈𝒱[V] ×𝒱[H]}]log ( ) ψ{v,h}(v,h)
= −∑ [i=1]^NE v −∑ [j=1]^ME h −∑ [i=1]^N ∑ [j=1]^ME v,h,

这就完成了引理的证明。□

RBM 的标准示例是当随机变量服从伯努利分布时,即 𝒳 = {0,1}^(|𝒱|)。在这种情况下,它们的能量为

Ev (vi) = − aivi, Eh(hj) = − bjhj, Ev,h(vi,hj) = − wijvihj,

对于某些参数 a[i],b[j],w[ij],i = 1,…,Nj = 1,…,M。特别地,对于给定的 v[i],我们可以使用贝叶斯公式表示:

ℙ(v[i] = 1|v[v[i]],h) = ---------ℙ(vi =-1,vvi,h)------- ℙ (vi = 1,vvi,h )+ ℙ(vi = 0,vvi,h)
=  exp (− E (v = 1,v ,h)) ----------------------i-----vi--------------- exp (− E (vi = 1,vvi,h))+ exp (− E (vi = 0,vvi,h )).

其中我们表示 v[v[i]] 为 𝒱∖{v[i]} 中所有节点的状态。现在,使用 RBM 能量引理,我们可以利用(5.2.1)将来自特定节点 v 的能量单独提取出来,如下所示:

E(vi,vvi,h) = − Φv(vi)− Ψv (vvi,h),

其中

 ⌊ ⌋ ∑M M∑ Φv (vi) := aivi + wijvihj = ⌈ai + wijhj⌉ vi, j=1 j=1 ∑N ∑M ∑N ∑M Ψv (vvi,h) := akvk + bjhj + wkjvkhj. k=1(k⁄=i) j=1 k=1(k⁄=i)j=1

将此代入(5.2.1)后得到

 exp (Φv (vi = 1)+ Ψv (vvi,h)) ℙ(vi = 1|vvi,h ) =------------------------------------------------------- exp (Φv(vi = 1)+ Ψv (vvi,h))+ exp (Φv(vi = 0)+ Ψv (vvi,h)) = --exp-(Φv(vi =-1))- exp (Φv(vi = 1)) + 1 = σ (Φv(vi = 1)),

因为 Φv = 0,其中

σ(x) :=---1--- 1 + e−x

是 Sigmoid 函数。

类似地,我们可以使用 RBM 能量引理将给定隐藏节点 h[j] 上的能量贡献单独提取出来:

E (v,hj,hhj) = − Φh(hj)− Ψh (v,hhj),

其中

 ∑N [ ∑N ] Φh (hj) := bjhj + wijvihj = bj + wijvi hj, i=1 i=1 N M N M Ψ (v,h ) := ∑ a v + ∑ b h + ∑ ∑ w vh . h hj i i k k ik i k i=1 k=1(k⁄=j) i=1k=1(k⁄=j)

将此代入(5.2.1)后得到

 ( ( )) ℙ(h = 1|v,h ) = ----(----------exp--Φ(h(hj-=))1)+-Ψh(-v,hhj----------(----))- j hj exp Φh(hj = 1)+ Ψh v,hhj + exp Φh (hj = 0) + Ψh v,hhj = --exp(Φh-(hj =-1))- exp (Φh(hj = 1)) + 1 = σ (Φ (h = 1 )) , h j

因为再次有 Φh = 0\。

5.2.2 RBM 网络架构

如上所示,RBM 是一个浅层的两层神经网络,操作在随机二进制激活单元上。该网络形成一个二分图,将随机二进制输入(可见单元)与随机二进制特征检测器(隐藏单元)连接,且同一层内的单元之间没有连接,如图 5.1 所示 [102]。

Figurex1-100001r1: Schematic representation of an RBM with the visible layer units (white) and hidden layer units (dark) forming a bipartite graph.

图 5.1:具有可见层单元(白色)和隐藏层单元(深色)形成二分图的 RBM 的示意图。

只有网络的可见层暴露给训练数据集,输入 v := (v[1],…,v[N]) 流经网络(前向传播)到达隐藏层,在此它们被聚合并添加到隐藏层偏置 b := (b[1],…,b[M])。隐藏层的 Sigmoid 激活函数(5.2.1)将聚合的输入转换为概率。然后每个隐藏单元以随机方式“触发”,并输出一个 {0,1} 的伯努利随机变量,其相关概率为:

 ( N∑ ) ( ∑N ) ℙ(hj = 1|v) = σ bj + wijvi and ℙ(hj = 0|v) = 1− σ bj + wijvi . i=1 i=1

来自隐藏层的输出 h := (h[1],…,h[M]) 随后反向传递(反向传播)到可见层,在那里它们被聚合并加到可见层的偏置 a := (a[1],…,a[N])。与隐藏层类似,可见层的 sigmoid 激活函数首先将聚合的输入转换为概率,然后转化为伯努利随机变量:

 ( M ) ( M ) ℙ(v = 1|h) = σ(a + ∑ w h ) and ℙ (v = 0|h) = 1− σ (a + ∑ w h ) . i i ij j i i ij j j=1 j=1

因此,每个单元最多传递一个比特的信息。这对于隐藏单元尤为重要,因为这个特性实现了信息瓶颈结构,作为一种强正则化器[134]。如果网络被组织并训练成自编码器,网络的隐藏层可以学习数据集的低维概率表示。

5.2.3 样本编码

图 5.2 展示了输入信号的二进制表示,信号通过可见层进入网络。可见层中激活单元的数量由我们需要编码的特征数和其二进制表示的所需精度决定。例如,如果我们的样本由 m 个连续特征组成,并且每个特征被编码为 n 位二进制数,则可见层中的激活单元总数为 m × n

Figurex1-101001r2: Schematic binary encoding of continuous variables.

图 5.2:连续变量的示意二进制编码。

5.2.4 博尔兹曼分布

网络通过尝试从训练数据集(可见单元值)重建输入,来学习可见和隐藏激活单元配置的概率分布 ℙ(v,h) —— 即博尔兹曼分布 —— 通过找到网络权重和偏置的最佳集:

 1 ℙ(v,h) = --e−E(v,h), Z

其中能量函数为

 N M N M ∑ ∑ ∑ ∑ E (v,h) = − aivi − bjhj − wijvihj. i=1 j=1 i=1 j=1

这里,Z 是配分函数:

 ∑ Z = e−E (v,h). v,h

然而,我们通常感兴趣的是,如果我们希望生成与原始训练数据集具有相同统计性质的新样本,则学习可见层配置的概率分布,或者如果我们希望构建一个深度神经网络,其中 RBM 层执行特征提取和降维功能,则学习隐藏层配置的概率分布。可见(隐藏)状态的概率是通过对所有可能的隐藏(可见)向量求和得到的:

 1 ∑ 1 ∑ ℙ (v) = -- e−E(v,h) and ℙ(h) = -- e−E (v,h). Z h Z v

最常用的 RBM 训练算法 k-step Contrastive Divergence 是由 Hinton 提出的 [134,133]。该算法旨在最大化训练向量的对数概率,即找到一组网络权重和偏置,使得“能量”函数 E 对训练数据集中的样本最小化(能量值越小,配置的概率越大)。k-步 CD 算法在第 5.3.2 节中有完整说明,感兴趣的读者还可以通过 Fischer 和 Igel 的工作 [103] 获得有关 RBM 训练的精彩介绍。

5.2.5 伯努利 RBM 的扩展

我们上述讨论的标准伯努利 RBM 设置将可见层 v 限制为伯努利分布。事实上,只要哈默斯利-克利福德定理成立,我们可以考虑任何分布或任何形式的能量函数。例如,[62,178] 中曾表明,隐藏层的伯努利分布与可见层的高斯分布是与如下形式的能量函数兼容的:

 ∑N (vi − ai)2 ∑M ∑N ∑M vihj E (v,h) = ---2σ2---− bjhj − wijσ2--, i=1 i j=1 i=1j=1 i

对于某些参数 a[i]、σ[i]、b[j]、w[ij],i = 1,…,Nj = 1,…,M。在这种情况下,对于任何 h[j],条件概率 ℙ(h[j] = 1|v) 保持 sigmoid 形式,并且可见层的条件分布为高斯分布,如下所示:

 ( M ) Law (v|h) = 𝒩 (a + ∑ w h ,σ2 ) , for each i = 1,...,N. i i ij j i j=1

我们考虑的 RBM 不考虑时间序列,即具有时间依赖性的概率结构。通过扩大相应的图,特别是添加一个具有有向连接的条件层到经典的隐藏层和可见层,Taylor [280] 表示可以考虑这种依赖性。

RBM(受限玻尔兹曼机)是一种由二分图表示的神经网络。其强大之处在于操作随机二进制激活单元。它是一种生成模型,通过其权重和偏置编码学习到的概率分布,然后生成与原始数据集中的样本在统计上无法区分的新样本。

如果它被组织为具有瓶颈信息结构的自编码器,RBM 能够学习数据集的低维表示。这一特性表明,RBM 可以作为机器学习管道中的特征提取层,用于某些监督和无监督学习问题。

5.3 训练和运行 RBM

构建神经网络意味着指定网络架构和训练算法。在前一节中已经描述了 RBM 的架构,现在我们概述训练流程。

5.3.1 使用玻尔兹曼采样训练 RBM

RBM 训练的目标是估计模型参数(权重和偏置)的最优向量 𝜃,使得 ℙ𝜃 = ℙdata。对于给定的训练样本 v := (v[1],…,v[N]),RBM 旨在最大化对数似然函数,即

 n max ∑ 𝔏 (𝜃|v ), 𝜃 i=1 i

其中,对于任何 v,

 ( ) ( ∑ ) ( ∑ ) ∑ 𝔏(𝜃|v) = log(ℙ(v)) = log -1 e−E(v,h) = log e− E(v,h) − log ( e−E (v,h)) . Z h h v,h

标准优化方法,如 [133] 所提出的,是一种标准的梯度上升方法,即从初始猜测 𝜃⁰ 开始,我们按以下方式更新:

 N 𝜃k+1 = 𝜃k + ∂ ∑ 𝔏 (𝜃k|v ) 𝜃 i=1 i

直到我们达到足够好的收敛。为了计算它,首先需要计算联合概率 ℙ(v[i],h[j]),这通常通过玻尔兹曼(吉布斯)采样完成 [3],因为我们确切知道条件分布。

5.3.2 对比散度算法

在训练 RBM 时,可以使用玻尔兹曼采样,但这通常是非常昂贵的。为了提高效率,提出了一种更高效的训练算法——k-步对比散度(CD)算法,参考了 [134]。

--------------------------------------------------------------------- -算法---2:-k-步-对比-散度-------------------------- 结果:权重和偏置更新。输入: • 训练小批量 S; • 模型参数 ai,bj,wij,对于 i = 1,...,N,j = 1,...,M(更新前)。初始化:对所有 i,j : Δwij = Δai = Δbj = 0 对于 v ∈ S 做 | v(0) ← v | | 对 t = 0,...,k − 1 做 | | 对 j = 1,...,M 做 | | | (t) (t) | | | 采样伯努利随机变量 hj ∼ ℙ(hj|v ) | | 结束 | | | | 对 i = 1,...,N 做 | | | 采样伯努利随机变量 v(t+1) ∼ ℙ(vi|h(t)) | | i | 结束 | 结束 | | 对 i = 1,...,N, j = 1(,...,M 做 ) | | (0) (0) (k) (k) | Δwij ← Δwij + η ℙ(hj = 1|v )vi − ℙ(hj = 1|v )vi | 结束 | | 对 i = 1,...,N 做( ) | | Δai ← Δai + η v(0) − v(k) | i i | 结束 | | 对 j = 1,...,M 做( ) | | Δbj ← Δbj + η ℙ(hj = 1|v(0)) − ℙ(hj = 1|v(k)) | 结束 结束 ---------------------------------------------------------------------

k 的选择平衡了准确性和速度。对于许多实际应用,k = 1 是一个最佳选择,尽管在这种情况下,期望值可能会有偏差。然而,这种偏差往往是很小的 [53]。网络通过更新权重和偏置来训练,这些更新增加了训练向量的对数概率,更新公式如下:

Δw = η∂ℙ(v)-= η (⟨v h ⟩ − ⟨v h ⟩ ), ij ∂wij i j data i j model
 ∂-ℙ(v) Δai = η ∂ai = η(⟨vi⟩data − ⟨vi⟩model),
 ∂ℙ (v) Δbj = η------= η (⟨hj⟩data − ⟨hj⟩model), ∂bi

其中 ⟨⋅⟩ 表示在下标所指定的分布下的期望,η 是选择的学习率。期望 ⟨⋅⟩[data] 可以直接从训练数据集计算,而获得无偏样本 ⟨⋅⟩[model] 则需要在模型的玻尔兹曼分布中进行交替采样一段较长时间(这是为了实现热平衡状态),并且从某个随机初始化的状态开始。然而,k 步骤的 CD 方法可以用来近似 ⟨⋅⟩[model],通过另一个更易计算的期望,如算法 2 所示。

5.3.3 合成样本的生成

一旦网络完全训练好,就可以用来从学习到的分布中生成新的样本。例如,RBM 可以作为一个市场生成器,生成新的市场情景,这些新样本来自于网络权重和偏置中编码的市场风险因素的多元分布。

第一步是生成一个随机输入:每个可见单元都被初始化为一个随机生成的二进制变量。第二步是在可见层和隐藏层之间进行大量的前向和后向传播,直到系统达到热平衡状态:即初始的随机向量被转换为从学习到的分布中抽取的样本。达到热平衡状态所需的周期数取决于具体问题,是网络架构和网络参数(权重和偏置)的函数。在某些情况下,生成独立样本需要进行 10³ − 10⁴次前向和后向传播[173]。最后一步是从可见层读取输出,这将给我们一个比特串,编码了来自目标分布的样本。

图 5.3 展示了从两个股票指数的每日回报分布中抽取的样本的 QQ 图:德国 DAX 和巴西 BOVESPA。回想一下,分位数-分位数(或 QQ)图是通过将两个分位数集相互对照,绘制成的散点图。如果这两个集来自同一分布,所有点应该接近对角线。数据集包含 536 个样本– 从 2009 年 1 月 5 日到 2011 年 2 月 22 日之间观察到的每日指数回报(UCI 机器学习库[10,9])。"Normal"分布将每日回报建模为正态分布,其均值和方差与历史数据集中的匹配。"RBM"分布是 RBM 生成的样本数据集,理想情况下应具有与原始历史数据集完全相同的统计特性。如果从两个分布中抽取的样本具有相同的分位数,QQ 图中的所有点都将位于对角线处,我们可以得出结论,这两个分布是相同的。图 5.3 显示,来自"Data"和"RBM"分布的样本确实符合这一点(具有相当好的准确性),而两者在与拟合的正态分布相比时,显示出更重的尾部。

图 5.3 中显示的结果是通过在每日回报数据集上训练的 RBM 得到的。每个来自训练数据集的回报都被转换为一个 12 位二进制数。二进制数的每一位被当作一个独立的二进制特征处理(每个索引有 12 个特征;总共有 24 个特征)– 这要求在 RBM 网络的可见层中放置 24 个激活单元。隐藏单元的数量设置为 16。因此,网络作为一个强正则化的自编码器进行训练。生成的回报(以二进制格式)随后被转换回它们的连续表示。该模型是来自开源scikit-learn包的 Bernoulli RBM(sklearn.neural_network.BernoulliRBM)[230],其参数设置如下:

  • n_components = 16 – 隐藏激活单元的数量

  • learning_rate = 0.0005

  • batch_size = 10 – 训练小批量的大小

  • n_iter = 40000 – 迭代次数

合成数据生成方法可以表述为算法 3。

--------------------------------------------------------------------- -算法---3:-合成数据生成----------------------------- 1: 原始数据集二进制表示的构建:a) 连续特征可以转换为具有所需精度的等效二进制表示。b) 整数特征 x ∈ {x1,...,xn} 可以通过标准程序转换为 N 位二进制数,其中 N−1 N 2 ≤ 1m≤ajx≤n(xj)− 1m≤ijn≤n(xj) < 2。c) 类别特征可以通过独热编码方法或与整数特征相同的程序进行二值化,因为类别值可以枚举。d) 类别标签同样适用,包括整数和类别类型。2: 使用 1 步 CD 算法在原始数据集的二进制表示上训练 RBM。3: 生成所需数量的新合成样本(以二进制格式)。4: 对于每个合成数据样本:将生成的二进制特征转换为相应的类别、整数和连续表示。5: 生成的合成数据集已准备好用于各种分类器和回归器的训练。 ---------------------------------------------------------------------

Figurex1-107016r3: 生成的和历史回报的 QQ 图。a)-c) DAX. d)-f) BOVESPA。RBM 学习了股票指数回报的重尾经验分布。

图 5.3:生成的和历史回报的 QQ 图。a)-c) DAX. d)-f) BOVESPA。RBM 学习了股票指数回报的重尾经验分布。

Kondratyev 和 Schwarz [173] 提出了基于 RBM 的市场生成器,并研究了其在日常外汇对数回报数据集上的属性。四个货币对的对数回报时间序列涵盖了 20 年的时间间隔(1999-2019),这使得 RBM 能够学习多变量分布的依赖结构,并成功重建线性和秩相关性以及联合尾部行为。此外,还表明,RBM 可以用于执行条件采样(例如,从低波动/高波动状态),并通过调整热化参数来实现所需的自相关程度。RBM 基于的合成数据生成器的其他有效应用包括数据匿名化、对抗过拟合和异常值检测,正如 Kondratyev、Schwarz 和 Horvath [174] 所展示的那样。

除了在随机二进制激活单元上操作外,RBM 还通过自编码器架构和使用随机梯度上升法进行训练,从而增强了对过拟合的抵抗力。这使得 RBM 能够从相对较小的数据集中学习复杂的多变量概率分布,同时避免了过拟合。

5.4 量子退火与玻尔兹曼采样

将量子退火应用于玻尔兹曼采样基于 RBM 能量函数(见 5.2.4)与量子退火中的哈密顿量之间的直接对应关系。回顾第二章,量子退火基于绝热演化的原则,从初态 t = 0 开始,由哈密顿量ℋ[0]定义,到最终状态 t = T 结束,由哈密顿量ℋ[F]定义,系统在时间 t ∈ [0, T]时的哈密顿量为:

ℋ (t) = r(t)ℋ0 + (1− r(t))ℋF ,

其中 r(t) 从 1 递减到 0,随着 t 从 0 到 T 变化。理想的绝热演化场景设想系统始终保持在ℋ(t)的基态:如果系统从ℋ[0]的基态开始,且演化过程足够缓慢以满足量子绝热定理的条件(见第二章),那么系统最终将达到ℋ[F]的基态。

实际上,现有的量子退火硬件并没有严格满足量子绝热定理的条件。量子退火器在约 15mK 的非常低温下工作[90],但仍然存在一些残余的热噪声。同时,量子比特之间也会有一些串扰,物理量子比特的链条代表逻辑量子比特时,这些链条可能会被破坏。串扰是指某个或多个量子比特的期望操作不小心影响到其他一个或多个量子比特。在某些情况下,串扰是计算错误的主要来源。这对量子退火器解决优化问题提出了严重的挑战,尤其是当主要目标是找到精确的基态时。但是,如果我们想将量子退火器作为采样器使用,一定量的残余热噪声和电磁噪声是可以接受的。

5.4.1 玻尔兹曼采样

量子退火器作为采样引擎的基础是中心提议[4],即激发态的分布可以被建模为玻尔兹曼分布:

 1- ℙ(x) = Z exp (− β ℋF (x )) ,

其中 β 是某个参数(可以视为有效的倒数温度),Z 是配分函数:

 ∑ Z = exp (− βℋF (x)). x

如果我们将二进制向量 x 定义为可见节点向量 v 和隐藏节点向量 h 的连接:

x := (v ,v ,...,v ,h ,h ,...,h ), 1 2 N 1 2 M

然后,通过比较 5.2.4 和 5.4.1,我们可以建立能量函数 E 与哈密顿量ℋ[F]之间的直接对应关系。因此,我们可以提出一种替代方法来计算期望值 ⟨⋅⟩[model],该方法按照以下算法[4]进行:

--------------------------------------------------------------------- -算法---4:-玻尔兹曼--采样----------------------------------- 1: 使用 RBM 能量函数 E 作为最终的哈密顿量ℋF。 2: 运行量子退火 K 次,并收集 vi(k)和 hj(k)的读取统计量,i = 1,...,N,j = 1,...,M,k = 1,...,K。 3: 计算无偏期望值:1 ∑K ⟨vihj⟩model :=-- vi(k)hj(k), K k=1 1 ∑K ⟨vi⟩model := K- vi(k), k=1 ∑K ⟨hj⟩model := 1- hj(k)。 K k=1 ---------------------------------------------------------------------

使用量子退火进行玻尔兹曼采样有两个主要的动机,如算法 4 所述。首先,它绕过了运行对比散度算法(算法 2)的需要,该算法仅提供对期望值⟨⋅⟩[model]的近似值(尽管这些近似可以非常准确)。其次,从玻尔兹曼分布生成新样本所需的退火时间约为∼1 微秒,与图的大小无关。在经典的 RBM 中,情况并非如此,通常需要进行数千次的前向和反向传播,才能读取到网络权重和偏置中编码的玻尔兹曼分布的独立新样本[173]。对于大的 RBM 图,在标准硬件上可能需要花费数十毫秒。因此,我们可以从准确性和加速两个方面来探索量子退火为玻尔兹曼采样带来的潜在量子优势。

5.4.2 映射

在量子退火器上执行玻尔兹曼采样的第一步是将 RBM 映射到量子退火硬件图上。我们从为 RBM 能量函数E写出以下形式的表达式开始:

E (v,h) = E(x) = βxTQx.

这里,Q是一个(N + M) × (N + M)矩阵,其元素是 RBM 的权重和偏置:

 ⌊ | ⌋ |a1 0 ... 0 |w11 w12 ... w1M | || 0 a2 ... 0 |w21 w22 ... w2M || || . . . . | . . . . || | .. .. .. .. | .. .. .. .. | || 0 0 ... a |w w ... w || Q = 1-||-------------N--|--N1---N2--------NM--||. β || 0 0 ... 0 | b1 0 ... 0 || || | || || 0 0 ... 0 | 0 b2 ... 0 || | ... ... ... ... | ... ... ... ... | ⌈ | ⌉ 0 0 ... 0 | 0 0 ... bM

量子退火器操作的是自旋变量{−1,+1},而不是二进制变量{0, 1}。二进制变量向量 x 可以通过以下方式转换为自旋变量向量 s:

x −→ s = 2x − 1,

然后我们得到 RBM 能量的以下表达式:

 N∑ N+∑M ∑N N∑+M E = − gisi − gjsj − Jijsisj − const = EIsing − const, i=1 j=N+1 i=1j=N+1

其中,对于 i = 1, …, N 和 j = N + 1, …, N + M

 N+M N g := ai+ 1- ∑ w , g := bj + 1-∑ w , J := 1w , i 2 4 ij j 2 4 i=1 ij ij 4 ij j=N+1

并且 (s[i])[i=1,…,N] 是对应可见节点的自旋变量,而 (s[j])[j=N+1,…,N+M] 是对应隐藏节点的自旋变量。

我们可以忽略 RBM 能量表达式中的常数项 (5.4.2),因为相同的因子将在 ℙ(v,h) 的分子和分母中出现。因此,我们得到:

⟨vihj⟩EmIosidngel = ⟨vihj⟩Emodel.

为了使用量子力学描述自旋来表达伊辛哈密顿量,我们用相应的保利算符替换自旋变量:

 N N+M N N+M ∑ i ∑ j ∑ ∑ i j ℋIsing = − giσz − gjσz − Jijσzσz, i=1 j=N+1 i=1j=N+1

其中 σ[z]^i 是表示伊辛量子自旋的常用保利矩阵。初始哈密顿量为:

 N+∑M ℋ0 = σi, i=1 x

随时间变化的哈密顿量 (5.4) 形式为:

ℋ (t) = r(t)ℋ0 + (1 − r(t))ℋIsing.

5.4.3 硬件嵌入和参数优化

在现有量子退火器的标准编程实践中,每个自旋变量 s[i] 理想情况下应分配给一个特定的芯片元素,即超导量子通量比特,模型为量子二能级系统,可以表示量子哈密顿量。

 ∑ ℋlocal = giσiz. i

虽然每个量子比特支持 g[i] 项的编程,但 J[ij] 参数可以通过电感元件以能量方式实现,这些元件旨在表示。

 ∑ ℋcouplers = Jijσizσjz, ij

仅当量子比特 ij 之间存在所需的电路时才能实现,否则它们在处理器的空间布局中不能制造得太远,以避免工程上的问题 [296]。换句话说,除非 (i,j) ∈ G,否则 J[ij] = 0,其中 G 是特定的量子退火图(例如,在 D-Wave 量子退火器的情况下,ChimeraPegasus 图)。

如果所有物理量子比特都已互相连接,则将最终的哈密顿量 (5.4.2) 嵌入到量子芯片上是很简单的。遗憾的是,实际情况并非如此。现有的量子退火器的量子比特连接性非常有限。例如,在 Chimera (Pegasus) 图中,一个物理量子比特最多与六个(十五个)其他物理量子比特连接。

为了绕过这一限制,标准的做法是采用次要嵌入编译技术来处理完全连接的图。通过这一过程,我们得到另一个伊辛模型形式,其中量子比特按顺序排列成 1D 链(形成代表自旋变量的逻辑量子比特),并交错于量子退火器图上:

 N∑ [Nc∑−1 ] N+∑M [Nc∑−1 ] ℋIsing = − |JF| σicσi(c+1) − |JF | σjcσj(c+1) i=1 c=1 z z j=N+1 c=1 z z
 N [ Nc ] N+M [ Nc ] − ∑ gi- ∑ σic − ∑ gj- ∑ σjc Nc z Nc z i=1 c=1 j=N+1 c=1
 ⌊ ⌋ ∑N N+∑M N∑c − Jij⌈ δGij(ci,cj)σizciσjczj⌉ . i=1j=N+1 ci,cj=1

在 (5.4.3)中,我们显式地分离出逻辑量子变量的编码:经典二进制变量s[i]与N[c]个伊辛自旋σ[z]^(ic)相关联,通过耦合强度J[F] 直接发生铁磁耦合,形成一个有序的 1D 链子图G。如果在计算基下测量,每个自旋的磁化强度值应足够强,以便能够相关联(⟨σ[z]^(ic)⟩ = ⟨σ[z]^(i(c+1))⟩)。

在 (5.4.3)和 (5.4.3)中,我们通过扩展的变量集对伊辛哈密顿量 (5.4.2)进行编码:局部场g[i]均匀分布在属于逻辑链i的所有量子比特上,每个耦合器J[ij]仅在一对特定的量子比特之间激活(σ[z](ic[i]⋆)[z](jc[j]⋆)),该对量子比特由邻接检查函数δ[ij]^G(c[i],c[j])指定,只有当(c[i] = c[i]^⋆)且(c[j] = c[j]^⋆)时,函数值为 1,否则为 0。

在这个特定的嵌入方案下,我们可以将注意力集中在实验性地寻找参数β的最优值上(见 5.4.2),这一点只能通过实验来完成。由于最终的哈密顿量是在量子退火器上使用无量纲系数编程的,因此参数β不能用常规形式 1∕kT 来表示,其中k是玻尔兹曼常数,T是有效温度。相反,它应该被视为一个经验参数,依赖于网络架构、嵌入方案以及量子退火器的物理特性(例如工作温度、退火时间、超导流量量子比特系统的能量尺度等)。

估算β的实验方法包括以下五个步骤 [4]:

  1. 构建一个 RBM。

  2. 将 RBM 映射到假设特定β值的最终哈密顿量(算法 4-第 1 步)。

  3. 运行量子退火(算法 4-第 2 步)。

  4. 使用量子样本计算模型期望值(算法 4-第 3 步)。

  5. 将结果期望值与“正确”的基准值进行比较(例如,使用经典 CD 算法获得的值)。

这个过程会针对不同的β值进行重复。然后,可以使用给定 RBM 架构的最佳拟合的β值。如在[4]中所述,即使对于β的最优设置,模型期望值的估计仍然会有一定误差。然而,与对比散度算法中玻尔兹曼采样相关的噪声相比,这可能足以估计 5.3.2 中的梯度,5.3.2 中的梯度,以及 5.3.2 中的梯度。

5.4.4 生成模型

到目前为止,我们考虑的玻尔兹曼采样的主要应用是在提供无偏估计模型期望值上,正如算法 4 中所指定的那样。一旦通过量子退火完成充分训练,RBM 就可以以传统的经典方式,用于从已学习的概率分布中生成新的合成样本。在这种情况下,量子退火仅作为混合量子-经典训练协议中的一个子程序使用。

然而,完全可以将量子退火器本身作为生成器使用。量子退火器不仅仅协助训练经典的 RBM,它还可以根据最终哈密顿量(5.4.2)编码的分布输出连续样本的二进制表示。量子变分自编码器[162]是另一个 QBM 的例子,它可以通过最大化明确定义的代价函数来端到端地训练:量子变分下界近似对数似然。

玻尔兹曼采样是 RBM 训练和新样本生成的关键元素。通过用量子采样替代经典的玻尔兹曼采样,量子退火可以提供数量级的加速。

5.5 深度玻尔兹曼机

深度玻尔兹曼机(DBM)可以由多个 RBM 构成,其中第一个 RBM 的隐藏层成为第二个 RBM 的可见层,依此类推,如图 5.4 所示。

图 x1-113002r4:DBM 的示意图。

图 5.4:DBM 的示意图。

DBM 可以逐层训练,每次训练一个 RBM。这将生成一个强大的生成模型,能够学习复杂的多变量分布和依赖结构。然而,DBM 的生成训练可以作为构建判别模型的第一步,如果训练数据集的样本有标签。在这种情况下,所有通过 CD 或量子玻尔兹曼采样算法获得的 DBM 权重和偏置,都会被视为相应前馈神经网络权重和偏置的初始值。判别模型将包括原始 DBM 的所有层,并增加一个额外的输出层,用于分类标签的分配。通过标准的误差反向传播算法,可以对判别模型进行微调。

5.5.1 使用量子退火训练 DBM

DBM 的生成训练可以看作是判别模型的预训练。图 5.5 提供了混合量子-经典训练过程的示意图。

Figurex1-114002r5:DBM 的生成训练与判别训练。

图 5.5:DBM 的生成训练与判别训练。

在图 5.5 所示的 DBM 训练方案中,只有步骤 1 依赖于量子退火。步骤 2 和步骤 3 完全是经典的。步骤 3 是可选的:没有它,我们就拥有一个标准的机器学习“管道”,其中一个或多个 RBM(步骤 1)通过构建数据集样本的低维表示来执行“特征提取”,从而帮助判别模型(步骤 2)实现更好的分类结果。

5.5.2 一个 DBM 管道示例

管道方法可以使用 UCI 机器学习库中的流行数据集“国王+车 vs. 国王+兵”来说明[262, 263]。任务是分类残局,其中黑色兵即将升变,而白方(国王+车)即将走子。可能的结果是“白方可以赢”(类 1)和“白方不能赢”(类 0)。棋盘由 36 个类别属性描述,可以编码为 38 个二进制变量。数据集包含 3196 个样本(在数据集的所有案例中,白方可以赢 52%)。

scikit-learn包提供了构建 DBM 管道经典部分所需的所有组件。可以借助sklearn.pipeline.make_pipeline构建管道本身。DBM 是由两个 RBM 构建的,这些 RBM 是通过sklearn.neural_network.BernoulliRBM实现的。RBM #1 在可见层有 38 个节点,在隐藏层有 30 个节点;RBM #2 在可见层有 30 个节点,在隐藏层有 20 个节点。确切的管道配置如下(所有其他参数设置为默认值):

RBM #1 RBM #2 MLP 分类器
n_components = 30 n_components = 20 hidden_layer_sizes = (20)
learning_rate = 0.00025 learning_rate = 0.00025 activation = 'tanh'
batch_size = 10 batch_size = 10 solver = 'adam'
n_iter = 100000 n_iter = 100000 alpha = 0.1
max_iter = 5000

表 5.1:用于“国王+车 vs. 国王+兵”分类问题的 DBM 管道配置。

因此,两个 RBM 都被训练为自编码器:DBM 将每个 38 特征的样本转换为其 20 特征的低维表示。这些新的“提取”特征,理想情况下,应该比原始特征具有更高的预测能力,前提是两个 RBM 都学到了数据集的主要特征和依赖结构,并剔除了噪声或不太重要的特征。判别器是sklearn.neural_network.MLPClassifier,其单一隐藏层中有 20 个 tanh 激活单元。

在这个设置下,DBM 在以下的样本外分类结果(数据集按 70:30 比例分为训练集和测试集,使用sklearn.model_selection.train_test_split)中取得了以下成绩:

  • 分类准确率:95.2%

这与例如集成学习分类器如随机森林(sklearn.ensemble.RandomForestClassifier)相比具有优势。设置 1000 个估计器和最大深度为 5 的随机森林分类器在样本外分类结果上取得了以下成绩:

  • 分类准确率:94.9%

DBM 的架构使其可以作为生成模型或判别模型进行训练。在这两种情况下,玻尔兹曼采样都可以在提高其性能方面发挥重要作用。

摘要

在本章中,我们学习了基于能量的模型——一种强大的生成模型的特殊类型。我们学习了如何构建、训练和运行 RBM,以生成与原始训练数据集统计上无法区分的合成样本。

我们熟悉了玻尔兹曼采样和对比散度算法。玻尔兹曼采样可以在 NISQ 时代的量子退火机上高效执行,这可能提高模型的质量,并在生成新样本时实现数量级的加速。

我们学习了如何将单个 RBM 结合起来构建 DBM。量子退火可以有效地应用于 DBM 的预训练,然后将其微调为深度前馈神经网络分类器。

最后,我们探索了使用 RBM 和 DBM 作为机器学习管道中第一个模型进行去噪和特征提取的可能性。

在下一章中,我们将转向门模型量子计算。我们将从经典二进制数字(bit)和经典逻辑门的概念开始,然后介绍它们的量子对应物:量子二进制数字(qubit)和单量子比特/多量子比特量子逻辑门及量子电路。

加入我们书籍的 Discord 空间

加入我们的 Discord 社区,结识志同道合的人,并与超过 2000 名成员一起学习: packt.link/quantum

PIC

第二部分:门模型量子计算

第六章:量子比特和量子逻辑门

计算可以广义地定义为一种将一个记忆状态转换为另一个记忆状态的过程。换句话说,计算是一个将信息转换的函数[281]。在经典数字计算的情况下,基本的记忆单元是二进制数字(比特)信息。对比特信息执行操作的函数被称为逻辑门。逻辑门是布尔函数,它们可以组合成电路,执行加法、乘法以及更复杂的操作。在逻辑门中,输出比特的数量不必与输入比特的数量相同。

计算可能看起来是一个抽象的数学概念,但它总是需要某种物理系统来执行。这个物理系统是什么并不重要:台球、电子开关、晶体管或任何其他物体——计算是与底层物质无关的。然而,始终是某种物理过程以受控的方式改变系统的状态。

经典数字计算要求物理实现两个不同的确定性状态(通常表示为 0 和 1),并且需要一组执行受控转换的逻辑门。在接下来的章节中,我们将看到经典数字计算如何实现,所需的基础操作集是什么,以及如何将经典计算的逻辑扩展到更一般的量子计算逻辑,而经典计算仅是量子计算的一个特例。

6.1 二进制数字(比特)与逻辑门

本节中,我们将快速回顾经典逻辑门及其普适性,以便稍后与量子门进行对比。

6.1.1 逻辑门

逻辑门是布尔函数的实现,它是在一个或多个二进制输入上执行的逻辑操作,产生一个单一的二进制输出。逻辑门通过其真值表表示。真值表为每个输入变量提供一列,并且有一列最终显示该表表示的逻辑操作的所有可能结果。真值表的每一行包含输入变量的一个可能配置(一个比特或比特串),以及对于这些值的操作结果。

图表 6.1、6.2、6.3 和 6.4 是与门、或门、与非门(非与门)和异或门(排他或门)逻辑门的示意电路图及其对应的真值表。

图 6.5: 与门电路图和真值表

图 6.1: 与门电路图和真值表。

图 6.1: 与门电路图和真值表

图 6.2: 或门电路图和真值表。

图 6.6: 与非门电路图和真值表

图 6.3: 与非门电路图和真值表。

图 6.4: 异或门电路图和真值表

图 6.4:XOR 门的图示和真值表。

6.1.2 NAND 作为通用逻辑门

逻辑门可以组合成电路,其中一个门的输出作为另一个门的输入。这使得我们能够 i) 实现比基本布尔函数更复杂的运算符,ii) 仅使用少量易于构建的逻辑门来实现所有必要的布尔函数。例如,所有布尔函数都可以仅使用 NAND 门和扇出操作来构建。这使得 NAND 成为经典计算中的 通用 门。图 6.5 通过展示将四个基本逻辑门(NOT、AND、OR、XOR)分解为仅由 NAND 门组成的电路来说明这一点。

图 x1-122002r5:逻辑门分解为 NAND 门和扇出操作的示例。

图 6.5:逻辑门分解为 NAND 门和扇出操作的示例。

6.1.3 利用 NAND 门构建加法运算符

图 6.6 展示了如何将 NAND 门和 XOR 门结合成一个实现基本加法运算符的电路。正如我们所知道的,XOR 门本身可以通过组合 NAND 门来构建。加法运算符接受三个 1 位二进制数作为输入,并输出两个 1 位二进制数,这可以作为一个 2 位二进制数(2-bit bitstring)进行读取。这个 2 位二进制数可以转换为它的整数表示——一个介于 0 到 3 之间的整数,如真值表(表 6.1)所示。

图 x1-123002r6:加法运算符:输入是三个 1 位二进制数,输出是一个 2 位二进制数。

图 6.6:加法运算符:输入是三个 1 位二进制数,输出是一个 2 位二进制数。

输入 1 输入 2 输入 3 输出 1 输出 2 二进制 整数
0 0 0 0 0 00 0
0 0 1 0 1 01 1
0 1 0 0 1 01 1
1 0 0 0 1 01 1
0 1 1 1 0 10 2
1 0 1 1 0 10 2
1 1 0 1 0 10 2
1 1 1 1 1 11 3

表 6.1:加法运算符真值表。

计算是将一种内存状态转换为另一种内存状态的过程。执行这种转换的函数被称为逻辑门。逻辑门由它们的真值表完全定义。一个通用逻辑门是指从它可以构建所有其他布尔函数的逻辑门。我们只需要找到一个通用门的高效物理实现,就可以执行任意复杂度的计算。

6.2 经典比特和逻辑门的物理实现

到目前为止,我们已经从计算机科学理论的角度定义了比特和经典逻辑门。接下来,我们将概述实现这些操作的最有效硬件技术。

6.2.1 NAND 门的实现

NAND 门(与扇出操作符一起)是经典数字计算中的通用门。因此,只需找到 NAND 布尔函数的一个实用物理实现,就足以构建一个通用计算机。图 6.7 展示了使用不同技术(从电气开关到半导体)实现 NAND 门的几种可能方式。

继电器逻辑: 开关被解释为位,0 = 开,1 = 闭。当 A 和 B 开关都闭合时,电磁铁会打开 C 开关。如果 A 和 B 中的任意一个或两个开关都为开,则电路断开,电磁铁无法打开 C 开关。

电阻-晶体管(RT)逻辑: 电压被解释为位,0 = 0 伏,1 = 3 伏。当 A 和 B 两根导线都为+3 伏时,两个晶体管导通,C 线降至零伏。如果 A 和 B 的输入之一或两者都为零伏,则相应的晶体管不导通,输出 C 保持在+3 伏。

互补金属氧化物半导体(CMOS)逻辑: 与 RT 逻辑类似,电压被解释为位,0 = 0 伏,1 = 3 伏。当输入为 1(+3 伏)时,PMOS 晶体管导通;当输入为 0(零伏)时,PMOS 晶体管关闭。NMOS 与 PMOS 的逻辑相反。PMOS 电路位于电压源与输出之间,NMOS 电路位于输出与地之间。

如果 A 和 B 输入都为高电平,则两个 NMOS 晶体管都会导通,两个 PMOS 晶体管都不会导通,输出端 C 与地之间将形成导电通路,从而使输出变为低电平。如果 A 和 B 输入都为低电平,则两个 NMOS 晶体管都不会导通,而两个 PMOS 晶体管都会导通,输出端与电压源之间将形成导电通路,使输出变为高电平。如果 A 或 B 输入之一为低电平,则一个 NMOS 晶体管不会导通,一个 PMOS 晶体管会导通,输出端与电压源之间将形成导电通路,使输出变为高电平。因此,该电路实现了 NAND 门,因为只有在两个输入都为高电平时,输出才会为低电平。

Figurex1-125004r7: NAND 门的物理实现

图 6.7:NAND 门的物理实现。

6.2.2 RAM 存储单元的实现

随机存取存储器(RAM)用于存储 CPU 当前使用的指令和数据。它被称为易失性存储器,因为当计算机关闭时,它的内容会被清除。RAM 可能由数十亿个基本的存储单元组成,每个存储单元能够存储一个位的信息。

现在我们知道如何构建一个通用逻辑门,我们可以尝试设计一个电路,来实现我们需要构建 RAM 的基本存储单元。例如,图 6.8 展示了如何利用四个 NAND 逻辑门构建存储单元。

图 x1-126004r8:通过 NAND 门构建基本存储单元。

图 6.8:通过 NAND 门构建基本存储单元。

D E Q Q
0 1 0 1
1 1 1 0
0 0 Q Q
1 0 Q Q

表 6.2:存储单元真值表。

图 6.8 中的电路有两个输入端口,D(数据)和 E(使能),以及两个输出端口,Q 和 Q(非 Q)。存储单元电路的真值表(表 6.2)解释了它的工作原理:

  • 当使能输入 E 设为 1 时,输出 Q 可以设置为数据输入 D。

  • 当使能输入 E 设为 0 时,输出 Q 无法改变——它会保持原值。

这些是使电路能够作为存储单元的关键特性。

计算是平台无关的。任何可以存在于两个离散、稳定状态之间,并且能够在它们之间进行受控转变的物理系统,都可以用来实现门模型的数字计算。同时,有些实现方式比其他方式更高效(更快、更便宜、更可靠)。

这些经典逻辑门提供了一个自然的框架,用于理解它们的量子化形式,接下来我们将对其进行探讨。

6.3 量子二进制数字(量子比特)和量子逻辑门

量子比特和量子逻辑门是量子计算中对应于经典比特和逻辑门的概念。虽然它们共享一些共同特征,但量子特性带来了许多具体的性质,这正是本节讨论的内容。

6.3.1 根据量子力学定律进行计算

经典逻辑门作用于比特,执行布尔函数,构成了数字经典计算的基础。正如我们所见,经典比特的物理实现有很多种方式——一个具有两个不同、稳定状态并且能够在它们之间进行受控转变的系统。从量子力学的角度看,我们能如何描述这样的系统呢?

正如我们从第一章所知,任何这样的系统可能存在于状态的叠加态中,且量子比特的状态 |ψ⟩ 可以通过以下表达式来描述:

|ψ⟩ = α |0⟩ + β |1⟩,

其中αβ是满足条件的复数

![ α ² + β ² = 1.](https://github.com/OpenDocCN/freelearn-quant-zh/raw/master/docs/qml-opti-fin/img/file465.jpg)

系数 αβ概率振幅。任何对状态 |ψ ⟩测量 都会以概率 |α|² 得到 |0⟩,以概率 |β|² 得到 |1⟩。测量过程将量子系统与环境耦合,导致叠加态坍缩。测量后,系统处于已测量状态,之后对相同基的进一步测量将始终得到相同的结果。

由于量子比特状态 |ψ⟩ 由两个满足 (6.3.1) 的复概率振幅描述,我们可以说量子比特的状态是二维复向量空间中的单位向量。换句话说,状态 |ψ ⟩ 可以写作向量

⌊ ⌋ ⌊ ⌋ ⌊ ⌋ ⌈ α⌉ = α ⌈1⌉ + β ⌈0⌉ . β 0 1

这意味着基态 |0 ⟩|1⟩ 被表示为标准正交基向量

 ⌊ ⌋ ⌊ ⌋ |0⟩ := ⌈1 ⌉, |1⟩ := ⌈0 ⌉ . 0 1

标准正交基 |0⟩|1⟩ 并不是唯一可选的基向量。来自复二维向量空间的任何一对 线性无关 单位向量 |u⟩|v ⟩ 都可以作为基:

α |0⟩+ β |1⟩ = α ′ |u ⟩+ β′ |v⟩.

例如,我们可以使用由 {|+ ⟩,|− ⟩} 定义的 Hadamard 基

 ⌊ 1 ⌋ ⌊ 1 ⌋ 1 1 | √--| 1 1 | √---| |+⟩ := √--|0⟩+ √--|1⟩ = ⌈ 12⌉ and |− ⟩ := √--|0⟩− √---|1⟩ = ⌈ 21 ⌉ . 2 2 √--- 2 2 − √--- 2 2

基是由测量过程或量子计算机的物理实现决定的 [80]。

明确选择基底非常重要。例如,向量

⌊ -1-⌋ | √2-| ⌈ 1 ⌉ √2-

在标准正交基(计算基)下测量时,结果 |0⟩|1⟩ 以相同的概率 12 得出。在 Hadamard 基下测量时,结果是 |+ ⟩,其概率为 1\。

两量子比特系统的状态可以由四维复向量空间中的单位向量表示。在这种情况下,标准正交基由四个正交单位向量组成

 ⌊ ⌋ ⌊ ⌋ ⌊ ⌋ ⌊ ⌋ |1| | 0| | 0| |0| ||0|| || 1|| || 0|| ||0|| |00⟩ := | | , |01⟩ := | |, |10⟩ := | | , |11⟩ := | | , |⌈0|⌉ |⌈ 0|⌉ |⌈ 1|⌉ |⌈0|⌉ 0 0 0 1

系统状态由四个概率振幅来描述:

|ψ ⟩ = α |00⟩+ β |01⟩+ γ |10⟩ + δ |11⟩,

其中 α,β,γ,δ ∈ℂ,且 |α|² + |β|² + |γ|² + |δ|² = 1。两个量子比特状态的基向量 (6.3.1) 是单个量子比特基向量的 张量积

 ⌊ ⌊ ⌋⌋ ⌊ ⌋ ⌊ ⌊ ⌋⌋ ⌊ ⌋ | ⌈1 ⌉| 1 | ⌈0⌉| 0 || 1⋅ 0 || || 0|| ||1 ⋅ 1 || ||1|| |00⟩ = |0⟩⊗ |0⟩ = || ⌊ ⌋|| = || ||, |01⟩ = |0⟩⊗|1⟩ = || ⌊ ⌋|| = || || , | 1 | |⌈ 0|⌉ | 0 | |⌈0|⌉ ⌈ 0⋅⌈ ⌉⌉ ⌈0 ⋅⌈ ⌉⌉ 0 0 1 0
 ⌊ ⌊ ⌋⌋ ⌊ ⌋ ⌊ ⌊ ⌋⌋ ⌊ ⌋ | 0⋅⌈1 ⌉| | 0| |0 ⋅⌈0⌉| |0| || 0 || | 0|| 1 || |0| |10⟩ = |1⟩⊗ |0⟩ = || ⌊ ⌋|| = || ||, |11⟩ = |1⟩⊗|1⟩ = || ⌊ ⌋|| = || || . |⌈ ⌈1 ⌉|⌉ |⌈ 1|⌉ |⌈ ⌈0⌉|⌉ |⌈0|⌉ 1⋅ 0 1 ⋅ 1 0 1

通常,n 量子比特系统可以存在于 2^n 个基态的任意叠加中,并且需要 2^n 个概率振幅来完全指定。

计算是记忆状态的转换。量子比特状态通过应用量子逻辑门进行转换。量子逻辑门是单位线性算符,由单位矩阵表示。量子逻辑门作用于特定量子状态的方式是将表示该门的单位矩阵与表示该状态的向量相乘。结果是新的量子状态。

6.3.2 量子比特

将量子比特的状态可视化为单位球上的一个点是很方便的,这个球体被命名为 Bloch 球,得名于物理学家费利克斯·布洛赫。Bloch 球上的每一个点都可以通过两个角度 𝜃 ∈ [0] 和 ϕ ∈ [0,2π] 来唯一指定,如图 6.3.2 所示。

图 6.9:Bloch 球上的量子态 |ψ ⟩

图 6.9:Bloch 球上的量子态 |ψ ⟩

通过映射

 ( ) ( ) 𝜃- iϕ 𝜃- α = cos 2 , β = e sin 2 ,

我们得到量子比特状态的标准表示:

 ⌊ ( 𝜃) ⌋ | cos -- | |ψ⟩ = α |0⟩+ β |1⟩ = |⌈ (2 ) |⌉. eiϕsin 𝜃- 2

量子比特状态的转换可以通过从 Bloch 球上的一个点转移到另一个点来可视化。因此,执行此转换的单位矩阵(量子逻辑门)可以看作是一个旋转算符,我们可以将 旋转 视为门操作的同义词,将 旋转角度 视为门的参数。

6.3.3 单量子比特量子逻辑门

与经典计算不同,经典计算中我们只能定义在单个位上操作的两个逻辑门(恒等门和非门),而量子计算中有无限多种单量子比特逻辑门:任何单位 2 × 2 矩阵(旋转)都是一个量子逻辑门。某些逻辑门比其他门更为重要(或更容易实现)。下面我们将详细描述其中一些,首先是恒等门 I 和保利矩阵 X、Y 和 Z。I 门的作用显而易见——它保持量子比特的状态不变;保利矩阵分别绕xyz轴进行π弧度的旋转:

 ⌊ ⌋ ⌊ ⌋ ⌊ ⌋ ⌊ ⌋ 1 0 0 1 0 − i 1 0 I = ⌈ ⌉ , X = ⌈ ⌉ , Y = ⌈ ⌉ , Z = ⌈ ⌉ 。 0 1 1 0 i 0 0 − 1

我们可以通过简单的代数运算轻松验证 X 门翻转位的功能,以及 Z 门翻转相位的功能:

 ⌊ ⌋ ⌊ ⌋ ⌊ ⌋ ⌊ ⌋ ⌊ ⌋ ⌊ ⌋ X 门:⌈0 1⌉ ⌈1⌉ = ⌈0 ⌉ , ⌈0 1⌉ ⌈0⌉ = ⌈1⌉ 。 1 0 0 1 1 0 1 0 ⌊ ⌋ ⌊ ⌋ ⌊ ⌋ ⌊ ⌋ ⌊ ⌋ ⌊ ⌋ 1 0 1 1 1 0 0 0 Z 门:⌈ ⌉ ⌈ ⌉ = ⌈ ⌉ , ⌈ ⌉ ⌈ ⌉ = − ⌈ ⌉ 。 0 − 1 0 0 0 − 1 1 1

这些操作可以通过以下量子门的图形表示来进行可视化:

图 6.10:X 和 Z 门的图形表示。

图 6.10:X 和 Z 门的图形表示。

这里,水平线表示量子寄存器,而框表示量子门。量子寄存器和量子门一起构成了量子电路的图形表示——量子电路是一系列量子门,通过它们转换量子状态,从而实现量子计算。量子电路的读取顺序是从左到右:量子电路的左端展示了初始量子状态,右端展示了最终状态。通常,量子寄存器上的最后一个操作符是测量操作符。测量后(在计算基中),量子比特被转化为经典比特,其值是一个已知的二进制数。

由于 X 门会翻转量子比特的状态,它也被称为非门。同样,翻转量子比特状态相位的 Z 门被称为相位门

我们可以将经典计算中的非门与量子计算中的非门进行直接类比,但也有些量子门执行的是经典计算中不存在的操作。一个例子是√NOT--门(由第 1.2.1 节中引入的矩阵 M 表示)。在经典计算中,我们没有一个函数,应用两次后能反转位的状态。但在量子计算中,这样的函数是存在的:

 ⌊ ⌋ √---- √ -- 1-⌈1 + i 1 − i⌉ NOT ≡ X = 2 1 − i 1 + i .

我们知道,量子计算的主要动力之一来自于量子比特(qubit)能够处于基态叠加态的能力。但是,我们如何将一个初始化为 |0 ⟩(或 |1⟩)的量子比特放入状态 |0 ⟩|1 ⟩ 的叠加态中呢?答案是哈达玛门(Hadamard gate),H,它在作用于状态 |0⟩ 或状态 |1⟩ 时,会创建一个等概率的叠加态 |0⟩|1⟩

 ⌊ ⌋ H = √1-⌈1 1 ⌉ , 2 1 − 1
 ⌊ ⌋ ⌊ ⌋ ⌊ ⌋ ⌊ ⌋ ⌊ ⌋ ⌊ ⌋ 1 1-- 1 1-- 0 0 -1- 1 -1- 0 H ⌈ ⌉ = √2-⌈ ⌉ + √2-⌈ ⌉ 和 H⌈ ⌉ = √2-⌈ ⌉− √2-⌈ ⌉. 0 0 1 1 0 1

图 6.11:哈达玛 H 门的图形表示。

图 6.11:哈达玛 H 门的图形表示。

有趣的是,哈达玛 H 门是它自己的逆门,因此第二次应用哈达玛门会逆转第一次的操作(从数学上讲,H² = I,或 H = H^(-1)):

图 6.12:哈达玛 H 门的两次应用。

图 6.12:哈达玛 H 门的两次应用。

其他一些有用的单量子比特门是 相位移 门,其中相位变化为 π∕2π∕4,而不是 Z(相位)门中的 π

 ⌊ ⌋ ⌊ ⌋ S = ⌈1 0 ⌉ 和 T = ⌈1 0 ⌉ . 0 eiπ∕2 0 eiπ∕4

最后,需要提到的是 可调 的单量子比特门,它们通过任意角度 𝜃 将量子比特状态绕特定轴旋转。对于任何给定的门 G,定义为:

 ( ) RG(𝜃) := exp − 1-i𝜃G . 2

使用第一章中的引理,我们可以立即计算出 R[X]、R[Y] 和 R[Z]:

 ⌊ (𝜃) (𝜃)⌋ R (𝜃) = ⌈ cos 2 − isin 2 ⌉ , X − isin(𝜃) cos (𝜃) ⌊ 2 2⌋ cos(𝜃) − sin (𝜃) RY(𝜃) = ⌈ (2) ( 2) ⌉ , sin 𝜃2 cos 𝜃2 ⌊ ⌋ ⌈e −i𝜃∕2 0 ⌉ RZ(𝜃) = i𝜃∕2 . 0 e

可调门在参数化量子电路(PQC)中起着非常重要的作用,我们将在本书接下来的章节中讨论这一点。

6.3.4 两量子比特量子逻辑门

类似于由单位 2 × 2 矩阵指定的单量子比特门,我们可以构造任意数量的多量子比特门。n 量子比特门将由 2^n × 2^n 的单位矩阵表示。由于多量子比特门可以同时作用于多个量子比特,它们可以用来 纠缠 量子比特——即让它们的状态相互依赖。我们还可以创建条件运算符,其中只有当控制量子比特处于状态 |1⟩ 时,才会对目标量子比特应用操作。这种门被称为 受控 门,以下我们将讨论一些受控门。

受控门在量子电路中通常通过一条直线连接两个量子寄存器来表示。一个量子寄存器表示控制量子比特,并通过连接量子寄存器的线的末端处的点来表示。另一个量子寄存器表示目标量子比特:所需的条件算符作用于这个寄存器。图 6.13 通过展示一个受控 Y (CY) 门来说明这一点。在这里,q[1] 是表示控制量子比特的量子寄存器,q[2] 是表示目标量子比特的量子寄存器,施加于目标量子比特的算符是 Y。

 ⌊ ⌋ | 1 0 0 0 | | 0 1 0 0 | CY = || ||. |⌈ 0 0 0 − i|⌉ 0 0 i 0

Figurex1-131004r13: CY 门。

图 6.13:CY 门。

受控非门,通常表示为 CNOT 或 CX,是另一个两量子比特受控门的例子。它的作用是当控制量子比特处于状态 |1⟩ 时,应用保利 X 门到目标量子比特,其单位矩阵为:

 ⌊ ⌋ | 1 0 0 0| || 0 1 0 0|| CNOT ≡ CX = || ||. ⌈ 0 0 0 1⌉ 0 0 1 0

该门在量子电路中通常通过在目标量子比特寄存器上放置一个 XOR 逻辑符号(圈中的加号)来表示,因为它的真值表(针对目标量子比特)与 XOR 逻辑门的真值表一致。

图 6.14:CX (CNOT) 门。

图 6.14:CX (CNOT) 门。

q[1] q[2] q′[1] q′[2]
0 0 0 0
0 1 0 1
1 0 1 1
1 1 1 0

表 6.3:CX (CNOT) 门的真值表。

换个角度看,注意到实际上我们有以下等式

CX |q1q2⟩ = |q1⟩ |q1 ⊕ q2⟩,

对于任意 q[1],q[2] ∈{0,1},其中 ⊕ 表示模 2 加法。

CZ 门是对目标量子比特应用的保利 Z (相位翻转) 操作,前提是控制量子比特处于状态 |1⟩,其单位矩阵为:

 ⌊ ⌋ |1 0 0 0 | ||0 1 0 0 || CPHASE ≡ CZ = ||. |⌈0 0 1 0 |⌉ 0 0 0 − 1

有趣的是,对于 CZ 门,实际上目标量子比特和控制量子比特的顺序并不重要——结果是一样的:

图 6.15:CZ (CPHASE) 门。

图 6.15:CZ (CPHASE) 门。

SWAP 门交换两个量子比特的状态。√----- SWAP 门是一个通用门,因为任何多量子比特门都可以仅由 √ ----- SWAP 门和单量子比特门构造而成。

 ⌊ ⌋ ⌊ ⌋ |1 0 0 0| | 1 0 0 0| ||0 0 1 0|| √----- || 0 1+2i 1−2i 0|| SWAP = || || , SWAP = || 1−i 1+i ||. ⌈0 1 0 0⌉ ⌈ 0 2 2 0⌉ 0 0 0 1 0 0 0 1

很多时候,从一组通用门中选择所有其他门可以构建的门集,是由用于执行量子计算的物理系统的特性决定的。√----- SWAP是利用交换相互作用的系统中的本地门[221]。相关的门如 iSWAP 和√ ------ iSWAP是具有类似伊辛相互作用的系统中的自然门[244]:

 ⌊ ⌋ ⌊ ⌋ 1 0 0 0 1 0 0 0 || || || 1 i || |0 0 i 0| √ ------ |0 √2- √2- 0| iSWAP = ||0 i 0 0| , iSWAP = ||0 √i- √1- 0|| . ⌈ ⌉ ⌈ 2 2 ⌉ 0 0 0 1 0 0 0 1

一个可调节的双量子比特门的例子是 XY 门,它是通过某个角度𝜃|01⟩|10⟩态之间的旋转:

 ⌊ ⌋ | 1 0( ) 0( ) 0| || 0 cos 𝜃2 isin 𝜃2 0|| XY(𝜃) = || ( 𝜃) (𝜃) || . ⌈ 0 isin 2 cos 2 0⌉ 0 0 0 1

请注意,XY(π) = iSWAP,XY(π∕2) = √------ iSWAP。与 CZ 门一起,iSWAP 门在量子电路的构建中起着重要作用,因为任何双量子比特门都可以用最多三个 CZ 门或三个 iSWAP 门表示[2]。

6.3.5 Toffoli 门

经典的 Toffoli 门由 Tommaso Toffoli 发明[284],是一个三位逻辑门,在经典计算中是通用的。在量子计算中,它是一个三量子比特的受控受控非门(CCNOT),由以下量子电路表示,其中量子比特 C 是目标量子比特,量子比特 A 和 B 是控制量子比特:

图 6.16: Toffoli (CCNOT) 门

图 6.16: Toffoli (CCNOT) 门。

经典的 Toffoli 门由以下真值表给出:

A B C A′ B′ C′
0 0 0 0 0 0
1 0 0 1 0 0
0 1 0 0 1 0
1 1 0 1 1 1
0 0 1 0 0 1
1 0 1 1 0 1
0 1 1 0 1 1
1 1 1 1 1 0

表 6.4: Toffoli 门的真值表。

量子 Toffoli 门由单位矩阵表示:

 ⌊ ⌋ |1 0 0 0 0 0 0 0| ||0 1 0 0 0 0 0 0|| || || ||0 0 1 0 0 0 0 0|| ||0 0 0 1 0 0 0 0|| CCNOT = || ||. ||0 0 0 0 1 0 0 0|| |0 0 0 0 0 1 0 0| || || |⌈0 0 0 0 0 0 0 1|⌉ 0 0 0 0 0 0 1 0

从 Toffoli 门的真值表可以看出,它也实现了 AND 门和 NAND 门。当 C = 0 时,它可以视为 AND 门:

if C = 0 : C ′ = A AND B.

当 C = 1 时,它可以视为 NAND 门:

′ 如果 C = 1:C = A NAND B。

Toffoli 门可以分解为由 CNOT 和单量子比特门组成的量子电路:

图 6.17:Toffoli(CCNOT)门的分解。门符号后面的“†”上标,如 T†,表示伴随算子(参见第 1.1.1 节)。

图 6.17:Toffoli(CCNOT)门的分解。门符号后面的“†”上标,如 T^†,表示伴随算子(参见第 1.1.1 节)。

Toffoli 电路能够实现 NAND 门,而 NAND 门在经典计算中是通用的,这证明了量子计算可以执行所有经典计算机可以执行的操作。换句话说,量子计算机可以模拟经典计算机。同时,我们也见过一些量子操作,它们在经典计算中没有类似的对应操作。在最一般的情况下,模拟一个n量子比特的量子系统需要存储 2^n 的概率振幅——对于n大于几百的情况,这几乎是不可能的任务,因为在可见宇宙中没有足够的物质来实现这样的经典存储器。因此,量子计算比经典计算更加通用。作为一个概念,计算实际上就是量子计算,经典计算只是量子计算的一个特例 [32]。

量子计算提供了比经典计算更广泛的逻辑门。

Toffoli 门证明了量子计算机可以执行所有经典计算机可以实现的操作。同时,尝试在经典计算机上模拟量子计算将立即面临内存问题。

如前所述,量子门对应于酉矩阵,酉矩阵具有可逆的特性。由于量子电路本质上是经典的,并且是这些矩阵的张量积,因此它们可以轻松地被逆转,从而引出了可逆计算的概念,我们将在下一节中重点讨论。

6.4 可逆计算

Toffoli 门的重要性不仅仅在于其通用性。它是一个通用的可逆逻辑门,这意味着它可以作为可逆计算的基础。在这里,我们应注意,所有由酉矩阵表示的量子逻辑门都是可逆的。那么,可逆计算是什么意思呢?

可逆计算是一种计算模型,其中计算过程是时间可逆的。这也意味着在计算过程中没有信息丢失,我们始终可以重建初始状态。由于信息丢失与热量产生之间存在深刻的物理联系,因此物理实现可逆计算具有巨大的重要性。

根据兰道尔提出的原理 [183],为了使一个计算过程在物理上可逆,它也必须是逻辑上可逆的。从根本上讲,这是因为计算行为只能通过某个物理系统执行,并且受到热力学物理法则的制约。

信息的丧失导致信息熵的增加。类似地,热力学熵的增加会导致热量的产生。在这两种情况下,我们都在从更有序的状态转向更无序的状态,这是一个不可逆的过程。

这一点可以通过统计力学和信息理论中熵的定义来说明。统计力学中的熵定义为

 ∑ S = − kB pilog (pi), i

其中 k[B] 是玻尔兹曼常数,p[i] 是来自平衡集(宏观热力学状态)的微观状态 i 的概率,而信息理论中的熵定义为

 ∑ H = − pilog2(pi), i

其中 p[i] 是从消息空间中获取的消息 i 的概率。

特定微观状态的高概率和特定消息的高概率表示具有低熵的高度有序系统。当微观状态/消息均匀分布时,熵最大化(信息最小化)。

任何概率分布都可以通过某种热力学系统近似得非常精确 [219]。如果 h 是每个粒子的位数信息,那么对于 N 个粒子,在 自然信息单位(1 位 = log(2) 纳特)下测量的熵由以下公式给出

S = − kB log (2)N h.

在能量单位中,每丢失一位信息会产生 k[B]T log(2) 的热量。这里,T 是热源的温度(以开尔文为单位)。例如,如果我们取 T = 300K(约 27 摄氏度),那么擦除一位信息所需的最小能量是 2.87 zJ(zeptojoule)。

从实际角度来看,这意味着每个 逻辑不可逆 操作(例如 NAND 或 XOR 门)都必须伴随相应的熵增加和热量产生。随着计算过程的能效变得越来越重要,发展可逆计算的努力也在增加,因为如果不使用可逆计算原理,基于经典物理法则的传统技术可能很难在当前能效水平上取得更大进展 [106]。

与经典计算不同,所有量子计算操作都是可逆的(除了测量)。这意味着量子优势不仅可能体现在量子加速和量子电路的表达能力上,还可能体现在实现更高的能效上。

到目前为止,我们已经看到了前向和反向(可逆)量子操作。然而,根本上区分量子计算和经典计算的是纠缠的概念。

6.5 纠缠

量子计算的关键方面是纠缠,它使得量子态能够编码比其单独组成部分之和更多的信息。我们在这里详细解释这一点,并为二量子比特系统提供示例。

6.5.1 量子纠缠及其重要性

一个n量子比特系统可以存在于 2^n 个基态的任意叠加中:

 n 2∑ −1 ci |i⟩ = c0 |00...00⟩ + c1 |00...01⟩+ ...+ c2n−1 |11 ...11⟩, i=0

with

 n 2∑ −1 2 |ci| = 1. i=0

如果这样的状态可以表示为单独量子比特态的张量积,则这些量子比特态不是纠缠的。例如,可以很容易地验证

 1 --√-- 4 2(√ -- √-- √ -- √ -- ) 3 |000⟩+ |001⟩ + 3 |010⟩+ 3 |011 ⟩+ 3 |100⟩+ |101⟩ + 3 |110⟩+ 3 |111⟩
= ( 1 1 ) √---|0⟩ + √---|1⟩ 2 2( -- ) 1 √ 3 --|0⟩+ --- |1 ⟩ 2 2( -- ) √ 3 1 ---|0⟩+ -|1⟩ 2 2,

以便量子态不是纠缠态(仅为叠加态)。一个纠缠态不能表示为单独量子比特态的张量积。

例如,二量子比特态

 1 1 √--|00⟩+ √--|11⟩ 2 2

不允许张量积分解。即,对于任意a,b,c,d ∈ℂ,使得 |a|² + |b|² = |c|² + |d|² = 1,我们有

-1- -1- √2-|00⟩+ √2--|11⟩ ⁄= (a |0⟩ + b |1⟩)⊗ (c |0⟩+ d |1⟩).

我们注意到,描述(6.5.1)左侧的状态需要 2^n 个概率振幅,而描述右侧的状态只需要 2n个概率振幅。完全描述一个系统状态所需的概率振幅的数量与该系统能够存储的信息量直接相关。纠缠使我们能够编码比单独的独立量子比特更多的信息。可以说,量子机械系统状态中编码的大多数信息是以量子比特状态之间的相关性形式非局部存储的。这种信息的非局部性是量子计算与经典计算的主要区别特征之一,并且对于许多应用至关重要。

如果我们测量纠缠的量子比特,会发生什么?在(6.5.1)中,两个量子比特处于相等的叠加态,即,如果我们测量第一个量子比特,我们将以 1/2 的概率得到 0 和 1。如果我们测量第二个量子比特,我们也会以相等的概率得到 0 和 1。然而,如果我们在第一个量子比特已经被测量之后再测量第二个量子比特,情况则完全不同。在这种情况下,第二个量子比特的状态完全由第一个量子比特的测量行为决定,不再存在任何不确定性:如果第一个量子比特被测量为 0,第二个量子比特也处于状态 0;如果第一个量子比特被测量为 1,第二个量子比特也处于状态 1。换句话说,测量一个量子比特会坍缩叠加态,并立即影响另一个量子比特。

6.5.2 使用双量子比特门纠缠量子比特状态

量子比特状态可以通过双量子比特门来纠缠。由(6.5.1)给出的双量子比特状态被称为四个最大纠缠贝尔态之一。它可以从未纠缠状态 |00⟩ 构造出来:

|00⟩ = (1 ⋅ |0⟩+ 0 ⋅ |1⟩) ⊗ (1 ⋅ |0⟩+ 0 ⋅ |1⟩)

通过应用由 H 门和 CNOT 门组成的贝尔电路

图 6.18:贝尔电路。

图 6.18:贝尔电路。

在未纠缠的状态上运行该电路,|01⟩|10⟩|11⟩,将生成其他三个贝尔态:

 1 |01⟩ → √--(|01⟩+ |10⟩), 2
 1 |10⟩ → √--(|01⟩− |10⟩), 2
 1 |11⟩ → √--(|00⟩− |11⟩). 2

其他双量子比特门也可以实现纠缠。根据硬件实现的不同,可能是 SWAP 门、CPHASE 门或其他固定的双量子比特门,或者是可调的双量子比特门,如 XY(𝜃)。

纠缠使我们能够将大部分信息存储在量子比特状态之间的相关性中,而不是存储在单个量子比特的状态中。

纠缠是量子电路表现力的主要来源之一,它支撑着我们寻找量子优势的努力。

我们看到,纠缠是量子计算的一个独特特征。现在我们来看它如何在分析经典逻辑门分解的量子等价物时发挥作用,这些内容在第 6.1 节中进行了研究。

6.6 量子门分解

最广泛使用的 NISQ 计算技术是困陷离子和超导量子比特。在这两种情况下,单量子比特门比双量子比特门快得多(快一个数量级)。此外,单量子比特门的保真度要高得多[46,164]。这意味着我们可以将单量子比特门视为计算上不昂贵的,且不必过于担心它们的数量。同时,我们必须在使用双量子比特门时保持节俭:在两个等效电路中,具有更少双量子比特门的电路通常表现得更好。因此,我们应当意识到任何特定系统的本地双量子比特门——那些可以通过标准硬件控制技术自然实现的门。更复杂的门可以分解为本地门的子电路,但更好的解决方案是指定能够利用本地门并绕过非本地双量子比特门的算法。例如,Rigetti 的 Aspen 系统[275]基于超导量子比特,拥有两个本地双量子比特门 CZ 和 XY——基于这些门而非例如 SWAP 门来构建电路会实现更好的性能。

然而,使一个算法硬件依赖并不总是可行或理想的。而且由于本地门的选择不可避免地有限,因此记住几个基本的分解是有用的。以下关系可以通过直接计算验证,并在量子电路构建中发挥重要作用:

图 6.19:CZ 门分解为 CX 和 Hadamard 门。

图 6.19:CZ 门分解为 CX 和 Hadamard 门。

图 x1-137003r20:CX 门分解为 CZ 和 Hadamard 门。

图 6.20:CX 门分解为 CZ 和 Hadamard 门。

鉴于 NISQ 设备的连接性有限(大多数量子比特的最近邻连接),SWAP 门(交换量子比特的状态)特别有用,并且使用可用的本地门高效实现它非常重要。SWAP 门可以通过一个由三个 CX 门组成的子电路表示:

图 6.21:SWAP 门分解为三个 CX 门。

图 6.21:SWAP 门分解为三个 CX 门。

考虑到图 6.20 中 CX 和 CZ 门的关系,SWAP 门也可以分解为一个包含三个 CZ 门和一些单量子比特 Hadamard 门的子电路:

图 6.22:SWAP 门分解为三个 CZ 门和六个 Hadamard 门。

图 6.22:SWAP 门分解为三个 CZ 门和六个 Hadamard 门。

另外,SWAP 门也可以通过三个 iSWAP 门来实现:

图 x1-137013r23:SWAP 门分解为三个 iSWAP 门(iSWAP = XY(π))和三个√- X 门。

图 6.23:SWAP 门分解为三个 iSWAP 门(iSWAP = XY(π))和三个√- X门。

通过直接计算,很容易验证图 6.23 右侧的电路执行以下变换:

 ⌊ ⌋ ⌊ ⌋ ⌊ ⌋ |0| |0| | 0| ||1|| ||0|| ( π )|| 0|| ( π ) |0⟩⊗ |1⟩ ≡ | | −→ | | = exp i-- | | ≡ exp i- |1⟩ ⊗ |0⟩, |⌈0|⌉ |⌈ i|⌉ 2 |⌈ 1|⌉ 2 0 0 0  ⌊ ⌋ ⌊ ⌋ ⌊ ⌋ |0| |0| | 0| ||0|| || i|| ( π )|| 1|| ( π ) |1⟩⊗ |0⟩ ≡ | | −→ | | = exp i-- | | ≡ exp i- |0⟩ ⊗ |1⟩. |⌈1|⌉ |⌈0|⌉ 2 |⌈ 0|⌉ 2 0 0 0

系数 exp(iπ ∕2)是一个全局相位,可以忽略。我们之所以这样做,是因为全局相位是不可观察的:对状态|ψ⟩和 exp(iϕ)|ψ⟩进行测量时,无论ϕ的值为何,结果(即相同的状态和相同的概率)都是相同的。换句话说,仅由全局相位不同的两个状态表示的是相同的物理系统。

最后,我们提到 CNOT 门的 iSWAP 表示。为此,我们需要两个 iSWAP 门和若干一量子比特门,如图 6.24 所示。

图 x1-137016r24:CNOT 门分解为两个 iSWAP 门(iSWAP = XY(π))和多个一量子比特旋转门。

图 6.24:CNOT 门分解为两个 iSWAP 门(iSWAP = XY(π))和多个一量子比特旋转门。

当控制量子比特处于状态|1⟩时,CNOT 门将对目标量子比特应用 NOT 门,同时保持控制量子比特的状态不变。这正是当我们将图 6.24 右侧所示电路应用于状态|10⟩|11⟩时所观察到的效果:

 ⌊ ⌋ ⌊ ⌋ ⌊ ⌋ |0| | 0 | | 0| ||0|| || 0 || ( π )|| 0|| ( π) |1⟩⊗ |0⟩ ≡ || || − → || || = exp − i- || || ≡ exp − i- |1⟩⊗ |1⟩, ⌈1⌉ ⌈ 0 ⌉ 4 ⌈ 0⌉ 4 0 1√−i 1 2  ⌊ ⌋ ⌊ ⌋ ⌊ ⌋ 0 0 0 || || || || ( )|| || ( ) |1⟩⊗ |1⟩ ≡ ||0|| − → || 0 || = exp − iπ || 0|| ≡ exp − iπ |1⟩⊗ |0⟩. |⌈0|⌉ |⌈ 1√−i|⌉ 4 |⌈ 1|⌉ 4 2 1 0 0

此处,累积的不可观察全局相位为 exp(− iπ∕4)

将非原生的两量子比特门分解为由原生的两量子比特门和高保真度的一量子比特门组成的子电路,使我们能够构建硬件无关的量子算法。

模仿经典逻辑门的设置,我们现在研究量子比特和量子逻辑门如何有效(物理上)实现。

6.7 量子比特和量子门的物理实现

现在,量子比特和量子门的理论框架已经确立,理解如何从硬件角度实现这些概念非常重要。

6.7.1 DiVincenzo 标准

构建量子计算硬件的现代方法标志着 2000 年 DiVincenzo 提出的一系列量子计算物理实现要求[87]。这些要求现在被称为“DiVincenzo 标准”,具体如下:

1. 一个可扩展的物理系统,具有良好表征的量子比特。 量子比特的“良好表征”意味着以下内容:

  • 其物理参数应准确已知,包括量子比特的内部哈密顿量,它决定了量子比特的能量本征态。通常,基态被视为|0⟩,第一激发态被视为|1⟩

  • 量子比特其他状态的存在以及与这些状态的耦合;

  • 操作量子比特状态所需的与外部场的耦合;

  • 量子比特之间的相互作用,这是实现多量子比特门所必需的。

2. 能够将系统的状态初始化为简单的基准 状态,例如全零状态。 这一要求源于在计算开始之前,明确需要将量子寄存器初始化为已知值。另一个动机是,量子错误校正需要持续提供处于低熵状态的量子比特(|0⟩ 状态)。持续提供 0 而非仅仅是初始的 0,这一需求是一个非平凡的问题,可能会排除一些潜在有前景的量子比特实现方式。

3. 长时间的相关去相干时间,远远长于门操作时间。 去相干可以被视为量子系统向环境丧失信息的过程。与环境的耦合导致系统与环境之间的纠缠,并且量子信息向周围转移。因此,系统的动力学不再是单一的,计算变得不可逆(尽管整个系统与环境的结合体依然是单一演化的)。这意味着量子计算机表现得像一台经典机器。因此,保持足够长时间的相干性至关重要,以确保这一计算方式的独特量子特性有机会发挥作用。术语“相关的”强调了一个实现量子比特的物理系统可能具有许多不同自由度的去相干时间,但其中许多对系统作为量子比特的功能可能无关紧要。

4. 一组通用的量子门。 在所有物理实现中,只有特定类型的哈密顿量可以被开关。在大多数情况下,我们只能进行两体(两量子比特)相互作用。这对基于多量子比特单元变换的量子计算提出了问题。幸运的是,这些可以始终通过一系列一量子比特和两量子比特门重新表达,而两量子比特门可以只有一种类型,这种类型是某个特定实现的“原生”门(例如 CNOT、CPHASE 或 XY)。

5. 量子比特特定的测量能力。 这是量子计算过程中高效运行的直接要求:计算结果必须能够读取,而这需要能够测量特定的量子比特。

有许多可能的量子计算机实现方式可以满足 DiVincenzo 标准。量子计算机的基本构建模块——量子比特——可以由电子、光子、困缚离子、中性原子、超导电路等构成,以上仅是其中一些可能性。从本质上讲,任何能够在两个不同状态之间存在叠加,并且可以进行受控转变的量子力学系统,都可以作为量子比特的物理实现。这可以是电子的自旋(“上”、“下”)或光子的偏振(“垂直”、“水平”)。在本节中,我们将首先考虑如何通过超导量子比特来满足 DiVincenzo 标准。

6.7.2 超导量子比特

由微小超导电路构成的量子比特是数字量子计算原则可扩展物理实现的有力候选者。在普通导体中,电荷载体是单个电子。电子是自旋-12 基本粒子(费米子),满足泡利原理:两个费米子不能同时占据相同的状态。在超导电路中,基本的电荷载体是电子对(称为库珀对),它们是玻色子(库珀对的总自旋是整数),可以占据相同的量子能级。这个效应被称为玻色-爱因斯坦凝聚。凝聚态波函数使得设计和测量宏观量子效应成为可能。超导电路的参数可以通过设置组成它们的电学元件的经典值来设计,例如调整电容和电感。

这为我们提供了一个具体的思路,说明如何构建具有所需量子特性的宏观量子比特。首先,我们来看看图 6.25 中示意的量子谐振子(QHO)系统。在解释其物理方面之前,让我们先来看一下它的数学依据。

从经典到量子谐振子

考虑一个简单的谐振子,即一个放置在光滑无摩擦表面上的弹簧,一侧连接着一个不可动的物体,另一侧连接着一个可移动的物体(比如一个重物)。在平衡状态下,静止位置时没有任何运动。在施加某种力量后,比如通过拉动(或推)可移动物体,弹簧开始由于其恢复力F[R]而振荡。胡克定律指出,这个力与伸长量成正比,即

FR (x(t)) = − kx(t),

x(0) = x[0] ∈ℝ 开始,其中 x(t) 表示弹簧在时间 t 的位置,k 是弹簧常数。牛顿第二定律也指出:

FR(x(t)) = ma (t),

对于 t ≥ 0,其中 a(t) 表示时间 t 时的加速度,m 是弹簧的质量。由于 a(t) = (t),将两个方程结合,可以得到,对于每个 t ≥ 0,

¨x(t) = − k-x(t), m

x(0) = x[0] 开始,这是简单振子的运动方程。它是一个简单的一维二阶线性常微分方程,可以通过以下方式简单求解:

x(t) = x0cos(ωt)+ v0sin(ωt), 对于所有 t ≥ 0, ω

其中

 ∘ -k- ω := -- 和 v0 := ˙x(0) m

分别是振子的自然频率和速度。三角函数操作显示(6.7.2)可以等效地写成:

x(t) = α cos(ωt − φ), 对于所有 t ≥ 0,

其中

 ∘ -------- 2 v20- -v0- α := x0 + ω2 和 tan(φ) := ωx0.

现在回忆起,势能 𝔙 是当振子被拉伸或压缩时储存的能量,即(考虑 x = 0 作为平衡状态),

 ∫ x(t) k 𝔙 (x,t) = − FR(z)dz = --x(t)2. 0 2

系统的总能量是动能和势能的和:

𝔈total = 𝔈kinetic + 𝔙(x(t))
= m- 2v(t)² + k- 2x(t.

使用显式解(6.7.2),并且 ω := ∘ -- k- m,我们得到:

𝔈total = m- 2( ( ) ) d- α cos(ωt− φ ) dt² + k- 2(α cos(ωtφ))²
= m α2ω2 --2----sin(ωtφ)² + mα2 ω2 --2----cos(ωtφ
=  2 2 m-α-ω-- 2 =  2 kα-- 2.

在这个经典情形中,我们看到系统的总能量可以取一系列连续值。量子对应物则截然不同,我们将在下文看到它实际上是量子化的(这就是“量子”理论的由来),正如 1913 年玻尔最初提出的,之后由 1926 年的薛定谔和海森堡详细阐述。现在回顾一下描述系统随时间演化的时间相关的薛定谔方程的通式:

iℏ dΨ(x,t)-= ℋ Ψ(x,t), dt

其中 ℋ 表示系统的哈密顿量。由于后者(表示系统的能量)是动能和势能之和,我们有

 2 2 ℋ = 𝔈kinetic + 𝔈potential =-p- + 𝔙 = − -ℏ- d---+ 𝔙, 2m 2m dx2

其中 m 是粒子的质量,ℏ 是普朗克常数,𝔙 是表示环境的势能,p 是动量算符:

 d p = − iℏ--. dx

将此哈密顿量代入 (6.7.2) 可得

 dΨ (x,t) ( ℏ2 d2 ) iℏ--------= − -----2-+ 𝔙 (x) Ψ (x,t). dt 2m dx

由于势能 𝔙 不依赖于时间,通过变量分离,设Ψ(x,t) = ψ(x)u(t),得

 ( ) ′ -ℏ2 ′′ iℏψ(x)u (t) = −2m ψ (x)+ 𝔙 (x)ψ(x) u(t),

或者

 u′(t) − ℏ22mψ ′′(x )+ 𝔙 (x)ψ(x) iℏ u(t) = --------ψ-(x-)--------.

由于两边依赖于不同的变量,它们必须等于一个常数,设为 E,因此我们得到常微分方程

 u-′(t) iℏ u(t) = E,

以及本征值方程

 ℏ2 ℋ ψ (x ) = −---ψ ′′(x) + 𝔙 (x )ψ (x) = E ψ (x ). 2m

第一个方程立即得到解,且标准化为 u(0) = 1,

 ( iEt ) u(t) = exp − --- . ℏ

本征值方程 (6.7.2) 可以通过谱方法求解。例如,可以证明(有关详细信息,请参见 [258,第 3.1 节])该算符 ℋ 在此处具有有限的谱,(本征值,本征函数) 集合为 {(E[n][n])}[n≥0],具体为

( ( 1) ||{ En = n + -- ℏω, 2( )1∕4 ( 2 ) (∘ ---- ) ||( ψn (x) = √-1--- mω-- exp − m-ωx-- Hn m-ω-x , 2nn! πℏ 2ℏ ℏ

对于每个 n ≥ 0,x ∈ℝ,其中 H[n] 表示第 n 个物理学家的 Hermite 多项式

 n ( ) Hn (z) := (− 1)nez2-d e−z2 . dzn

QHO 的物理表示

QHO 的示意图见图 6.25。在此系统中,能量在电容器 C 中的电能和电感器 L 中的磁能之间振荡。

Figurex1-142001r25: Quantum Harmonic Oscillator (QHO).

图 6.25:量子谐振子(QHO)。

该系统的哈密顿量与描述粒子在一维二次势能中的哈密顿量相同 [177]。上述本征值问题的解(参见 (6.7.2)) 给出了本征态的无限级数 (|n⟩)[n≥0],其对应的本征能量 (E[n])[n≥0] 是等间隔的,如从 (6.7.2) 中所示:

En+1 − En = ℏ ωr, for all n ≥ 0,

其中共振频率,ω[r],由汤普森公式给出 [283]。

ωr = √-1--. LC

我们的首要任务是定义一个仅包含两个能量状态的计算子空间,![

因此,我们需要向系统中加入非谐性(或非线性)。我们要求本征态之间的跃迁频率 ω[01],即 |0⟩|1⟩ 之间的跃迁频率,及 ω[12],即 |1⟩|2⟩ 之间的跃迁频率,要足够不同,以便能够单独寻址。所需的非线性可以通过用约瑟夫森结模块 J 替代电感 L 来引入,如图 6.7.2 所示。

图 6.26:作为量子非谐振荡器(QAO)实现的量子比特。两个最低能量本征态 |0⟩ 和 |1⟩ 形成量子比特的计算空间。

图 6.26:作为量子非谐振荡器(QAO)实现的量子比特。两个最低能量本征态 |0⟩|1⟩ 形成量子比特的计算空间。

约瑟夫森结是将超导电路转变为量子比特的关键元素。约瑟夫森效应(库珀对的量子隧穿)的描述超出了本书的范围,但有兴趣的读者可以通过费曼的《物理学讲义》 [101]进一步学习。

在电路中引入约瑟夫森模块后(约瑟夫森结的电路符号为“X”),势能不再呈现抛物线形状(作为超导相的函数),而是采取余弦型形式,这使得能量谱变得非等距。现在,我们可以将两个最低能量本征态识别为量子比特的计算子空间 [177, 204]。

一个具有两个约瑟夫森结在每个臂上的超导回路对所包围的磁通非常敏感 [119]。接下来,我们将为约瑟夫森结子电路使用更紧凑的符号:

图 6.27:约瑟夫森结模块子电路。

图 6.27:约瑟夫森结模块子电路。

备注: 也可能通过使用三个最低能量本征态来形成计算子空间:|0⟩|1⟩|2⟩。在这种情况下,我们将拥有一个物理实现的qutrit,其叠加态矢量,|ψ⟩,可以表示为三个正交归一基态的线性组合:

|ψ⟩ = α |0⟩+ β |1⟩+ γ |2⟩,

其中,α,β,γ ∈ℂ是概率幅度,满足|α|² + |β|² + |γ|² = 1。Qutrits 增加了单个元素中编码信息的量,启用了减少读取错误的技术[200],并且降低了将三量子比特门分解为基本二量子比特组件的成本[132]。

控制与测量超导量子比特

满足第一个 DiVincenzo 要求(良定义的量子比特)后,我们必须展示如何控制超导量子比特,如何将它们耦合以构建可扩展系统,并且如何进行测量。我们从超导量子比特态的控制和测量开始。

共振器(或馈线)与超导量子比特之间的电容耦合使得微波控制成为可能,从而实现单量子比特旋转以及某些双量子比特门[177]。图 6.28 展示了超导量子比特与微波源耦合的示意图(也称为量子比特驱动)。量子比特通过微波辐射脉冲进行控制。控制参数包括频率、相位和脉冲持续时间。

Figurex1-143001r28: 量子比特与馈线的电容耦合。

图 6.28:量子比特与馈线的电容耦合。

图 6.29 展示了一个量子比特,它与微波共振器(非线性)通过电容耦合,且其频率会受到量子比特状态的影响[254]。这种频率偏移被用于通过色散读出方法读取量子比特状态。当向共振器发送微波脉冲时,反射(或透射)信号的相位传递了量子比特状态的信息。

Figurex1-143003r29: 特征为带有约瑟夫森结的非线性共振器的量子比特读出电路。

图 6.29:特征为带有约瑟夫森结的非线性共振器的量子比特读出电路。

与超导量子比特的纠缠

为了实现多量子比特门(因此也实现纠缠),量子比特必须连接在一起。超导量子比特的连接通过电容耦合实现——可以是直接连接,或者通过耦合器帮助连接,如图 6.30 所示,其中通过线性共振器实现电容耦合[177]。

固定频率超导量子比特通常具有更长的相干时间,并且对磁通噪声的敏感性较低。为这些量子比特开发的两比特门是交叉共振门 CR。在通过线性谐振器耦合的两个固定频率超导量子比特的示意电路图中(图 6.30),当量子比特 1 以量子比特 2 的频率驱动时,就实现了 CR 门。

图 x1-144002r30:通过耦合器(线性谐振器)进行的电容耦合。量子比特 1 和量子比特 2 分别是频率为 ω1 和 ω2 的固定频率量子比特。

图 6.30:通过耦合器(线性谐振器)进行的电容耦合。量子比特 1 和量子比特 2 分别是频率为 ω[1] 和 ω[2] 的固定频率量子比特。

CR(𝜃) 门的单位矩阵表示如下 [240]:

 ( ) CR(𝜃) = RZ⊗X(𝜃) = exp − 1-i𝜃σz ⊗ σx ⌊ 2 ⌋ cos(𝜃) − isin (𝜃) 0 0 | 2( ) ( 2) | || − isin 𝜃2 cos 𝜃2 0 0 || = || (𝜃 ) (𝜃)||, ⌈ 0 0 cos 2( ) isin( 2) ⌉ 0 0 isin 𝜃2 cos 𝜃2

其中有效旋转角度 𝜃 是量子比特、耦合器和驱动微波脉冲的物理特性的函数。

由于形式的原因 (6.7.2),CR(𝜃) 门也可以表示为 ZX(𝜃) 门。这也告诉我们如何利用交叉共振门结合仅有的单量子比特门生成 CNOT 门(最多带有全局相位 exp(−iπ∕4)):

图 6.31:CNOT 门分解为 ZX、RX 和 RZ 门。

图 6.31:CNOT 门分解为 ZX、R[X] 和 R[Z] 门。

6.7.3 光子量子比特

在撰写本文时,尚不清楚哪种量子比特构建技术将成为行业标准(如果有的话)。我们面临着许多激动人心的实验和技术突破。超导量子比特显然满足 DiVincenzo 标准,但也有许多其他有趣的解决方案,处于不同的开发阶段。

其中一种可能性是将量子比特编码在光子中。单光子几乎不受噪声影响,并且可以轻松操控以实现单量子比特门。量子比特可以通过多个光子的自由度进行编码:时间、路径和偏振。可以使用 双折射波片 实现单量子比特门,而偏振与路径编码之间的转换可以通过 偏振分束器 实现 [225],其中 |0⟩|1⟩ 分别表示光子在上路径或下路径中(见图 6.33)。

正如我们所知,为了纠缠量子比特,我们需要找到适合的物理实现来实现两量子比特门。让我们看看使用光子量子比特实现 CNOT 门的可能性。首先,我们注意到 CNOT 门可以通过 CPHASE 门来表达,而 CPHASE 门可以自然地在光子硬件上实现:

图 6.32:CNOT 门分解为 CPHASE 和 H 门。

图 6.32:CNOT 门分解为 CPHASE 和 H 门。

当控制量子比特处于状态|0⟩时,两个 H 门互相抵消,而当其处于状态|1⟩时,门的组合则充当一个 NOT 门。

图 6.33 展示了 CNOT 门的可能光子实现的示意图[225]。用于编码目标量子比特的两条路径在一个 50%反射的光束分 splitter(BS)处混合,后者执行 Hadamard 操作。如果不施加相位偏移,第二个光束分 splitter(第二个 Hadamard 门)通过将目标量子比特返回到其初始状态来取消第一个操作。这是经典干涉的一个例子。如果施加了π相位偏移,目标量子比特则被翻转。

Figurex1-145004r33: CNOT 门的光子实现。

图 6.33:CNOT 门的光子实现。

当控制量子比特处于状态|0⟩时,不施加π相位偏移,而当控制量子比特处于状态|1⟩时,则施加该相位偏移。当控制量子比特处于|1⟩路径时,CNOT 门必须实现此相位偏移,否则不需要。

尽管 CNOT 门的提出实现原理上简单,但要找到一种具有足够强光学非线性的材料来实现条件相位偏移仍然是一个困难的实际问题[225]。然而,借助单光子源、单光子探测器和由光束分 splitter 组成的线性光学电路,仍然可以实现 CNOT 门,正如 Knill、Laflamme 和 Milburn 提出的那样[165]。第一个集成光子 CNOT 门用于极化编码量子比特的实验在[74]中得到了展示。

6.7.4 受限离子量子比特

另一种有前景的大规模量子计算机构建方法是基于受限离子技术[68]。离子(失去一个电子的带正电原子)被在电磁场势能中,从而固定了它们在空间中的位置。量子芯片被冷却并放置在真空腔内。离子本身通过激光束被冷却,激光束通过快速的吸收-发射光子过程使其几乎静止(离子发射的光子频率略高于吸收的光子频率,从而失去动能)。

最广泛使用的技术是图 6.34 所示的线性阱。第 i 个量子比特的两种状态可以与相应离子的内部状态对应:基态 |g⟩[i] 和激发态 |e⟩[i]。被困离子并不完全静止,而是可以围绕其平衡位置振荡。图 6.34 描述了 N 个离子被限制在一个线性阱中,并与不同的激光束以驻波配置相互作用 [67]。

沿 xyz 轴的运动约束可以通过具有频率 ω[x] ≪ ω[y] 和 ω[z] 的谐波势能来描述。此外,正电荷离子之间的库仑排斥提供了沿 x 轴离子运动的耦合。沿 x 轴的集体运动(激发),如果存在,表现为一种准粒子,称为声子。我们将沿 x 方向移动的 N 个离子的质心(CM)模式的状态表示为 |0⟩(无声子)或 |1⟩(一个声子)。

Figurex1-146003r34: 线性离子阱的示意图。

图 6.34:线性离子阱的示意图。

通过以正确的频率施加激光束,可以仅激发单个离子或质心(CM)模式。单个离子的寻址(从而实现一量子比特门)是直接的。让我们看看如何实现所需的多量子比特门,以创建纠缠。

以下协议实现了由 Cirac 和 Zoller 提出的两量子比特门[68]。首先,我们注意到激发态 |e⟩[i] 不是唯一的,取决于施加到离子 i 上的激光束的偏振。如果我们有两种可能的偏振,分别记为 q = 0 和 q = 1,那么对应的激发态分别记为 |e0⟩[i] 和 |e1⟩[i]。计算基为 {|g⟩[i],|e0⟩[i]}。该协议如下:

  1. 对第 i 个离子施加偏振 q = 0 的π 激光脉冲以激发该离子。π 激光脉冲的意义是施加一个持续时间为 π∕ω 的激光脉冲,其中 ω 是困束离子系统的特征频率。

  2. 将激光引导到第 j 个离子,并在偏振 q = 1 的情况下开启激光,持续时间为 2π 脉冲。

  3. 将激光引导回第 i 个离子,并在偏振 q = 0 的情况下开启激光,持续时间为 π 脉冲时间。

该过程的效果是仅当两个离子最初都被激发时,才会改变状态的符号,如表 6.5 所示。

表 6.5:使用困束离子量子比特的两量子比特门(CPHASE)。

表 6.5:使用困束离子量子比特的两量子比特门(CPHASE)。

我们注意到,在该过程后,CM 模态的状态恢复到初始状态 |0⟩(没有声子)。该协议实现了 CPHASE 二量子比特门。

基于囚禁离子的量子比特具有比超导量子比特更长的相干时间(量子态存活的时间)和更高的保真度(门操作的准确性)。但另一方面,超导量子比特享有数量级更短的门时间。

类似于经典比特的许多可能物理实现,量子计算技术也有许多竞争者。目前尚无法确定哪种技术将成为最终的赢家,或者是否多种技术会通过各自占据不同的市场领域而共同存在。

现在我们拥有了所有的工具,包括理论工具和物理工具,可以真正开始构建量子电路。在下一节中,我们将讨论量子硬件和量子模拟器,这些工具可以帮助我们实现这一目标。

6.8 量子硬件与模拟器

当前的量子计算技术在量子比特保真度和相干时间方面展现了令人印象深刻的表现:

  • 由超导电路构成的量子比特(相干时间:∼ 10µs) [164]

    单量子比特门 二量子比特门
    门时间: ∼ 10^(−2)µs 门时间: ∼ 10(−2)-10(−1)µs
    保真度: 99.9% 保真度: 99.7%

    表 6.6:超导量子比特。

  • 由囚禁离子构成的量子比特(相干时间:> 10⁷µs) [46]

    单量子比特门 二量子比特门
    门时间: ∼ 1-10µs 门时间: ∼ 10µs
    保真度: 99.9999% 保真度: 99.9%

    表 6.7:囚禁离子量子比特。

更为重要的是,技术进步的步伐依然非常快速。麻省理工学院研究人员最近对超导量子比特进行的实验 [277] 展示了显著降低二量子比特门错误的可能性,使得 CZ 和 iSWAP 门的二量子比特门保真度接近 99.9%。有趣的是,这一二量子比特门保真度的提高是通过引入可调耦合器实现的(图 6.30 示意图展示了通过耦合器实现的二量子比特交互)。为了消除产生错误的量子比特-量子比特交互,耦合器的高能级被用来抵消有问题的交互。如图 6.7.2 所示,通常会忽略这些高能级,尽管它们对系统的贡献不可忽视。更好的耦合器控制和设计是根据需要定制量子比特-量子比特交互的关键。

这是实现错误修正的一个重要步骤:可以通过增加额外的量子比特来提高量子计算的鲁棒性。量子比特的错误可以通过增加冗余来主动解决。然而,为了让硬件冗余具备实用性,需要更高的量子比特保真度。不同的错误修正协议需要不同的保真度阈值,而 99.9%的双量子比特门保真度是一个不错的起点。

然而,我们距离足够容错的量子计算机还有数年之遥。这就是为什么实验量子模拟器是有用的(甚至是必要的)——量子模拟器是根据量子计算逻辑操作的经典计算机。除了内存需求过高外,没有任何障碍阻止经典数字计算机根据量子计算的规律进行操作。一个n量子比特量子系统的状态可以作为 2^n 个概率幅度存储在经典内存中。这使得大多数经典计算机无法在超过 35-40 个量子比特上执行量子计算操作。但在最多 25-30 个量子寄存器上运行量子计算程序是完全可行的。

尽管量子模拟器只能在相对较少的量子比特上运行,但它们是理想的量子计算机,不会受到任何类型的量子硬件缺陷的影响。这使得它们在测试量子算法的原理和小规模版本时具有不可或缺的价值。它们可以用于概念验证,并帮助在实际量子硬件仍然噪声较大且不易获取的情况下开发新思想。

有许多开源量子模拟器(甚至是专门的量子计算编程语言)。在本书中,我们使用Qiskit  [238]研究各种量子算法的性能——这是一个开源的 Python 包,以直观且用户友好的方式实现量子计算的逻辑。Qiskit 的流行还归功于一本编写精良且富有教育意义的教科书,里面有许多深思熟虑的示例,使学习量子计算原理变得十分愉快。Qiskit包和教科书可在以下网站获得:

https://qiskit.org/

https://qiskit.org/textbook/preface.html

量子编程领域正在快速发展,多个编程语言或软件开发工具包现在正在竞争。量子指令集,如QuilcQASMOpenQASMBlackbird,使我们能够将高级算法转换为在量子计算机上运行的物理指令。它们被用于量子软件开发工具包(QSDKs)中,表示量子电路。在本文写作时,最重要的 QSDK 包括:

  • Ocean(D-Wave)

  • Forest(Rigetti)

  • Qiskit(IBM)

  • Cirq(Google)

  • Quantum Development Kit(Microsoft)

  • Braket SDK(Amazon)

  • ProjectQ(苏黎世联邦理工学院)

  • Strawberry Fields(Xanadu)

与这些 QSDK 并行,量子编程语言也已开发出来,包括命令式类型(逐步指令)如QCLQMASMSilq,以及函数式类型如QML量子λ演算QFCQPLQ

我们观察到,量子计算硬件在过去几年里发展速度异常迅猛,取得了多个技术突破。此外,量子软件开发方面的进展有助于放宽构建容错量子计算机所需的物理量子比特的要求。

总结

在本章中,我们介绍并对比了经典计算和量子计算的基本元素。我们从基本的存储单元(比特)概念开始,并讨论了变换存储状态的功能(逻辑门)。我们还提供了逻辑门和存储单元可能的物理实现示例——这突显了经典计算和量子计算的根本二元性:计算是与底层材料无关的,但它的实际实现需要存在适当的物理系统。

接着,我们介绍了量子比特的概念及其规范的数学表示。借助 Bloch 球的可视化,量子比特可以自然地表示为旋转操作符,从而直观地表现单量子比特量子门。

随后,我们研究了两比特门及其矩阵表示。我们学习了如何将单量子比特门和多量子比特门组合成量子电路——一个好的例子是贝尔电路,它从完全不纠缠的初始态创建了两个量子比特的最大纠缠态。我们还涉及了可逆计算和前沿量子硬件的重要话题。

在下一章,我们将介绍一种特定类型的量子电路——所谓的参数化量子电路,它为应用提供了极大的灵活性。我们还将探讨各种数据编码方案——将经典数据集中的样本映射到相应的量子态。

加入我们书籍的 Discord 空间

加入我们的 Discord 社区,结识志同道合的人,并与超过 2000 名成员一起学习,网址:packt.link/quantum

PIC

第七章:参数化量子电路和数据编码

在构建了量子硬件之后,如何在其规模、连接性和保真度下最大限度地发挥其效用呢?这个问题可以通过将其分为两个部分来更好地回答。首先,哪些问题原则上可以在 NISQ 计算机上求解?其次,如何将经典数据编码为量子态?

本书的其余部分集中讨论第一部分:那些可以以不需要大量量子比特的方式进行表述,并且至少在某种程度上具有噪声容忍性的模型和问题。朝着这个方向迈出的第一步是参数化量子电路(PQC)的概念,作为一种通用的量子机器学习模型。

第二部分——数据编码——同样重要,并依赖于本章中描述的几种实用方法。这是一个活跃的研究领域,我们可以预计大多数进展将来自量子软件方面。

7.1 参数化量子电路

我们已经看到如何组合量子门以形成任意宽度和深度的量子电路。量子电路通过应用一系列单元算符,将初始量子态 |ψ⟩ 转换为最终量子态 |ψ ′⟩

|ψ′⟩ = U (𝜃 )...U (𝜃 )U (𝜃 ) |ψ ⟩. m m 2 2 1 1

在这里,(U[i])[i=1,…,m] 和 (𝜃[i])[i=1,…,m] 分别表示个别门和与之关联的门参数向量。有些门可能是固定的(例如,一个二比特 CNOT 门,视为围绕x轴以固定角度𝜃 = π控制旋转目标量子比特的状态),而有些门可能是可调的(例如,一个一比特的 RX 门,绕x轴以任意角度𝜃 ∈ [−π,π]旋转量子比特状态)。

一旦最终量子态  ′ |ψ ⟩ 被构造出来,个别量子比特就可以被测量。测量后,量子比特的状态会保持在其测量时所使用的基态中,我们通常假定该基态为标准计算基态,除非特别指定。 因此,运行量子电路并测量量子比特(不一定所有量子比特都需要测量)的最终输出是一个经典的比特串。

我们刚才描述的是一个参数化量子电路,示意图见图 7.1。PQC 可以以多种方式使用。首先,让我们注意到 PQC 可以被训练。训练 PQC 意味着在给定整体 PQCansatz(架构)的情况下,找到一组最佳的可调参数(例如上面提到的向量𝜃[1],…,𝜃[m])。所谓的“最佳”是问题依赖的,但通常意味着一组可调参数的配置,它确保最终量子态  ′ |ψ ⟩ 与某个目标量子态尽可能接近,这个目标量子态对应于我们要编码的特定概率分布。

Figure 7.1: 参数化量子电路的示意表示。

图 7.1:参数化量子电路的示意表示。

在接下来的章节中,我们将看到如何将 PQC 作为判别式机器学习模型(第八章)、生成式机器学习模型(第九章)以及优化器(第十章和第十一章)来使用:

  • 在变分量子特征求解器的情况下,PQC 被用来构建最终的量子态 ′ |ψ ⟩,该态接近于问题哈密顿量的本征态,对应于最小本征值(与代价函数最小值相关的基态能量)。

  • 当我们构建一个量子判别模型——一个作为分类器训练的量子神经网络时,我们只关注测量少数几个量子比特(甚至只有一个量子比特)。这应该给我们提供一个二进制表示的“类标签”用于给定的样本。输入(初始量子态|ψ ⟩)编码了我们想要分类的样本。

  • 当我们的目标是构建一个量子生成模型——量子电路 Born 机时,我们测量所有的量子比特。这将给我们一个比特串,这是从最终量子态|ψ ′⟩中编码的概率分布生成的样本。初始状态初始化为|0⟩^(⊗n)。

PQC 通常使用混合量子-经典协议进行训练。混合方法在图 7.2 中以示意图的形式展示,由三个部分组成:用户、经典计算机和量子计算机[29]。

Figurex1-151003r2: 训练 PQC - 示意流程。

图 7.2:训练 PQC - 示意流程。

用户为问题提供模型;经典计算机预处理数据并生成 PQC 的初始参数集;量子计算机通过按照 PQC 的要求准备量子态并进行测量来运行 PQC。测量结果随后由经典计算机进行后处理,经典计算机会根据选定的训练算法(如误差反向传播与梯度下降、不可微学习方法等)更新模型参数。整体算法在经典计算机与量子计算机之间以闭环形式运行。

PQC 是将 NISQ 计算机应用于解决非平凡现实世界问题的最成功框架之一。它遵循混合量子-经典计算协议的范式,并可用于实验广泛的量子机器学习模型。

7.2 角度编码

让我们回到布洛赫球(图 7.2),它可视化了量子比特态的标准表示——二维复向量空间中的单位向量:

 ⌊ ( ) ⌋ cos 𝜃- |ψ⟩ = || (2 ) ||. ⌈eiϕsin 𝜃- ⌉ 2

角度 𝜃 ∈ [0] 和 ϕ ∈ [0,2π] 唯一地确定量子比特在单位球上的位置。由于我们需要两个连续变量来指定量子比特的状态,因此一个量子比特可以编码两个实值特征。

图 7.3:量子态 |ψ ⟩ 在布洛赫球上的表示。

图 7.3:量子态 |ψ ⟩ 在布洛赫球上的表示。

7.2.1 基本编码方案

我们可以用以下示意例子来说明这一点:假设我们有一个包含 N 个样本的 8 特征数据集,所有特征 X[1],…,X[8] 都是实值,并且可以计算出它们的极值 X[i]^(min) 和 X[i]^(max),i = 1,…,8。然后,对于数据集中每个样本 j = 1,…,N,我们可以建立一个特征值 X[i]^j 与对应旋转角度 𝜃[i]^j 之间的一对一映射关系:

 j Xj − Xmin 𝜃i = --miax----iminπ, X i − X i

其中 X[i]^(min) := min[j]X[i]^j 和 X[i]^(max) := max[j]X[i]^j。旋转角度 𝜃[i]^j 推广了图 7.2 中的角度 𝜃ϕ

图 7.4:特征编码 – 绕 y 轴旋转。量子比特 q1,…,q4 的状态在同一布洛赫球上显示。所有量子比特的初始状态为 |0⟩,绕 y 轴旋转角度 𝜃1,…,𝜃4 后的最终状态分别表示为 A、B、C 和 D。

图 7.4:特征编码 – 绕 y 轴旋转。量子比特 q[1],…,q[4] 在同一布洛赫球上的状态。所有量子比特的初始状态为 |0⟩,绕 y 轴旋转角度 𝜃[1],…,𝜃[4] 后的最终状态分别表示为 A、B、C 和 D。

8 特征样本可以编码为一个 4 量子比特状态(非纠缠)。例如,从四个初始化为 |0⟩ 的量子寄存器开始,我们可以首先在 y 轴上进行旋转:量子比特 1 按角度 𝜃[1] 旋转,量子比特 2 按角度 𝜃[2] 旋转,依此类推。这在图 7.2.1 中示意展示,量子比特从其初始状态 |0⟩ 移动到状态 ABCD

7.2.2 每个量子寄存器编码两个特征

之后,我们通过在 z 轴上进行旋转来编码剩余特征:量子比特 1 按角度 𝜃[5] 旋转,量子比特 2 按角度 𝜃[6] 旋转,依此类推,正如图 7.5 中所示。

图 7.5:特征编码 – 绕 z 轴旋转。量子比特 q1,…,q4 的初始状态分别为 A,B,C,D。在绕 z 轴旋转角度 𝜃5,…,𝜃8 后,最终的量子比特状态为 E,F,G,H。

图 7.5:特征编码 – 绕 z 轴旋转。量子比特 q[1],…,q[4] 的初始状态分别为 A,B,C,D。在绕 z 轴旋转角度 𝜃[5],…,𝜃[8] 后,最终的量子比特状态为 E,F,G,H。

量子比特状态从A转移到E,从B转移到F,从C转移到G,从D转移到H。对应的量子电路如下所示:

图 7.6:8 特征样本编码的 4 量子比特量子电路。

图 7.6:8 特征样本编码的 4 量子比特量子电路。

7.2.3 将经典数据样本映射到量子状态

我们可以将角度编码方案总结如下。对于经典数据样本X^j := (X[1]j*,…,X*[K]j) ∈ℝ^K,j = 1,…,N,角度编码通过构造映射来工作

 K ( ( j) ( j) ) j ⊗ 𝜃i 𝜃i X ↦−→ cos 2 |0⟩+ sin 2 |1⟩ , i=1

其中角度(𝜃[i]^j)[i=1,…,K;j=1,…,N]由表达式(7.2.1)给出。该方案仅需要为每个量子比特旋转门,因此可以编码与量子比特数量相同数量的特征。然而,我们知道单个量子寄存器可以编码两个实数变量。以下方案在附加相位门的帮助下将经典样本映射到量子状态:

 ⊗K ( ( 𝜃j ) (𝜃j ) ) Xj ↦−→ cos -2i−1 |0⟩+ exp (i𝜃2i)sin -2i−1 |1⟩ . i=1 2 2

该方案允许我们使用n个量子比特编码 2n个特征。

n个量子寄存器具有仅通过两层单量子比特门就能编码 2n个连续特征的能力。

7.3 振幅编码

到目前为止,我们还没有利用纠缠所提供的信息编码可能性,尽管从理论上讲,大多数大规模量子系统中的信息可以存储在关联中。在前一节中考虑的 8 特征数据集示例中,如果使用纠缠,我们可以将所需量子比特的数量减少到仅三个。前六个旋转角度𝜃[1],…,𝜃[6]仍然可以用于单量子比特旋转 R[Y]R[Z]。最后两个角度,𝜃[7]和𝜃[8],可以用于受控旋转,纠缠量子比特 1 和 2 以及量子比特 2 和 3,如图 7.7 所示:

图 7.7:8 特征样本编码的 3 量子比特量子电路。

图 7.7:8 特征样本编码的 3 量子比特量子电路。

从理论上讲,由于n量子比特状态可以通过指定 2^n 个概率振幅来唯一描述,我们只需要n个量子比特就可以编码 2^n 个特征。然而,这种超密编码并不总是实用或可取的。振幅 编码曾在 Harrow、Hassidim 和 Lloyd 的开创性工作中使用[126],但对于现实规模的问题,获得振幅编码是一项非平凡的任务,这通常是许多量子算法的主要瓶颈[184]。

振幅编码可以通过以下方式形式化。考虑一个N维度(N = 2^n)的数据点 x := (x[1],…,x[N]) ∈ℂ^N。我们可以将量子振幅与坐标关联,如下所示:

 ∑N |ψx⟩ = -1-- xi |i⟩, ∥x∥ i=1

其中 ∥x∥ := ∑ [i=1]^N|x[i]|² 是归一化因子。因此,我们可以将由 M 个点组成的数据集 D := (x¹,…,x^M) 编码为

 p 1 2∑ -- |D⟩ = C-- xi |i⟩, D i=1

对于某个整数 p,其中

-- -- 1 1 2 2 M M MN x = (xi)i=1,...,2p = (x1,...,xN ,x1,...,x N,...,x1 ,...,x N ) ∈ ℝ

是所有数据点的拼接,且 C[D] 是一个归一化常数。因此,约束条件为 2^p ≥ MN,即 p ≥ log 2。注意,在 2^p > MN 的情况下,可能会再次出现稀疏性。

明显的优点是它可以用仅 n 个量子比特存储 2^n 个特征,但不幸的是其深度为 𝒪(2n),因此很难构建。

通过幅度编码,n 个量子寄存器可以编码 2^n 个连续特征。然而,这需要构建深度量子电路,且电路深度随着 𝒪(2n) 增长。因此,当处理大量特征时,对于 NISQ 计算机而言,这种方案可能并不实际。

7.4 二进制输入到基态

考虑一个实数 x ∈ℝ,用二进制表示法近似

 ( ) 𝔦∑−1 ∑𝔡 x ≈ ^x = (x 𝔦,x𝔦−1,⋅⋅⋅ ,x−𝔡) := (− 1)x𝔦( xj2j + x −j2−j) j=0 j=1 ↦− → |x𝔦x𝔦−1⋅⋅⋅x−𝔡⟩ =: |x⟩,

对于一些非负整数𝔦𝔡,其中 x[𝔦] ∈{0,1}表示 x 的符号,且 (x[j])[j=0,…,𝔦−1] ∈{0,1}^(𝔦) 和 (x[j])[j=−1,…,−𝔡] ∈{0,1}^(𝔡)分别表示 x 的整数部分和小数部分。现在考虑一个向量 x := (x¹,…,x^N) ∈ℝ^N。我们可以将所有二进制近似值 x¹,…,**x^N 拼接成一个向量。

( 1 1 1 N N N ) (1+𝔦+𝔡)N x𝔦,x𝔦− 1,⋅⋅⋅ ,x−𝔡,⋅⋅⋅ ,x𝔦 ,x 𝔦−1,⋅⋅⋅ ,x− 𝔡 ∈ {0,1}

以 (1 + 𝔦 + 𝔡)N 个量子比特的形式获得量子态表示

 1 1 1 N N N ⟩ |x𝔦x𝔦−1⋅⋅⋅x−𝔡 ⋅⋅⋅x 𝔦 ,x𝔦−1⋅⋅⋅x−𝔡 .

由于由此获得的向量仅包含 0 和 1,从量子态 |0⟩^(⊗(1+𝔦+𝔡)N) 开始,我们只需在相应值为 1 时应用非门 X,因此编码电路仅需读取

 ⊗(1+𝔦+𝔡)N ⊗N ⊗ 𝔦 xl ⊗(1+𝔦+𝔡)N |0⟩ ↦− → X k |0⟩ . l=1 k=−𝔡

虽然该算法直接且只需要使用单量子比特门 X,但它需要大量的量子比特,并且通常在实际中效率较低。实际上,对于给定的维度 N,存在 2^N 种可能的基态。如果一个数据集只包含 M 个点,且 M 远小于 N,那么量子表示将会非常稀疏。

示例: 考虑一个数据集 D = (x¹,x²),其中 x¹,x² ∈ [−2,2],每个用四个量子比特近似表示:

 1 1( 1 1 ) x1 ≈ (− 1)x1(20x10 + 2− 1x1−1 + 2−2x1−2) = (− 1)x1 x10 +-x1−1 +-x1− 2 2 4

 2 2 ( 1 1 ) x2 ≈ (− 1)x1(20x20 + 2−1x2− 1 + 2−2x2−2) = (− 1)x1 x20 +-x2−1 +-x2−2 , 2 4

对于每个i = 1,2 和 k = −2,−1,0,1,x[k]^i ∈{0,1}。因此,它们的量子嵌入为!|x1x1x1 x1 ⟩ 1 0 − 1 −2 和 |x2x2x2 x2 ⟩ 1 0 −1 − 2,因此编码数据集的量子电路采用如下形式:

 [( 1 1 1 1 ) ( 2 2 2 2 )] |0⟩⊗8 ↦−→ Xx1 ⊗ Xx0 ⊗ Xx−1 ⊗ Xx−2 ⊗ Xx1 ⊗ Xx0 ⊗ Xx−1 ⊗ Xx−2 |0⟩⊗8.

7.5 叠加编码

正如[287, 294]中所述,可以在时间上与数据点和特征数量成线性关系地构建这样的数据叠加。我们再次考虑一个数据集 D := (x¹,…,x^M),其中 x^k := (x[1]k*,…,x*[n]k) ∈{0,1}^n 对于每个 k = 1,…,M。我们使用一个量子系统,其形式为:

|ψ0⟩ := |0⟩⊗n |00⟩ |0⟩⊗n ,

其中最左边的部分包含n个量子比特,称为加载寄存器,而最右边的部分(同样包含n个量子比特)是存储寄存器。中间部分是一个辅助寄存器,用于控制加载寄存器和存储寄存器之间的操作。编码算法是递归工作的。我们首先对第二个辅助量子比特应用 Hadamard 门,并将第一个数据点 x¹ 存入存储寄存器。由于

(⊗ n ) Xx1i |0⟩⊗n = |x1 ⋅⋅⋅x1⟩ = |x1⟩, i=1 1 n

这可以通过应用酉算符(在 Hadamard 操作之后)来实现。

 ( n ) I⊗n ⊗ I⊗ H ⊗ ⊗ Xx1i i=1

由第二个辅助量子比特控制,得到的量子态为:

 ⊗n ⊗n ⊗n 1⟩ |ψ ⟩ := |0⟩--|0√0⟩-|0⟩---+ |0⟩---|√01⟩ |x-. 1 2 2

这可以通过(参见下文引理 7 的证明)轻松转化为

 ⊗n 1⟩ ⊗n ⊗n |ψ ⟩ = |0⟩--|√00⟩ |x--+ |0⟩---|0√1⟩-|0⟩---. 1 2 2

m步之后,我们得到了如下形式的量子态:

 1 ∑m ⟩ ∘ M--−-m-- |ψm ⟩ := √--- |0⟩⊗n |00⟩ |xk + ------- |0⟩⊗n |01 ⟩ |0 ⟩⊗n . M k=1 M

以下引理保证了算法的有效性:

引理 7. 存在一个酉算符 U 使得

 m+1 ∘ ------------- -1-- ∑ ⊗n k⟩ M-−--(m--+-1) ⊗n ⊗n U |ψm ⟩ = √M--- |0⟩ |00⟩ |x + M |0⟩ |01⟩ |0⟩ =: |ψm+1 ⟩ k=1

证明。 证明是构造性的,精确地展示了算符 U 的形态。

  1. 构造连续的映射

     ∑m ⟩ ∘ -------- |ψ ⟩ = √-1-- |0⟩⊗n |00 ⟩ |xk + M-−--m-|0⟩⊗n |01⟩ |0⟩⊗n , m M k=1 M m ⟩ ∘ -------- ↦−→ √-1--∑ |xm+1 ⟩ |00⟩ |xk + M--−-m-|xm+1 ⟩ |01⟩ |0⟩⊗n, M M km=1 ⟩ ∘ -------- ↦−→ √-1--∑ |xm+1 ⟩ |00⟩ |xk + M--−-m-|xm+1 ⟩ |01⟩ |xm+1 ⟩, M M km=1 ∘ -------- --1- ∑ m+1 ⟩ k⟩ M--−-m- m+1 ⟩ m+1 ⟩ ^ ⟩ ↦−→ √M--- |x |00⟩ |x + M |x |11⟩ |x =: |ψm . k=1

    第一步可以通过应用算符 ( ) ⊗ni=1 Xxmi+1⊗I^(⊗2) ⊗I^(⊗n) 到 |ψm⟩ 来轻松实现。第二步是通过控制门,利用辅助寄存器的第二个量子比特作为控制来实现。最后一步通过在第一个辅助量子比特上使用 CNOT 门,以第二个辅助量子比特为控制实现,过程非常简单。

  2. 现在定义这个单位门

     ( √----------- ) ^U := √--1-----( M − m − 1 ----1-----) , M − m − 1 √ M − m − 1

    并且请注意,控制版本(由第一个辅助量子比特 a[1] 控制)[a[1]]U 的作用是

    [a[1]]U|00⟩ = |00⟩,
    [a[1]]U|11⟩ = ---1----- √M--−-m--|1⟩( √ ----------- ) |0⟩ + M − m − 1 |1⟩ =  √ ----------- |10⟩+---M--−-m-−-1-|11⟩- √M--−-m--.

    将其应用于步骤 1 中的辅助寄存器  ⟩ |^ψm(并保持其他量子比特不变)将得到

    = I^(⊗n) ⊗ [a[1]]U⊗I^(⊗n) ⟩ |^ψm
    = √-1-- M∑ [k=1]^m|xm+1 ⟩ |00⟩ ⟩ |xk
    + ∘ M--−-m-- ------- M ⟩ |xm+1 { |10⟩+ √M--−-m-−-1-|11⟩} -------√--------------- M − m ⟩ |xm+1
    = √-1-- M∑ [k=1]^m|xm+1 ⟩ |00⟩ ⟩ |xk
    +  1 √---- M ⟩ |xm+1{ √ ----------- } |10⟩+ M − m − 1 |11⟩ ⟩ |xm+1

    然后,我们在 |10⟩ 的情况下将第一个辅助量子比特翻转为 0(可以通过 SWAP 和 CNOT 门轻松实现),并将相同的辅助项重新组合在一起,得到

     m+∑1 ⟩ ⟩ ∘ ------------- ⟩ ⟩ √1-- |xm+1 |00⟩ |xk + M--−-(m-+-1) |xm+1 |11⟩ |xm+1 . M k=1 M

    如同在 (7.5) 中所示,重置寄存器得到

     ------------- 1 m∑+1 ⟩ ∘ M − (m + 1) √---- |0⟩⊗n |00⟩ |xk + ------------ |0 ⟩⊗n |01⟩ |0⟩⊗n M k=1 M

    完成引理的证明。

7.6 哈密顿量模拟

哈密顿量编码,量子机器学习中的一个热门概念,灵感来自于薛定谔方程 (1.2.2),其表达式为

 d|ψ-(t)⟩- iℏ dt = ℋ |ψ (t)⟩,

对于某些哈密顿量 ℋ,其中 ℏ 是普朗克常数,并且在 t = 0 时满足某些边界条件。该方程的解为

 ( ) |ψ (t)⟩ = exp − iℋt-- |ψ(0)⟩. ℏ

哈密顿量编码的思想是将初始数据编码到哈密顿量 ℋ 中。考虑一个点云 X ∈ℳn,n。如果 X 是厄米矩阵,我们可以定义哈密顿量矩阵 ℋ[X] := X,否则使用扩展版本

 ( ) 0n,n X ℋX := ( † ) X 0n,n

按照构造是厄米的。

我们的目标是,对于给定的精度级别𝜀,找到一个态 ⟩ |^ψ(或生成此态的算法),使得

∥ ⟩ ∥ ∥∥|^ψ − |ψ (t)⟩∥∥ ≤ 𝜀,

对于某个给定的范数∥⋅∥,其中|ψ (t)⟩解了薛定谔方程。

该方法的一个重要瓶颈是计算 exp(ℋXt)(为简便起见我们忽略了比率−iℏ)。假设哈密顿量ℋ[X]可以写成和的形式

 ∑p ℋX = ℋi i=1

由易于计算的哈密顿量(ℋ[i])[i=1,…,p]组成。如果后者不对易,那么身份

 ( ∑p ) ∏p exp ℋit = eℋit i=1 i=1

不成立,但一阶铃木-特罗特[220,286]公式(Lloyd 在[191]中使用)

 ( ∑p ) ∏p exp ℋit = eℋit + 𝒪 (t2), i=1 i=1

对于足够小的t,我们可以绕过这个问题。

事实上,即使t并不那么小,我们也可以选择δ > 0 足够小并使用分解

 ⌊ ( ) ⌋ ( ∑p ) ∑ t∕δ [ p∏ ]t∕δ exp ℋit = ⌈exp ( ℋiδ) ⌉ = eℋiδ + 𝒪 (δ2) , i=1 i=1,...,p i=1

它具有较小的误差(尽管需要多次计算该操作)。一般来说,任何n-量子比特哈密顿量ℋ都可以分解为最多 4^n 个基础哈密顿量(帕利形式),如

 ∑ ( ⊗n ) ⊗n ℋ = -1- Tr σi ℋ σi , 2n i,...,i∈{I,X,Y,Z} k=1 k k=1 k 1 n

其中σ[i[k]]是一个帕利算符。当然,4^n 对帕利算符的要求通常可能过大,但哈密顿量的局部特性(如稀疏[34]、稀释或度数降低的[8]哈密顿量)有助于减少复杂度。

备注: 另一种方法,尤其是对于下一章分析的量子机器学习(QML)问题,是使用量子随机存取存储器(QRAM)对数据进行编码,本质上使用了由[110]开发的桶传递算法(参见[140,15]),我们将感兴趣的读者引导至[65],以了解当前最先进算法的良好总结。

将经典数据编码到量子计算机中,最近取得了许多进展,现在有多种竞争性的技术可供选择,具体使用哪种技术取决于正在研究的问题。

摘要

在本章中,我们介绍了参数化量子电路的概念,作为通用的 QML 模型。PQC 可以训练并用作判别和生成 QML 模型以及优化器。它们还可以用来将经典数据样本编码为相应的量子态。

我们考虑了几种流行的数据编码方法。可以说,最简单且最易实现的方法是角度编码算法——我们将在下一章中使用这种方法。其他方法也有其优点,尽管它们通常在硬件要求方面更为苛刻,或更适合某些特定应用。

在下一章,我们将应用到目前为止所学的内容,构建一个作为分类器训练的量子神经网络,并将其在二分类问题上的表现与标准经典机器学习模型进行比较。

加入我们书籍的 Discord 空间

加入我们的 Discord 社区,与志同道合的人交流,并与超过 2000 名成员一起学习,网址:packt.link/quantum

图片

第八章:量子神经网络

量子神经网络 [100] 是参数化的量子电路,可以作为生成型或判别型机器学习模型进行训练,直接类比于其经典对应物。在本章中,我们将考虑将量子电路作为分类器进行训练的情况。在最一般的情况下,分类器是一个函数,它接受一个 N 维的输入,并返回 M 个可能类别值中的一个。分类器可以通过调整可配置的模型参数,在已知类别标签的样本数据集上进行训练,从而最小化分类误差。一旦分类器完全训练好,它就可以接受新的、未见过的样本,而这些样本的正确类别标签是未知的。因此,避免过拟合训练数据集并确保分类器能很好地推广到新数据是至关重要的。

量子神经网络和经典神经网络之间有许多相似之处。在这两种情况下,关键元素是信号(输入)的前向传播,这个信号通过网络的激活函数进行转换。量子神经网络和经典神经网络都可以通过误差反向传播(可微分学习)以及各种非可微分学习技术进行训练。然而,它们也存在一些根本性的差异。例如,经典神经网络的强大之处在于输入的非线性变换。相比之下,所有的量子门都是线性算符,量子神经网络的力量来自于将输入映射到高维的希尔伯特空间,在这个空间中,分类更容易进行。

8.1 量子神经网络

图 8.1 提供了典型的量子神经网络(QNN)作为分类器训练的示意图。让我们来看一下量子电路,了解它是如何工作的。网络由 n 个量子寄存器、一系列的单量子比特门和双量子比特门,以及 m 个测量算符组成。输入是一个量子态 |ψ ⟩ k,它编码了来自数据集的第 k 个样本。如果我们的数据集是经典的,那么每个经典样本应首先编码成输入量子态(如前一章所述)。通过 m 个测量算符,输出是一个比特串,可以编码最多 2^m 个整数值(类别标签)。对于二分类器,只需要对单个量子比特进行测量即可。

图 8.1:量子神经网络的示意图 —— 参数化量子电路 —— 由 1 量子比特和 2 量子比特门以及一个或多个量子寄存器上的测量算符组成。初始状态 |ψk⟩ 编码了来自数据集的第 k 个样本。

图 8.1:量子神经网络的示意图——带参数的量子电路——由单量子比特和双量子比特门以及在一个或多个量子寄存器上的测量算符组成。初始状态|ψk⟩编码了数据集中第 k 个样本。

测量过程从量子态中编码的概率分布中产生一个单一的样本。因此,我们需要对相同的输入多次运行量子电路,以便为我们进行测量的每个量子比特收集足够的统计数据。

例如,如果我们的 QNN 被组织为一个分类器,能够预测四个可能的类别之一(“0”,“1”,“2”和“3”),那么我们需要对 2 个量子比特进行测量,可能的结果是|00⟩对应类别“0”,|01⟩对应类别“1”,|10⟩对应类别“2”,以及|11⟩对应类别“3”。假设我们已经运行了量子电路 1,000 次,并观察到如表 8.1 所示的结果:

测量位串 类别标签 观察次数
00 0 100
01 1 550
10 2 200
11 3 150

表 8.1:量子电路的 1,000 次运行。

然后我们可以得出结论,对于给定的输入,最可能的类别标签是类别“1”(概率为 55%)。同时,我们还获得了所有其他可能类别值的概率,这在某些情况下可能会有用。

网络组织为 l 层的单量子比特和双量子比特门。门可以是可调的,意味着它们可以通过可调参数(如旋转角度)来控制,或者它们也可以是固定的。图 8.1 中的双量子比特门是固定的 CX 门,但原则上,它们可以是可调的受控旋转门。尽管图 8.1 中示意性地展示的网络最多可以有 n × l 个可调参数(𝜃[i]^j)[i=1,…,n; j=1,…,l]),但通常情况下,双量子比特门是固定的,我们在训练网络时只有单量子比特旋转作为可用的自由度。

类似于经典神经网络,QNNs 可以通过可微分学习(例如,使用梯度下降的误差反向传播)或非可微分学习(例如,进化搜索启发式算法)进行训练。两种方法各有其相对的优缺点。从理论上讲,可微分学习可能更快,但由于著名的“荒原平台”问题(即梯度变得极其微小[207]),其收敛性并不能得到保证,且受具体问题的影响。非可微分学习通常较慢,但避免了被困在局部最小值,并且在代价函数不光滑的情况下表现良好。第 8.2 节和第 8.3 节提供了 QNN 训练过程的详细描述。

显然,使用量子分类器的最强动力是它们能够处理量子数据。必须分类的输入量子态可能是其他量子电路的输出。由于我们可能无法将这些量子态中编码的信息以经典方式存储,量子分类器成为了一个不可或缺的工具。然而,量子分类器也有可能在纯经典数据上展示其优势。以下是几个动机,促使我们有兴趣尝试将 QNNs 应用于经典数据集。

首先,参数化量子电路的表达能力大于等效的经典神经网络。其次,量子电路结构上能够高效地应对过拟合问题。最后,在量子计算发展的初期阶段,对于特定的使用案例,某些类型的量子硬件上是可以实现量子加速的。第十二章更详细地探讨了这些问题。

在本章中,我们重点介绍如何使用量子神经网络(QNNs)高效地解决特定的与金融相关的分类问题,并与多种标准的经典分类器进行对比。虽然通过实验证明量子加速和量子神经网络更大表达能力的优势需要强大的量子硬件,但 QNNs 如何应对过拟合的问题可以在相对较小且浅的量子电路上进行验证,并借助开源量子模拟器实现。

QNNs 是作为机器学习模型(如分类器)进行训练的参数化量子电路。量子神经网络在处理量子数据时,相比经典神经网络具有天然的优势。然而,经典数据集也可以编码为量子态,并通过 QNNs 进行处理,借助它们更强大的表达能力、有效应对过拟合的能力,最终实现量子加速。

正如我们在第五章中学到的,单单指定神经网络的架构不足以构建有效的机器学习模型——还需要指定训练算法。在接下来的章节中,我们将展示如何通过可微和不可微的学习方法来训练量子神经网络。

8.2 使用梯度下降训练量子神经网络

由于我们不仅仅关注构建作为独立工具的量子神经网络,还希望将其与经典神经网络进行比较和对比,因此我们首先回顾使用梯度下降法训练量子神经网络——这是一个普遍使用的经典机器学习算法。

8.2.1 有限差分方案

训练量子神经网络包括指定并执行一个程序,该程序可以找到可调旋转参数𝜃的最优配置。假设一个量子神经网络被指定在n个量子寄存器上,并具有l层可调量子门,其中每个可调门由一个单一参数控制(𝜃[i]^j)[i=1,…,n; j=1,…,l])。在这种情况下,𝜃 ∈ℳ[n,l]是一个n×l的可调网络参数矩阵:

 ⌊ 1 l⌋ 𝜃1 ... 𝜃1 𝜃 = || .. ... .. || . ⌈ . . ⌉ 𝜃1n ... 𝜃ln

在不失一般性的前提下,我们假设使用的是二分类器。该分类器接收一个输入(一个量子态,编码了来自数据集的一个样本),应用一系列量子门(由最多n × l 可调参数控制的参数化量子电路),并对选定的量子寄存器进行可观察量M的测量。一个可观察量的例子是保利 Z 门,对于一个量子比特,若其处于态|0⟩|1⟩,单次测量的结果分别为±1。测量到的可观察量值会映射为二元变量{0,1}的值。这个过程会针对每个样本重复N次,以便收集足够的统计数据用于分类结果。

寻找可调参数𝜃的最优配置的第一步是选择一个合适的成本函数——一个表示在分类训练数据集样本时总误差的目标函数,且可以通过改变可调网络参数来最小化。设 y := (y[1],…,y[K])为二元标签向量,f(𝜃) := (f1,…,fK)为训练数据集中K个样本的二分类器预测结果向量。那么,成本函数L(𝜃)可以定义为,举例来说,训练数据集所有样本的平方误差之和:

 ∑K L (𝜃) := 1 (yk − fk(𝜃))2. 2 k=1

下一步是沿着能够减少代价函数值的方向进行可调参数的迭代更新。这个方向由代价函数的梯度给出——因此该方法得名。参数沿着代价函数的最速下降方向进行更新。在第 u + 1 步,我们将系统更新为:

 ∂L(𝜃) u+1 𝜃ij← − u𝜃ji − η---j-, for each i = 1,...,n, j = 1,...,l, ∂𝜃i

其中 η 是学习率,即控制更新幅度的超参数。对于每个 i = 1,…,nj = 1,…,l,可以使用有限差分法来数值计算导数:

 j j j j ∂L-(𝜃)- L(𝜃11,...,𝜃i-+-Δ𝜃i,...,𝜃ln)−-L-(𝜃11,...,𝜃i-−-Δ𝜃i,...,𝜃ln)- ∂𝜃j ≈ 2Δ 𝜃j , i i

误差的阶数为 𝒪((Δ𝜃[i]^j)²),其中 Δ𝜃[i]^j 是一个小的旋转角度增量。NISQ 设备的物理特性对这一增量的最小值有所限制:在大多数情况下,Δ𝜃[i]^j 不应小于 0.1 弧度。其余的训练过程遵循经典的神经网络训练算法,通过反向传播误差并使用梯度下降法进行优化。

8.2.2 分析梯度方法

一种替代有限差分法的方法是分析梯度法,它能有效避免由于截断和舍入误差导致的不稳定和病态情况(无论是对于参数化量子电路 [29],还是对于经典神经网络 [27]),它对于具有可调单量子比特门和固定多量子比特门的参数化量子电路是一个可行的选择。从(8.2.1)中可以得出,代价函数相对于参数 𝜃[i]^j 的梯度为:

 K ∂L-(𝜃)= − ∑ (y − f (𝜃)) ∂fk-(𝜃), ∂ 𝜃ji k k ∂𝜃ji k=1

因此,计算代价函数梯度的任务可以简化为计算每个样本量子态的测量算符的期望值的偏导数,该量子态编码了来自训练数据集的经典样本。设 |ψk⟩ 为编码训练数据集中的第 k 个样本的量子态,且设 U(𝜃) 为表示一系列 QNN 门的幺正算符,这些门将初始态 |ψk⟩ 转换为最终状态。那么,测量算符 M 的期望值为:

fk(𝜃) = ⟨ψk |U †(𝜃)MU(𝜃) |ψk ⟩.

根据我们在构造 QNN 假设时使用的约定,参数 𝜃[i]^j 仅影响一个单独的门,我们将其表示为 G(𝜃[i]^j)。因此,门序列 U(𝜃) 可以表示为:

U(𝜃) = VG(𝜃ji)W,

其中 W 和 V 是在门 G(𝜃[i]^j) 之前和之后的门序列。我们可以将 V 吸收到厄米观测量 Q = V^†MV 中,并将 W 吸收到量子态 |ϕ ⟩ k = W|ψ ⟩ k 中:

 † j j fk(𝜃) = ⟨ϕk|G (𝜃i)QG(𝜃i) |ϕk⟩.

然后,fk 关于参数 𝜃[i]^j 的偏导数计算为

∂fk(𝜃) ----j-- ∂ 𝜃i =  ∂ ---j ∂ 𝜃iϕ[k]|G^†(𝜃 [i]^j)QG(𝜃 [i]^j)|ϕk⟩
= ⟨ϕ[k]|( ) ∂G (𝜃j) ----ij- ∂𝜃i^†QG(𝜃 [i]^j)|ϕk⟩ + ⟨ϕ[k]|G^†(𝜃 [i]^j)Q( ) ∂G(𝜃j) ---ji- ∂𝜃i|ϕk⟩.

让我们表示

 ∂G (𝜃j) B := G(𝜃ji) 和 C :=----ji, ∂𝜃i

并且注意到

 † † ⟨ϕk|C( QB |ϕk ⟩+ ⟨ϕk|B QC |ϕk ⟩ ) 1- † † = 2 ⟨ϕk |(B + C) Q(B+ C) |ϕk ⟩− ⟨ϕk|(B− C) Q(B − C) |ϕk⟩ .

因此,如果我们能够找到实现操作符 B±C 作为整体单位演化的一部分的方法,那么我们可以直接计算 (8.2.1)。

8.2.3 分析梯度计算的参数偏移规则

根据 [257],我们概述了具有两个不同特征值的生成元的门的参数偏移规则——这涵盖了所有单量子比特门。作为单位操作,门 G(𝜃[i]^j) 可以表示为

 ( ) G(𝜃ji) = exp − i𝜃jiΓ ,

对于某些厄米算符 Γ(定理 6)。关于 𝜃[i]^j 的偏导数为

 j ( ) ∂G-(𝜃i) = − iΓ exp − i𝜃jiΓ = − iΓ G(𝜃ji). ∂𝜃ji

将 (8.2.3) 代入 (8.2.1) 得到

 ⟩ ⟩ ∂fk(𝜃)-= ⟨ϕ′|iΓ Q |ϕ′ + ⟨ϕ′|Q(− iΓ ) |ϕ ′ , ∂𝜃ji k k k k

其中  ′⟩ |ϕ k = G(𝜃[i]^j)|ϕk⟩。如果 Γ 只有两个不同的特征值,我们可以将特征值移至 ±r,因为全局相位是不可观察的 [257]。用 I 表示单位算符,我们可以将 (8.2.3) 重写为

 ( ) ∂fk(𝜃)- ′ iΓ- ′⟩ ′ iΓ- ′⟩ j = r ⟨ϕ k|r QI |ϕk − ⟨ϕk|IQ r |ϕk . ∂𝜃i

表示

 i B := I 和 C := − rΓ ,

并使用 (8.2.2) 我们从 (8.2.3) 中得到:

 [ ] ∂f (𝜃) r ′ ( i ) † ( i ) ′⟩ ′ ( i )† ( i ) ′⟩ --k-j--= -- ⟨ϕk| I− - Γ Q I− -Γ |ϕk − ⟨ϕk| I + -Γ Q I + - Γ |ϕk . ∂𝜃i 2 r r r r

一个直接的计算 [257, Theorem 1] 显示,如果单位算符 G(𝜃) = exp(−i𝜃Γ) 的厄米生成元 Γ 至多具有两个唯一特征值 ±r,那么

 ( ) ( -π-) -1- i G ∓ 4r = √2-- I± rΓ .

在这种情况下,可以使用两个额外的量子电路评估来估算梯度。应该在原始电路中将门 G(π∕(4r))或门 G(−π∕(4r))放置在我们要微分的门旁边。由于对于单位生成的单参数门 G(a)G(b) = G(a + b),这相当于偏移门参数,因此我们获得了“参数偏移规则”[257],其中偏移量s = π∕(4r):

 ( ) ∂fk(𝜃)-= r ⟨ϕk |G†(𝜃j + s)QG(𝜃j+ s) |ϕk⟩− ⟨ϕk |G †(𝜃j − s)QG (𝜃j − s) |ϕk⟩ . ∂𝜃ji i i i i

如果Γ是由保利 X、Y 和 Z 算符给出的单量子比特旋转生成器,则r = 12,s = π∕2[213,257]:

∂fk(𝜃) 1( ( j π) ( j π ) ---j--= -- ⟨ϕk |G† 𝜃i + -- QG 𝜃i +-- |ϕk⟩ ∂𝜃i 2 ( 2 ) ( 2 ) ) − ⟨ϕ |G† 𝜃j− π- QG 𝜃j − π- |ϕ ⟩ . k i 2 i 2 k

因此,我们需要做的事情是执行两次电路N次以收集统计数据,并计算(8.2.3)右侧的期望值。第一个电路将门参数偏移π∕2,第二个电路将门参数偏移−π∕2。

尽管这个过程不一定比有限差分方案更快,但它可以提供更准确的代价函数梯度估计。这里的主要论点是 NISQ 硬件在有限精度下运行。最先进的超导量子比特具有单量子比特门保真度≤99.9%和双量子比特门保真度≤99.7%,且旋转角度精度为 0.05 弧度。因此,有限差分方案不能假设无穷小的旋转角度Δ𝜃 – 它们不应小于大约 0.1 弧度(并且在大多数情况下,可能要大得多)。这意味着使用有限差分方案获得的梯度具有一定程度的固有不确定性,只有通过进一步改善 NISQ 硬件才能解决。

QNN 可以通过梯度下降算法进行训练,完全类比于经典神经网络中的误差反向传播。梯度可以通过解析方法计算,或者通过数值方法估算。

8.3 使用粒子群优化训练 QNN

在上一节中已经指定了用于训练 QNN 的梯度下降方案,接下来我们将注意力转向一种基于强大进化搜索算法的不可微学习方法。

8.3.1 粒子群优化算法

粒子群优化(PSO)算法属于广泛的进化搜索启发式算法类,每次算法迭代(在进化算法的术语中称为“代”)时,解的种群(“染色体”或“粒子”)会根据其与环境的适应度进行评估。在标准的 PSO 公式中 [236],一组粒子被放置在某个问题的解空间中,并且每个粒子会评估其当前位置的适应度。每个粒子接着结合自己适应度值的历史记录和一个或多个群体成员的适应度历史,来决定其在解空间中的移动,并以由这些成员的位置和处理后的适应度值以及一些随机扰动所决定的速度进行移动。

这是一个标准过程 [127, 172],在指定 PSO 算法时需要遵循三个步骤。首先,我们初始化每个粒子 i 在时间 k 时刻的位置信息 x[k]^i := (x[k]i(1)*,…,x*[k]i(n)) ∈ℝ^n,粒子在 n 维搜索空间中移动并取值于某个范围 [x[min],x[max]]。接下来,我们初始化群体中每个粒子的速度 v[k]^i := (v[k]i(1)*,…,v*[k]i(n)) ∈ℝ^n。初始化过程包括将群体粒子随机分布到解空间中:

 i i xmin + ωv(xmax − xmin) x0 = xmin + ωx (xmax − xmin), v0 = ----------Δt----------,

其中 ω[x] 和 ω[v] 是均匀分布在 [0,1] 区间上的随机变量,Δt 是算法迭代之间的时间步长。

然后,我们根据指定的目标函数更新所有粒子在时间 k + 1 时刻的速度,该目标函数依赖于粒子在解空间中时间 k 时刻的当前位置。目标函数的值决定了当前群体中哪个粒子拥有最佳位置 p[k]^(global),并且还决定了每个粒子随时间变化的最佳位置 p^i,即在当前及所有先前的移动中。速度更新公式使用这两部分信息(粒子的当前运动 v[k]^i)来提供下一个迭代的搜索方向 p[k+1]^i。该公式还包括随机参数,以确保解空间的良好覆盖并避免陷入局部最优。影响新搜索方向的三个值是当前运动、粒子自身的记忆和群体的影响。这些通过求和方法与三个权重因子结合:惯性 w、自信度 c[1] 和群体自信度 c[2]:

 ( ) ( i i) pglobal− xi vik+1 = wvik + c1ω1-p-−-xk-+ c2ω2 --k-------k--, Δt Δt

其中 ω[1] 和 ω[2] 是均匀分布在 [0,1] 区间上的随机变量。

最后,使用每个粒子的速度向量来更新其位置:

xik+1 = xik + vik+1Δt.

这些步骤会重复进行,直到满足期望的收敛标准或达到最大迭代次数。可以设计各种反射规则(在边界处停止,镜像反射回允许的领域等)[190],以应对新的位置 x[k+1]^i 超出[x[min],x[max]]边界的情况,并且可以通过Δt ≡ 1 来规范化动态。如果K是算法的最后一次迭代,那么 PSO 找到的最佳解是 p[K]^(global)。图 8.2 提供了粒子在三种力的作用下通过解空间的示意图:动量、吸引全体粒子在上一次迭代中找到的全局最佳解,以及吸引给定粒子在所有前次迭代中找到的最佳解。

图 8.2:PSO 算法的示意图。每个粒子在三种力的作用下在解空间中移动:动量、粒子的记忆和群体影响。

图 8.2:PSO 算法的示意图。每个粒子在三种力的作用下在解空间中移动:动量、对前一次迭代中所有粒子找到的全局最佳解的吸引力,以及对给定粒子在所有前次迭代中找到的最佳解的吸引力。

8.3.2 用于训练量子神经网络的 PSO 算法

现在我们准备指定 PSO 算法来训练量子神经网络(QNN)。我们考虑一个* n * × * l 的可调参数(旋转)矩阵𝜃,其中n是量子寄存器的数量,l*是网络层数。我们寻找的解决方案是可调参数矩阵(8.2.1),它最小化所选的成本函数。

成本函数可以通过多种方式指定,具体取决于我们希望鼓励或惩罚哪些特定方面。给定训练数据集,我们希望找到一种可调参数𝜃的配置,使得尽可能多的样本被正确分类。例如,一种可能的成本函数选择是错误分类与正确分类决策的比率。然而,分类过程本质上是概率性的——我们在多次运行量子电路后决定样本标签,这些运行产生了足够的统计数据。因此,每个分类决策不仅仅是对错的问题,它也可以被看作是“更对”或“更错”。如果正确的样本标签是“1”,而我们 51%的时间得到“0”,那么分类器略微错误:这种情况下,类似的样本有可能被正确分类,或者只需对可调的网络参数进行小的调整即可纠正分类过程。但如果我们 90%的时间得到“0”,那么分类器就是“非常错”,我们需要更积极地惩罚这一结果。

一种可能的代价函数实现方式,考虑到上述参数如下:不失一般性,假设我们使用二分类标签"0"和"1",并且设 y := (y[1],…,y[K]) 为一个样本标签向量(标签为"0"或"1"),来自训练数据集。进一步,设 ℙ(𝜃) := (ℙ1,…,ℙK) 为 QNN 估计的样本预测为类别"1"的概率向量(即量子电路运行中返回"1"的次数除以总运行次数)。那么,代价函数 L(𝜃) 由以下伪代码给出:

cost_function = 0 

for i in range(K): 

    if y[i] == 0: 

        if P[i] > 0.7: 

            cost_function += 4 

        if P[i] > 0.6 and P[i] <= 0.7: 

            cost_function += 2 

        if P[i] > 0.5 and P[i] <= 0.6: 

            cost_function += 1 

    else: 

        if P[i] < 0.5 and P[i] >= 0.4: 

            cost_function += 1 

        if P[i] < 0.4 and P[i] >= 0.3: 

            cost_function += 2 

        if P[i] < 0.3: 

            cost_function += 4

该代价函数对类别概率估计的较大误差比小误差惩罚更重,且表示训练数据集中所有样本的总误差。

我们现在可以制定 QNN 训练算法,该算法的输入如下:

变量 含义
X := (X[1],…,X[K]) ∈ℝ^(M×K) 编码为特征的训练数据集
旋转角度范围为 [0]
y := (y[1],…,y[K]) ∈{0,1}^K 二进制标签向量
N[iter] 迭代次数
N[runs] 量子电路运行次数
M 粒子(解)的数量
w 动量系数
c [1] 粒子记忆系数
c[2] 群体影响系数
n 量子寄存器的数量
l QNN 层数

表 8.2:QNN 训练算法的输入

该算法作用于以下对象,其中 m = 1,…,M 表示第 m 个粒子,t = 0,…,N[iter] 表示算法的迭代步骤:

  • 𝜃(t;m) ∈ℳnl: 第 m 个粒子在时间 t 的位置;

  • v(t;m) ∈ℳnl: 第 m 个粒子在时间 t 的速度;

  • Ξ(m) ∈ ℳnl: 第 m 个粒子在所有迭代中的最佳位置;

  • Φ(t) ∈ ℳnl: 所有粒子在时间 t 找到的全局最佳位置;

  • L(𝜃): 解 𝜃 的代价函数值。

--------------------------------------------------------------------- -算法---5:-粒子群优化--------------------------- 结果:可调 QNN 参数的最优配置 ∗ 𝜃 := argmin L(𝜃)。初始解集的初始化与评估(我们在(8.3.1)中将 Δt 设置为 1):对每个粒子 m = 1,...,M 做 | 对 i = 1,...,n, j = 1,...,l 做 | | 从 𝒰 ([− π,π]) 中随机抽取旋转角度 𝜃j(0;m )。 | | i | | 从 𝒰 ([− π,π]) 中随机抽取旋转角度 vji(0;m )。 | 结束 | | | 初始化单独的最佳解: | | Ξ(m ) ← 𝜃(0;m ) | | 对 k = 1,...,K 做 | | 使用配置 | | | 𝜃(0;m ) 在样本 Xk 上运行量子电路 Nruns 次,以估算 | | 读取目标量子比特为 "1" 的概率 ℙk。 | | 结束 | | 评估给定概率的代价函数 L(𝜃(0;m )) | ℙ := (ℙ1,...,ℙK ) 结束 按代价函数值从最优(最小代价函数)到最差(最大代价函数)排序解。Φ (0) ← 对应代价函数最小值的配置。初始化最优配置: ∗ 𝜃 ← Φ (0) ---------------------------------------------------------------------

--------------------------------------------------------------------- 迭代:对于 t = 1,...,Niter 做 | | 对 m = 1,...,M 做 | | 对 i = 1,...,n, j = 1,...,l 做 | | | 生成独立的随机数 ω ∼ U [0,1 ] 和 | | | 1 | | | ω2 ∼ U[0,1]。 | | | 动量 ← wvj (t − 1;m ) | | | i | | | 粒子 ← c1ω1[Ξji(m )− 𝜃ji(t− 1;m)] | | | 群体 ← c ω [Φj (t − 1)− 𝜃j(t− 1;m )] | | | 2 2 i i | | | vji(t;m ) ← 动量 + 粒子 + 群体 | | | j j j | | | 𝜃i(t;m ) ← 𝜃i(t− 1;m ) + vi(t;m ) | | 结束 | | | | 对 k = 1,...,K 做 | | 使用配置 | | | 𝜃(t;m ) 在样本 X 上运行量子电路 Nruns 次,以估算 | | | k k | | 读取目标量子比特为 "1" 的概率 ℙ。 | | 结束 | | | | 评估给定概率的代价函数 L(𝜃(t;m )) | | | | ℙ := (ℙ1,...,ℙK )。 | | 如果 L(𝜃(t;m)) < L(Ξ (m )),则 | | | Ξ(m ) ← 𝜃(t;m ) | | | | 结束 | | 结束 | 按代价函数值从最优(代价函数最小值)到最差(代价函数最大值)排序解。 | | Φ (t) ← 对应代价函数最小值的配置。 | | 如果 L(𝜃∗) < L (Φ(t)),则 | 𝜃 ∗ ← Φ(t) | | 结束 结束 ---------------------------------------------------------------------

基于进化搜索启发式的不可微学习在处理具有多个局部极小值的不规则、非凸目标函数时效果良好。

8.4 QNN 在 NISQ QPU 上的嵌入

理想情况下,参数化量子电路应该以与硬件无关的方式构建,仅由待解决问题的特征驱动。然而,这将需要存在大型且连接极为良好的量子计算系统,具有非常高的量子比特保真度和相干时间。换句话说,我们需要的 QPU 功能远远超过现有 NISQ 设备的能力。这样的强大量子计算系统的到来可能比预期的更早,但我们仍然需要找到一种在 NISQ QPU 上高效运行 PQC 的方法。

8.4.1 NISQ QPU 连接性

设计可在 NISQ QPU 上执行的 PQC 的典型方法是,从观察量子计算系统的两个主要特征开始:图(量子比特连接性)和原生门集。我们可以通过查看图 8.3 中 Rigetti 的 Aspen 系统 [72] 来说明这些要点。

图 8.3: Rigetti 的 Aspen 系统。

图 8.3: Rigetti 的 Aspen 系统。

如我们所见,大多数量子比特仅与线性网格上的最近邻量子比特连接,只有四个量子比特有三个连接。这些额外的连接形成了两个 8 量子比特岛之间的桥梁,否则它们将是完全独立的。

8.4.2 QNN 嵌入方案

图 8.3 中的阴影量子比特可以用于构建 8 量子比特树网络,能够处理最多具有 16 个连续特征(每个量子寄存器两个特征)的数据集,如图 8.4 所示。图 8.3 中的粗线表示用于构建 QNN 的量子比特连接。细线表示所有其他未在 QNN 假设中使用的量子比特连接。

图 8.4: Aspen 系统的 QNN;门 G 是 {X,Y,Z} 任意门。

图 8.4: Aspen 系统的 QNN;门 G 是 {X,Y,Z} 任意门。

由于现有量子处理单元(QPU)的连接性有限,我们需要充分利用量子芯片的图结构来实现最有效的 QNN 嵌入,并提取最佳性能。

8.5 QNN 作为分类器的训练

我们现在演示如何使用非可微分学习方法,在经典信用审批数据集上训练二元 QNN 分类器。

8.5.1 ACA 数据集与 QNN 假设

二分类器在金融领域最基本的应用之一是信用批准。UCI 机器学习数据库[241, 242]包含澳大利亚信用批准(ACA)数据集,该数据集由 690 个样本组成。数据集包含 14 个特征(包括二进制、整数、连续特征),代表潜在借款人的各种属性,以及一个二进制类别标签(接受/拒绝信用申请)。由于特征的预测能力有限以及数据集相对较小,经典分类器处理起来相当困难。这使得它成为测试和基准化 QNN 性能的理想选择。

我们从最简单的树形网络开始,该网络可以映射到前一节中描述的 Rigetti Aspen 系统图。图 8.5 显示了完整的量子电路,包括样本编码和样本处理模块[171]。该方案使我们能够利用绕x轴和y轴的旋转,在每个量子寄存器中最多编码两个连续特征。

图 8.5:用于信用批准分类器的 PQC。

图 8.5:用于信用批准分类器的 PQC。

特征作为旋转角度ϕ ∈ [0]进行编码,按照第 7.2 节中描述的编码方案进行。所有量子比特初始化为计算基态的|0⟩,这确保了编码样本的唯一性。样本处理模块由可调的一量子比特门(绕x轴和y轴的旋转)和固定的二量子比特门(CZ)组成。我们使用sklearn.model_selection模块提供的 train_test_split()函数,将 ACA 数据集按 50:50 分为训练集和测试集。我们的目标是训练 QNN 和各种经典分类器(经典基准)在训练集上的表现,并比较它们在测试集上的外推性能。经典分类器具有一些超参数,可以进行微调,以优化分类器在给定数据集上的性能。相比之下,QNN 架构(单量子比特和双量子比特门的位置和类型)是固定的。

8.5.2 使用 PSO 算法训练 ACA 分类器

我们首先验证 QNN 是否能够通过粒子群优化算法(PSO)高效训练——一种不可微分的学习方法。图 8.6 展示了 PSO 算法在表 8.3 中给定 PSO 参数集下的收敛情况。

参数 符号
惯性系数 w 0.25
自信系数 c [1] 0.25
群体自信系数 c [2] 0.25
粒子数量 M 10
迭代次数 N[iter] 20
量子电路运行次数 N[runs] 1000

表 8.3:PSO 参数。

样本算法运行在仅用十个粒子的情况下,通过Qiskit量子模拟器探索搜索空间,仅在四次迭代中就达到了目标函数的最小值。

图 8.6:各个粒子找到的目标函数最小值。

图 8.6:各个粒子找到的目标函数最小值。

PSO 算法找到的对应于目标函数最小值的可调参数(旋转)的配置由(8.5.2)给出。

 ⌊ ⌋ 0.16π | | ||− 0.55π 0.66π || ||− 0.13π || || || || 0.08π 0.72π 0.02π || 𝜃 = || 0.33π || . | | || 0.06π 0.95π || || 0.48π || ⌈ ⌉ 0.19π − 0.91π − 0.83π 0.59π

图 8.7 显示了通过 Qiskit 量子模拟器获得的 QNN 分类器的内外样本混淆矩阵,假设类 0 为正类。

图 8.7:QNN 分类器的混淆矩阵(ACA 数据集)。

图 8.7:QNN 分类器的混淆矩阵(ACA 数据集)。

结果具有鲁棒性,内样本准确率为 0.86,外样本准确率为 0.85。值得注意的是,内样本和外样本结果非常接近,表明 QNN 提供了强有力的正则化。量子与经典神经网络正则化的问题将在第十二章中讨论。

8.6 经典基准

在第四章中,我们介绍了两种经典分类器:前馈人工神经网络(多层感知器)和决策树算法。现在,我们通过添加支持向量机(SVM)[70]、逻辑回归[31]和随机森林[136]来扩展经典基准分类器的范围。基于核方法的 SVM 方法将在第十三章中讨论。这里,我们简要解释逻辑回归和随机森林分类器的主要原理。

8.6.1 逻辑回归与随机森林

逻辑回归可以看作是一个具有单个隐藏层的前馈神经网络的特例,隐藏层由具有逻辑激活函数的激活单元组成。该模型的运作如图 4.3 所示。

 ( ) y(s) = 1 + e−s −1 .

标准的逻辑回归模型是一个线性分类器,因为结果始终依赖于(加权)输入的总和。因此,逻辑回归在处理类之间或多或少是线性可分的数据集时表现良好。

随机森林是一种集成学习模型,顾名思义,它基于结合多个决策树的分类结果。随机森林使用的集成技术称为自助聚合bootstrap aggregation),或bagging,通过从数据集中选择随机子集。因此,每棵决策树都是从原始数据集的样本中通过有放回抽样生成的(行抽样)。这种有放回的行抽样步骤被称为自助法bootstrap)。每棵决策树都是独立训练的。给定样本的最终输出是基于所有单独决策树结果的多数投票,这是聚合步骤。

8.6.2 与标准经典分类器的基准测试

经典基准测试可以通过训练几个流行的scikit-learn模型来完成。表 8.4 提供了几个(弱优化的)scikit-learn分类器的样本外F[1]分数的经典基准测试结果:

  • 前馈神经网络(MLP)分类器:neural_network.MLPClassifier

  • 支持向量机分类器:svm.SVC

  • 一种集成学习模型:ensemble.RandomForestClassifier

  • 逻辑回归分类器:linear_model.LogisticRegression

F[1] 分数是两个性能指标——精度和召回率——的调和平均值:

 精度 × 召回率 F1 := 2 -----------------, 精度 + 召回率

两者都在第四章中介绍。在信用审批的背景下,优化召回率有助于最小化错误批准应被拒绝的信用申请的机会。然而,这会导致一些高质量借款人的信用申请未能获得批准。如果我们优化精度,那么我们会提高决策的整体正确性,但这也可能导致一些信用不良的申请者被批准。F[1] 分数用于平衡精度和召回率优化中的正负效果。

分类器 平均 F[1] 分数
逻辑回归分类器 0.88
随机森林分类器 0.87
MLP 分类器 0.86
QNN 分类器 0.85
支持向量分类器 0.84

表 8.4:在 ACA 数据集上训练的经典和 QNN 分类器的样本外F[1]分数。

QNN 分类器的性能,依据类别 0 和类别 1 的平均F[1]分数来衡量,位于所选经典基准测试样本外F[1]分数的范围中间。这是令人鼓舞的,因为 QNN 的初始设置是固定的,我们没有优化 QNN 的超参数——即两量子比特门的放置和类型。通过部署标准的集成学习技术(如下一节所述),可以进一步提高分类器的性能。

QNN 可有效用于经典金融相关数据集的分类任务。

8.7 使用集成学习提升性能

集成学习方法将不同的弱分类器组合成一个强分类器,其泛化能力优于每个单独的独立分类器。在第四章中,我们看到集成学习的原理如何与量子退火方法结合使用。这里,我们从 QNN 的角度来看待这些方法。

8.7.1 多数投票

常见的集成学习方法包括多数投票(用于二分类)和多数投票(用于多类分类)。多数投票的意思就是:给定样本的类别标签是获得超过一半个体投票的类别。多数投票选择获得最多投票的类别(即众数)。

个别分类器的集成可以通过不同的分类算法来构建。例如,通过组合神经网络分类器、支持向量机、决策树等。另一方面,可以通过选择不同的超参数配置和不同的训练数据集子集,使用相同的基本分类算法来生成多个分类器。随机森林分类器就是通过结合不同的决策树分类器来说明后一种方法。

考虑到这些因素,我们通过在 QPU 量子比特连接性所限制的范围内改变 QNN ansatz,构建了一个由多个独立 QNN 分类器组成的强分类器。为了测试多数投票方法,我们通过在基准参数化量子电路中添加一些额外的两量子比特 CZ 门,构建了两个新的 QNN 分类器,如图 8.8 和 8.9 所示。

在 PQC #2 的情况下,我们增加了两个额外的 CZ 门,利用了 Aspen 系统的“桥接”结构(图 8.3)。这改善了整个系统的纠缠,并允许实现更丰富的量子态。相比基准电路,PQC #3 增加了三个额外的 CZ 门。这些新的分类器可以使用相同的算法(PSO)在相同的训练数据集上进行训练,但会有不同的可调参数的最佳配置,并在测试数据集上做出略有不同的分类决策。

使用三个 QNN 分类器时,多数投票会导致一致的或 2:1 的决策。当三个分类器完全一致时,ACA 数据集的表现略有提升。多数投票的增值作用仅体现在少数几个实例上,但这使得平均外样本F[1]得分从 0.85 提高到 0.87——与在相同数据集上训练的随机森林分类器持平。

图 8.8:用于信用审批分类器的 PQC #2。新的固定 2 量子比特门以灰色阴影显示。

图 8.8:用于信用审批分类器的 PQC #2。新的固定 2 量子比特门以灰色阴影显示。

图 8.9:用于信用审批分类器的 PQC #3。新的固定 2 量子比特门以灰色阴影显示。

图 8.9:用于信用审批分类器的 PQC #3。新的固定 2 量子比特门以灰色阴影显示。

通过对不同子集的训练数据集进行训练,可以实现类似的结果。这些子集是通过从原始训练数据集中抽取自助样本(带有替换的随机样本)产生的。然后,可以将这些不同训练的 QNN 分类器结合成一个强大的单一分类器,使用上述的多数投票方法。

8.7.2 量子提升

我们首先介绍了集成学习的概念,其中通过经典的多数投票方法将由多个 QNN 产生的预测结果合并成一个更为稳健的统一预测。然而,我们也可以采取另一种集成学习的方法:将多个经典分类器的预测结果作为输入传递给 QNN,QNN 会对这些结果进行聚合并给出统一的预测。换句话说,QNN 作为量子增强器,类似于第四章中介绍的基于 QUBO 的 QBoost 模型。

让我们回到第 8.5 节中使用的经典基准。这里有四种不同的机器学习模型执行二元分类。它们的输出(“0”表示类别 0,“1”表示类别 1)作为输入传递给 4 量子比特 QNN 分类器。由于所有量子寄存器都初始化为 |0⟩,所以各个分类器的输出可以通过以下方式进行编码:对于类别 0 输出不做任何操作(等同于应用恒等操作 I),或者对于类别 1 输出应用 NOT 门 X。

图 8.10:将 4 量子比特 QNN 嵌入到 Rigetti 的 Aspen 系统的桥接部分。

图 8.10:将 4 量子比特 QNN 嵌入到 Rigetti 的 Aspen 系统的桥接部分。

图 8.10 显示了如何将 4 量子比特 QNN 高效地嵌入到 QPU 中,图 8.11 显示了对应的参数化量子电路,具有可调的单量子比特门(R[X],R[Y])和固定的两量子比特门(CZ)。

图 8.11:QBoost 电路。样本编码门 G 如果输入为“0”则为恒等门 I,如果输入为“1”则为 NOT 门 X。

图 8.11:QBoost 电路。样本编码门 G 如果输入为“0”则为恒等门 I,如果输入为“1”则为 NOT 门 X。

集成学习可以像提高经典弱学习者的性能一样,提高 QNN 的性能。

摘要

在这一章,我们介绍了量子神经网络的概念,它是一个作为分类器训练的参数化量子电路。我们考虑了两种训练 QNN 的方法:可微(梯度下降)和不可微(粒子群优化)方法。梯度下降通常更快,但可能会遇到荒漠高原(梯度消失)问题。进化搜索启发式方法可能较慢,但能够处理多个局部最小值,并在探索与利用之间找到合适的平衡。

我们还探讨了在具有有限量子比特连接性的 NISQ QPU 上嵌入 QNN 的问题。作为示例,我们考虑了 Rigetti 的 Aspen 系统,并提出了一种高效的嵌入方案,镜像了 QNN 的“树结构”架构。

一旦我们的量子神经网络(QNN)完全定义并嵌入到量子处理单元(QPU)图中,我们就会研究其在实际信用审批数据集上的表现,并与几种标准的经典分类器进行比较。

最后,我们介绍了几种集成学习技术,这些技术有助于在混合量子经典协议的背景下提升 QNN 的表现。

在下一章,我们将学习一个强大的生成型 QML 模型——量子电路 Born 机,这是经典受限玻尔兹曼机(Restricted Boltzmann Machine)在量子领域的直接对应物,我们在第五章中讨论过该经典模型。

加入我们书籍的 Discord 社区

加入我们的 Discord 社区,结识志同道合的人,并与超过 2000 名成员一起学习,地址为:packt.link/quantum

图片

第九章:量子电路博恩机器

量子计算这一新计算范式的到来以及量子计算硬件的进展,促使了对量子机器学习模型,特别是量子生成模型的深入研究,这些模型可以看作是经典 RBM 的量子对应物,后者在第五章中有介绍。经典生成模型是无监督机器学习技术中最重要的类别之一,广泛应用于金融领域,如合成市场数据的生成[48, 173]、系统性交易策略的开发[176],或数据匿名化[174],仅举几例。

量子生成模型具备在 NISQ 设备上建立量子优势所需的所有必要特性。最著名的此类模型之一是量子电路博恩机器(QCBM),它由若干层可调和固定门组成,后面跟随测量操作符。输入是一个量子态,其中所有量子比特在计算基底中初始化为|0⟩。输出是一个比特串,这是通过对初始状态应用可调和固定门构建的最终态中编码的概率分布中提取的样本。

实验验证量子优势的期望来自以下观察:首先,当只允许多项式数量的参数时(QCBM 中的量子比特数量或 RBM 中可见激活单元的数量),QCBM 的表达能力明显大于经典 RBM[88]。其次,在 QCBM 的情况下,可以通过量子电路的一次运行生成从已学习分布中独立的样本——相比之下,RBM 需要通过网络进行最多 10³到 10⁴次的前向和反向传播才能达到热平衡状态[173]。这表明了量子加速的可能性。第三,量子生成模型可以用于将数据加载到量子态中,从而促进多种有前景的量子算法的实现[314]。

9.1 构建 QCBM

正如我们在第八章中所见,构建可以在 NISQ 计算机上运行的 QML 模型的艺术在于寻找一个最优的 PQC 架构,以便将其嵌入到所选的 QPU 图中。在本节中,我们将展示如何为与 IBM 的墨尔本和罗切斯特系统兼容的 QCBM 构建此架构。

9.1.1 QCBM 架构

QCBM 是一个参数化量子电路,其中一层可调的单量子比特门后面跟着一层固定的双量子比特门。这样的模式可以重复多次,构建一个逐渐加深的电路。输入是一个量子态,所有量子比特都初始化为|0⟩,以计算基表示。最终层由测量算符组成,从学习到的分布中生成一个比特串样本。因此,指定 QCBM 架构意味着指定层数、每层的可调门类型以及每层的固定门类型。由于 PQC 的理论仍在发展中[29],我们可以依靠 PQC 和经典神经网络之间的相似性和类比,提出一些关于可能 QCBM 架构的初步猜测。

图 9.1:QCBM(12, 7)。

图 9.1:QCBM(12, 7)。

图 9.1 显示了一个 12 量子比特的 QCBM,具有两层受控旋转门 R = RG,其中 G ∈{X,Y,Z}且ϕ ∈ [−π,π],其中 G 和ϕ是固定的,以及三层单量子比特门 RX 和 RZ,每个量子寄存器总共有七个可调门。该电路足够宽且足够深,可以学习一个连续随机变量的复杂分布,同时仍能在现有的 NISQ 设备上实现:一个连续随机变量的 12 位二进制表示提供足够的精度,而每个量子比特的七个可调参数(旋转角度)提供足够的灵活性。同时,电路的深度又不会过大,以至于受到现有量子硬件可实现的门保真度的影响[46, 164]。

9.1.2 QCBM 嵌入

选择的 QCBM 架构与当前一代量子处理器中观察到的有限连接性兼容。例如,所提议的电路需要顺序的量子比特连接,其中量子比特n直接连接量子比特n− 1 和n + 1,但不需要直接连接其他量子比特。该架构例如可以由 IBM 的墨尔本系统[208]支持,如图 9.2 所示,其中 12 个阴影部分的量子比特对应图 9.1 中的 12 个量子寄存器。粗线表示 QCBM Ansatz 中使用的连接,而细线表示所有其他可用的量子比特连接。

图 9.2:IBM 的墨尔本系统。

图 9.2:IBM 的墨尔本系统。

图 9.3 中的 53 量子比特罗切斯特设备[208]也可以用来实现这个 QCBM 架构。在这里,我们有几种选择来嵌入 QCBM 电路(12 个线性连接的量子比特形成一个闭环);阴影量子比特显示了其中一种可能性。

图 9.3:IBM 的罗切斯特系统。

图 9.3:IBM 的罗切斯特系统。

IBM 系统,如墨尔本和罗切斯特,基于超导量子比特。基础技术的选择意味着存在一组本地门——这些量子门直接来自于在给定量子芯片技术实现中发生的相互作用类型。

对于 IBM 设备,交叉共振门产生 ZX 相互作用,从而导致 CNOT 门。对于一比特门,我们注意到 R[Z]是一个对角门,由(6.3.3)给出,并且可以通过帧变换在硬件中虚拟实现(在零误差和持续时间下)[239]。因此,仅需一个 X 驱动就足以旋转 Bloch 球上的量子比特(借助两个门 R[X]和 R[Z],就可以在 Bloch 球上将量子比特从一个任意点移动到另一个任意点)。

这意味着我们不仅可以从连接性角度,还可以从一比特和两比特门的选择角度引入硬件高效架构的概念。考虑到图 6.19 和 6.20 中展示的 CNOT 和 CPHASE 门分解,墨尔本和罗切斯特系统的硬件高效 QCBM 架构将由可调节的 R[X]和 R[Z]单比特门以及固定的 CNOT 和 CPHASE 两比特门组合而成[153, 30]。

QCBM 是作为生成式机器学习模型训练的 PQC。QCBM 作用于N量子寄存器,将初始量子态|0 ⟩^(⊗N)转化为编码学习到的概率分布的量子态。

9.2 QCBM 的可微学习

QCBM 电路的输出是一个比特串,表示从量子态中编码的概率分布中抽取的样本。电路本身本质上是一个机制,将初始态|0⟩^(⊗n)转化为最终态,然后通过测量量子比特(在计算基中)生成样本。

一比特和多比特门的不同配置编码了不同的概率分布——QCBM 的训练包括寻找一个最佳的电路配置(ansatz)和一组最佳的可调参数,以最小化最终量子态(测量之前,或称“采样之前”)中编码的概率分布与训练数据集的概率分布之间的距离。

按照我们在第八章中采用的结构,我们首先介绍可微学习方法,然后再介绍基于另一种进化搜索启发式方法的非可微学习方法——遗传算法。

9.2.1 样本编码

在最一般的情况下,训练数据集由包含连续、整数和类别特征的样本组成。然而,QCBM 仅处理二进制变量。因此,我们需要设计一种方法将连续特征转换为二进制特征,并设计一种方法将生成的二进制 QCBM 输出(采样)转换为连续变量。整数和二进制特征可以视为连续特征的特例,类别特征可以通过一热编码转换为二进制特征。此方法可以实现为两步过程(算法 6):

  1. 将连续变量转换为相应的整数变量。

  2. 将整数变量转换为相应的二进制变量。

给定生成的二进制输出,可以使用相同的过程以反向模式生成连续样本(算法 7):

  1. 将生成的二进制 QCBM 输出转换为整数样本。

  2. 将整数样本转换为相应的连续样本。

--------------------------------------------------------------------- 算法 6:连续到整数到二进制转换(训练阶段)--------------------------------------------------------------------- 结果:将连续变量转换为 M 位二进制特征。((n))输入:Xreal(l) l=1,...,Nsamples;n=1,...,Nvariables - 连续数据样本。对于 n = 1,...,Nvariables 做:() | X (mni)n ← minl=1,...,Nsamples X (rnea)l(l) − 𝜖(nm)in, 如果 𝜖(nm)in ≥ 0 | (n) ((n)) (n) (n) | X max ← maxl=1,...,Nsamples X real(l) + 𝜖max, 如果 𝜖max ≥ 0 | | 对于 l = 1,...,Nsamples 做( ) | | (n) ( M ) X (nre)al(l)− X (mni)n | | X integer(l) ← int 2 − 1 ---(n)-----(n)- | | X max − X min | | (n) ((n)) | | Xbinary(l) ← bin X integer(l) | | 结束 结束 每个数据样本由一个 M 位二进制数表示,每一位成为一个独立的特征。特征总数为 M × Nvariables。---------------------------------------------------------------------

--------------------------------------------------------------------- 算法 7:二进制到整数到连续转换(采样阶段)--------------------------------------------------------------------- 结果:将生成的 M 位二进制样本转换为连续样本。( ^(n))输入:X[m] m=0,...,M −1;n=1,...,Nvariables - 生成的 M 位二进制样本。对于 n = 1,...,Nvariables 做 | (n) M∑−1 (n) | X^integer := 2m X | m=0 | (n) (n) 1 (n) ((n)) | ^X real ← X min +-M----X^integer Xm(na)x − X min | 2 − 1 结束 ---------------------------------------------------------------------

算法 6 和 7 描述了将连续变量转换为 M 位二进制变量,然后再转换回连续变量的过程[173]。需要特别注意参数 𝜖[min] 和 𝜖[max] 的作用。它们是非负的,并且扩展了变量定义的区间。在 𝜖[min] = 𝜖[max] = 0 的情况下,这个区间由训练数据集中的变量最小值和最大值决定。通过允许 𝜖[min] 和 𝜖[max] 取正值,我们可以扩展变量可以取值的区间。这使得模型能够生成更广泛的可能场景:在某些(小)概率下,生成的值可能会落在训练数据集样本所给出的区间之外。

二进制表示的精度是特征特定的。更重要的特征可以拥有更精细的表示。精度的正确选择对于具有有限量子寄存器的 NISQ 设备非常重要。例如,图 9.1 中所示的 QCBM 假设可以用来编码两个连续变量,每个变量使用 6 位二进制精度。或者,更重要的变量可以使用例如 8 位二进制精度进行编码,而较不重要的变量则只使用 4 位二进制精度。

图 9.2 演示了如何将来自 12 个量子寄存器的读出结果转化为由两个连续变量组成的样本:第一个变量的值被编码为一个 7 位二进制数,第二个变量的值被编码为一个 5 位二进制数。在这个例子中,我们假设两个变量都取值于区间 [−1,1]。

图 9.4:示例 QCBM 读出和数据变换,针对取值在区间 [−1,1] 的两个连续变量,并且我们设置了 𝜖[min] = 𝜖[max] = 0.

图 9.4:示例 QCBM 读出和数据变换,针对取值在区间 [−1,1] 的两个连续变量,并且我们设置了 𝜖[min] = 𝜖[max] = 0\。

9.2.2 选择合适的成本函数

QCBM 的可微学习遵循与训练量子神经网络相同的原则,详见第 8 章:通过梯度下降法最小化成本函数。主要的区别在于成本函数的形式。在基于 QNN 的分类器中,成本函数表示分类错误,而 QCBM 的成本函数表示两个概率分布之间的距离:训练数据集中的样本分布和生成数据集中的样本分布。

令 𝜃 表示可调节的 QCBM 参数集合,p𝜃 为 QCBM 分布,π(⋅) 为数据分布。那么我们可以将成本函数 L(𝜃) 定义为

 ∑ L (𝜃 ) := |p𝜃(x )− π(x)|, x

其中求和遍历数据集中的所有样本 x。这个成本函数是一个强有力的度量,但可能不是最容易处理的[73]。一个有效的替代选择是最大均值 偏差 [189]:

L(𝜃) := 𝔼 [K (x,y)]− 2 𝔼 [K (x,y)]+ 𝔼 [K (x,y)], x∼p𝜃,y∼p𝜃 x∼p𝜃,y∼π x∼π,y∼π

其中K(⋅,⋅)是核函数,即样本空间中点之间相似度的度量。一个流行的核函数选择是高斯混合模型:

 ∑ c ( 2) K (x,y) = 1- exp − ∥x−-y2∥-- , c i=1 2σi

对于某些c ∈ℕ,并且(σ[i])[i=1,…,c]是每个高斯核的带宽参数,∥⋅∥是L[2]范数。

我们还可以探索使用量子核的可能性。量子核在计算上难以处理的核函数上,相比经典方法可以提供一定的优势。例如,我们可以考虑一种非变分量子核方法[232],该方法利用量子电路 U(x)通过特征映射将真实数据映射到量子态|ϕ⟩:

|ϕ(x)⟩ = U(x) |0⟩⊗n .

核函数被定义为平方内积

K (x,y ) = |⟨ϕ(x)|ϕ (y )⟩ |2.

这个量子核在量子计算机上进行评估,而在经典计算机上则难以计算[129]。我们将在第十二章探讨各种模型的表达能力问题,并在第十三章对量子核方法进行详细分析。考虑到映射(9.2.2)并且表示|0⟩ = |0⟩^(⊗n),核函数变为

 † 2 K (x,y) = |⟨0|U (x )U(y) |0 ⟩|,

这是测量全零结果的概率。它可以通过在计算基底上测量运行电路 U(y)所得到的状态,再测量 U^†(x)的结果来计算。

9.3 非可微分的 QCBM 学习

我们为 QCBM 架构提出的硬件高效假设虽然简单直观,但可能容易受到贫瘠平台(即梯度消失的指数区域)的影响,这使得训练变得不可行[54, 139, 299]。这为探索非可微分学习的替代方法提供了强有力的动机,比如遗传算法。

9.3.1 遗传算法原理

遗传算法(GA)是一种强大的进化搜索启发式方法[214],它在第三章中进行了介绍。GA 通过维护一个给定问题的候选解(染色体)种群,进行多方向搜索。每个解在一个固定字母表中表示,并且具有既定的含义(基因)。种群经历模拟进化,较好的解决方案产生后代,继而替代较差的解,并且解决方案的质量通过某些目标函数(环境)进行估计。GA 已被应用于金融定量分析(如投资组合优化问题[172])以及绝热量子计算实验(作为经典基准[296])。

模拟过程分为三个基本步骤。在选择步骤中,通过随机抽样(有放回)形成新的种群。然后,新选中的种群成员会进行重组。最后,所有新的个体会重新评估。配对过程(重组)基于两种操作符:突变和交叉。突变向种群引入随机变异,而交叉则交换两个染色体的随机片段,旨在传播部分解决方案。

图 9.1 所示的 QCBM 训练过程包括找到旋转角度的最佳配置(𝜃[i]^j)[i=1,…,12; j=1,…,7],以最小化给定特定 2 量子比特门的成本函数。由于我们仅处理 84 个可调参数(而不是数万个),我们不需要实现交叉机制,可以依赖参数突变来实现遗传算法收敛到成本函数的最小值。这大大简化了算法。

9.3.2 使用遗传算法训练 QCBM

算法 8 概述了提出的方法。然而,在我们提供算法的正式描述之前,我们需要明确算法的主要组成部分。

  • 解决方案。 解决方案是一个 12 × 7 的旋转角度矩阵:

     ⌊ 1 7⌋ | 𝜃1 ... 𝜃1| 𝜃 = | ... ... ...| . ⌈ ⌉ 𝜃112 ... 𝜃712

    在遗传算法语言中,矩阵𝜃充当染色体的角色,而其组成部分𝜃[i]^j 充当单个基因的角色。

  • 突变。 基因可以在代际间发生突变。突变率可以是常数值,也可以随时间变化。例如,突变率可以从一个较大的值开始,然后以指数方式减小,使得每经过κ代,突变率减半。在算法 8 中,我们采用以下突变动态:

    • 旋转角度(基因)可以以相等的概率突变为任何允许的离散值。

    • 变异是由一个单一的全局参数 α ∈ (0,1] 控制的,该参数可以是常数,或者以某个固定的速率 β ≥ 0 逐渐减小。

    • 每一列的变异是独立发生的。

    • 对于 𝜃 中的每一列,在每一代中,以 α 的概率发生一次单一的旋转角度变异。所有旋转角度发生变异的概率相同。之后,以 α∕2 的概率发生另一次变异。再次地,所有旋转角度发生变异的概率相同。这确保了我们可以有这样的情况,即同一列中的两个旋转角度可以同时发生变异。

  • 搜索空间。 旋转角度 𝜃[i]^j 定义在 [−π,π] 范围内,我们将其分割成 2^m 个相等的子区间,使得 𝜃[i]^j 的可能取值为 (−π + nπ∕2(m−1))[n=0,…,2m−1]。一个旋转角度可以变异为这些值中的任何一个。即使对于相对较小的 m 值,搜索空间也可以迅速变得庞大。例如,对于 m = 7,每个旋转角度有 128 个可能的取值,使得可能的配置总数大约为 10¹⁷⁷。遗传算法只能探索搜索空间的极小部分。但由于遗传算法能够传播最佳解并避免陷入局部最小值,算法能够在接近全局最小值的区域内迅速收敛。关于遗传算法收敛速率的详细分析,感兴趣的读者可以参考 [130, 264]。

  • 成本函数。 成本函数是衡量生成样本的分布与训练数据集中原始样本分布之间差异的度量。设 u := (u[1],…,u[K]) 为来自训练数据集的样本,v(𝜃) := (v1,…,vK) 为来自 QCBM 生成数据集的样本,对应于某一特定的旋转角度配置 𝜃。我们将这些样本按从小到大的顺序排列,使用任何合适的 sort(⋅) 函数:

    -- -- u = sort(u), v(𝜃) = sort(v(𝜃 )).

    成本函数 L(⋅) 可以定义为

     K∑ -- -- 2 L (𝜃 ) := (uk − vk(𝜃 )) . k=1

在 (9.3.2) 中的 sort(⋅) 函数可以是,例如,快速排序 [137] 或归并排序 [166],它们属于分治算法类别。或者,它可以是例如堆排序 [303] —— 一种基于比较的排序算法。

--------------------------------------------------------------------- -算法---8:-遗传算法------------------------------------ 结果:最优配置的 QCBM 参数集𝜃∗,最小化代价函数。 输入: • u ∈ ℝK:样本训练数据集的向量; • L:迭代次数(代数); • M:当前代中选出的最佳解的数量,用于进一步变异; • N:每代中的解的数量(N = DM,D ∈ ℕ); • α,β:变异参数; • m:搜索空间参数。(旋转角度的可能值为− π + -νπ-- . 2m− 1 ν=0,...,2m− 1 初始化并评估第一代解:对于 n = 1,...,N,执行以下操作 | 随机抽取每个旋转角度𝜃j(0;n)在旋转角度的可能值集合上, | 并生成配置𝜃(0;n)。 | | 对于 k = 1,...,K,执行以下操作 | | 运行量子电路,使用配置𝜃(0;n)并 | | 生成新的样本 v(𝜃(0;n))。 | k | 结束 | 评估代价函数 L(𝜃(0;n))。 结束 将解从最优(代价函数最小)到最差(代价函数最大)进行排序。 𝜃∗ ← 对应于代价函数最小值的配置。 ---------------------------------------------------------------------

--------------------------------------------------------------------- --------------------------------------------------------------------- 迭代:对于 l = 1,...,L,执行以下操作 | −β | α ← αe | | 从上一代 l − 1 中选择 M 个最佳解并生成新的 | | 解(𝜃(l;n ))n=1,...,N,方法是通过使用更新后的变异率α来变换旋转角度。每一个 M 个最佳解都 | | 用于生成 D 个新的解。 | | 对于 n = 1,...,N,执行以下操作 | | 对于 k = 1,...,K,执行以下操作 | | | | | | 运行量子电路,使用𝜃(l;n)并生成新的 | | | 样本 vk(𝜃 (l;n))。 | | 结束 | | | | | 评估代价函数 L(𝜃(l;n))。 | 结束 | | 将解从最优(代价函数最小)到最差(代价函数最大)进行排序。 | | 𝜃∗(l) ← 对应于代价函数最小值的配置 | | (第 l 代)。 | | 如果 L(𝜃∗(l)) < L(𝜃∗),则 | 𝜃∗ ← 𝜃∗(l) | 结束 结束 ---------------------------------------------------------------------

在描述了训练算法之后,我们现在指定经典基准,然后再比较量子生成模型和经典生成模型在样本数据集上的结果。

9.4 经典基准

QCBM 与其经典对应物——限制玻尔兹曼机(RBM)之间存在深刻的联系 [60]。RBM 在量子退火的背景下被介绍并讨论,详见第五章,是一种受到统计物理启发的生成模型,其中某个特定数据样本 v 的概率由玻尔兹曼分布给出:

 1 − E(v) ℙ(v) = Ze .

这里,E(v)是数据样本的(正)能量(具有较低能量的数据样本具有较高的概率),Z是配分函数,即概率密度的归一化因子:

 ∑ Z = e−E(v). v

或者,我们可以利用量子力学固有的概率性质,利用量子态来建模概率分布 |ψ⟩

ℙ(v) = ⟨ψ|𝒫†v𝒫v |ψ ⟩,

其中𝒫[v]是第 1.2.3 节中介绍的测量算符,并且由于量子态 |ψ ⟩ 是单位向量,我们有

⟨ψ |ψ ⟩ = 1.

我们在量子电路 Born 机器(Quantum Circuit Born Machine, QCBM)中实现了这种方法,其中生成的概率密度建模被转化为学习一个量子态。QCBM 的参数化电路的唯一目的是生成量子态 |ψ ⟩,该态编码了从初始状态|0⟩^(⊗n)开始的期望概率分布,采样是通过施加测量算符来执行的。

因此,提供 QCBM 的经典基准的方法是找到一个合适的 RBM 配置,使我们能够比较生成概率分布ℙ(v)的两种方法:一种是由 (9.4) 产生的 RBM 方法,另一种是由 (9.4) 产生的 QCBM 方法 [170]。

图 9.5 展示了一个具有 12 个随机二进制可见激活单元和 7 个随机二进制隐藏激活单元的 RBM,其中 (a[i])[i=1,…,12],(b[j])[j=1,…,7] 和 (w[ij])[i=1,…,12; j=1,…,7] 分别表示可见层和隐藏层的偏置以及网络权重。

该网络架构使得 RBM 等价于 QCBM,如第 9.1 节中所述,因为这两种生成模型具有相同数量的可调参数(RBM 的权重数量等于 QCBM 中可调旋转角度的数量),并且可见激活单元的数量等于量子寄存器的数量。后者确保这两种生成模型能够以相同的精度(12 位二进制表示)学习连续随机变量的经验分布。

图 9.5: RBM(12, 7).

图 9.5: RBM(12, 7).

QCBM 的性能应与其经典对应物——限制玻尔兹曼机(RBM)的性能进行比较。两种模型都在数据集的二进制表示上操作,并且具有相似数量的可调参数。

9.5 QCBM 作为市场生成器

QCBM 最明显的金融应用是作为市场生成器。例如,从风险因子的联合分布中抽样,进行高效的现实市场情境生成,是今天定量金融领域中最重要和最具挑战性的问题之一。因此,我们需要调查 QCBM 如何执行这一任务,并将其与经典基准进行比较。

9.5.1 市场风险因子的非参数建模

从历史上看,解决生成可靠的合成市场情境的问题通常是通过从一些易于校准的参数模型中进行抽样来完成的,例如风险因子对数收益(股票)的多元正态分布,或结合多元正态依赖结构和单个风险因子的重尾单变量边际分布(信用)的高斯 copula。然而,这种方法存在一些众所周知的问题,这些问题往往超过了其在简洁性和透明性上的优势[217]。

参数模型往往是现实的一个较差近似。为了有效,它必须相对简单:应该能够用少量参数描述风险因子分布的关键特征,从而最好地拟合从历史数据中推导出的经验分布或从市场中观察到的交易工具价格(在模型校准时)。将参数模型做得过于复杂会导致过拟合和较差的泛化能力。

建模一个现实的依赖结构更为困难。大多数蒙特卡洛风险引擎中常用的典型参数化方法是首先独立地建模各种风险因子的动态,然后通过相关相应的随机驱动因素来强加一个依赖结构。这些驱动因素几乎总是布朗运动,它们之间的线性相关性应该足以构建风险因子的联合分布。

一种替代方法是使用非参数建模,其中风险因子的联合分布和边际分布是直接从可用数据集学习得出的。经典地,我们可以借助限制玻尔兹曼机(Restricted Boltzmann Machine)来实现这一方法——前一节中描述的经典基准,且已成功应用于多个金融案例[173, 174]。另一种可能性是使用生成对抗网络(GAN)框架,其中通过生成神经网络从数据集中学习到的分布被判别神经网络测试,后者试图判断样本是来自真实分布(数据)还是来自重建分布(生成的样本)[114]。

第 12 章探讨了 QCBM 在表达能力上与经典神经网络(RBM)相比的问题。然而,第一步应该是对它们的性能特征进行实验验证。考虑到这一点,我们希望测试 QCBM 和 RBM 在学习相对复杂的概率分布方面的能力,然后高效地从中采样。

9.5.2 从学习到的概率分布中采样

我们将测试 QCBM 和 RBM 在两个数据集上的表现:

  • 数据集 A。2009 年 1 月 5 日至 2011 年 2 月 22 日之间观察到的 S&P 500 指数回报的重尾分布(UCI 机器学习库 [10, 9])。数据集包含 536 个样本。

  • 数据集 B。一个特别构造的连续随机变量分布,具有高度尖锐的概率密度函数(pdf),该分布被建模为多个正态分布的混合。数据集由 5,000 个样本组成,这些样本来自四个正态分布的混合,具有以下均值、标准差和权重:

    均值 标准差 权重
    −3 0.3 0.1
    −1 0.3 0.2
    1 0.3 0.3
    3 0.3 0.4

    表 9.1:标准正态分布混合的参数。

在这两种情况下,我们将连续样本转换为相应的 12 位二进制表示,按照算法 6。一旦网络训练完成(QCBM 使用算法 8,RBM 使用算法 2),我们生成新样本:数据集 A 生成 536 个新样本,数据集 B 生成 5,000 个新样本。这使我们能够通过生成经验 pdf 和 QQ 图来可视化生成样本的质量,正如图 9.6 和 9.7 所示,它们展示了完全训练模型的样本模拟结果。我们可以看到,QCBM(12, 7) 和 RBM(12, 7) 都能成功学习复杂的经验分布(数据集 A 为重尾分布,数据集 B 为轻尾且具有尖锐 pdf 的分布)。我们选择了 CX 门作为 QCBM 中的固定门,并使用 Qiskit 量子模拟器来模拟训练和采样算法中的量子部分。

以下超参数集用于训练模型:

  • 用于训练 QCBM 的遗传算法(算法 8 N = 1000, M = 25, m = 7, α = 1.0, β = 0.013863, κ = 50, L = 200。β 的值确保每隔 κ 代变异率减半。

  • 用于训练 RBM 的对比散度算法 (sklearn.neural_network.BernoulliRBM)

    n_components = 7 – RBM(12, 7) 的隐藏激活单元数

尽管从图 9.6 和图 9.7 中的概率密度函数(pdf)和 QQ 图来看,QCBM 和 RBM 都在从学习到的经验分布中生成高质量样本方面表现良好,但我们希望能有一个更客观的模型性能衡量标准。特别是在我们处理生成模型时,单次模型运行得出的结论非常有限。

针对某一特定模型参数配置(例如,通过遗传算法(GA)找到的最优旋转角度集)多次运行量子电路,会产生目标函数值的分布。这使我们能够了解可以用来衡量 QCBM 和 RBM 性能的度量标准[170]。我们在训练 QCBM 时使用的成本函数(9.3.2)可以通过 RBM 生成的样本计算得到。换句话说,我们可以通过比较这两种模型生成的样本计算出的成本函数值的分布,来比较 QCBM 和 RBM 的性能。

表 9.2 展示了针对 QCBM(12, 7) 和 RBM(12, 7) 进行 100 次训练的成本函数的均值和标准差。每次训练都从学习到的经验分布中生成 5000 个样本(模型是在数据集 B 上训练的,数据集 B 包含 5000 个来自四个正态分布混合的样本)。

模型 平均值 标准差
QCBM(12, 7) 30.5 23.6
RBM(12, 7) 39.6 30.8

表 9.2:在数据集 B 上训练的模型的成本函数统计数据。

从表 9.2 可以明显看出,QCBM(12, 7) 在使用弱优化的超参数设置时,比使用同样弱优化的超参数(较小的学习率与较大的迭代次数以及小批量的大小[134])训练的 RBM(12, 7) 表现更好。虽然这不能视为量子优势的确凿证据,但它无疑为有前景的进一步研究开辟了大门。

图 9.6:正态分布混合模型。

图 9.6:正态分布混合模型。

图 9.7:标准普尔 500 指数回报分布。

图 9.7:标准普尔 500 指数回报分布。

现在让我们关注数据集 A。该数据集仅包含 536 个样本,正如我们在图 9.7 中看到的,经验概率密度函数显示出明显的重尾现象,这在与正态分布的 QQ 图中也清晰可见。样本数量相对较少意味着我们必须处理大量噪声。因此,我们需要使用稳健的统计检验来比较 QCBM 和 RBM。由于我们处理的是单变量分布,因此我们可以使用 Kolmogorov-Smirnov 检验[233]来估算生成样本的质量。

表格 9.3 提供了 RBM 和 QCBM 生成的样本的 p 值和 Kolmogorov-Smirnov 统计量,以及通过匹配前两个矩得到的拟合到原始数据集的正态分布。p 值表示获得支持零假设的测试结果的概率,即两个数据集来自相同分布的概率。在我们的数值实验中,p 值越大,生成的样本越可能来自正确的分布。

分布 p 值 K-S 统计量
正态分布 0.004 ± 0.009 0.121 ± 0.017
RBM 生成样本 0.46 ± 0.23 0.055 ± 0.011
QCBM 生成样本 0.46 ± 0.11 0.053 ± 0.005

表格 9.3:正态分布、RBM 和 QCBM 生成样本的 p 值和 K-S 统计量,格式为:均值 ± 标准差。正态分布、RBM 和 QCBM 生成的数据集数量:20。每个生成的数据集的样本数:536(与原始数据集中的样本数相等)。

K-S 统计量取所有随机变量值下两个分布函数之间的最大绝对差。K-S 统计量越大,生成样本来自正确分布的可能性就越小。K-S 统计量可以与给定置信水平和样本数量计算得到的临界值进行比较。例如,对应于 95%置信水平和 536 个样本的临界值是 0.0587。如果 K-S 统计量较大,那么我们可以以 95%的置信度拒绝“536 个生成样本来自正确分布”的零假设。

第一个观察结果是,我们可以明确拒绝“每日 S&P 500 指数回报服从正态分布”的零假设。相应的 p 值远小于 1,K-S 统计量是临界值的两倍。更重要的是,QCBM 在 p 值和 K-S 统计量方面的表现与 RBM 相当:因此我们无法拒绝 QCBM 和 RBM 生成的样本来自与原始数据集相同分布的零假设。

9.5.3 训练算法收敛性和超参数优化

接下来,我们希望探讨 GA 在不同模型配置下的表现。特别是,调查不同类型固定门(不仅仅是 CX)和不同变异率选择下的算法收敛性是非常有趣的。图 9.8 中的图表确认了我们的直觉:给定单量子比特门的配置(图 9.1),CX 是最佳的固定门选择,而指数衰减的变异率优于常数变异率。这里,我们继续使用数据集 B。

正如我们在图 9.1 中所见,固定门两侧是执行绕 z 轴旋转的单量子比特门。因此,通过 ϕ = π 进行的绕 z 轴旋转(Z = RZ)可能无法提供与绕 x 轴旋转(X = RX)相同的灵活性。绕 z 轴的控制旋转角度 ϕ < π 可能表现得更差。这正是我们在图 9.8(左图)中对三种不同类型的固定门(CX、CZ 和 CRZ)所看到的情况。

我们对变异率最佳选择的直觉表明,开始时使用一个非常大的变异率应该是有益的,以便尽可能广泛地探索搜索空间(“探索”阶段)。然后,随着算法逐步找到更好的解决方案,减少变异率应该会更有利,以便在找到的最佳解决方案附近进行更详细的搜索(“开发”阶段)。随着算法的收敛,我们可能希望通过仅变异一个或两个参数来进行越来越精细的搜索。图 9.8(右图)显示了这一点。这里,变异率的最大值为 α = 1.0,最小值为 α = 0.0625——这是在变异率初始值 α = 1.0 和指数衰减因子 β = 0.013863 的条件下,算法经过 L = 200 次迭代后达到的值。

图 9.8:左图:GA 收敛性与固定门类型的关系。右图:GA 收敛性与 CX 固定门的变异率关系。圆点表示均值,误差条表示第 10 和第 90 百分位数。GA 参数:N = 1000,M = 25,m = 7,进行 20 次 GA 运行。

图 9.8:左图:GA 收敛性与固定门类型的关系。右图:GA 收敛性与 CX 固定门的变异率关系。圆点表示均值,误差条表示第 10 和第 90 百分位数。GA 参数:N = 1000,M = 25,m = 7,进行 20 次 GA 运行。

最后,我们需要研究算法的收敛性,作为旋转角度离散化方案的函数。从原则上讲,任意旋转都会带来问题,因为它必须通过一系列离散门进行逼近,因为只有离散的门集合才能够容错实现 [180]。由于遗传算法(GA)在离散的旋转角度集合上运行,我们面临一个折衷问题,即通过更精细的离散化方案实现更高的精度,还是在较不精细的旋转角度集合下提高实现效率。此外,所有旋转门都可以在有限精度下执行,离散化方案应该考虑到这一点。因此,为了促进旋转门 RX 和 RZ 的高效实现,GA 在取离散值的旋转角度 𝜃 上运行,这些值为 (−π + νπ∕2(m−1))[ν=0,…,2m−1],从而将 [−π,π] 区间分成 2^m 个相等的子区间。

因此,我们必须回答关于 GA 收敛性的问题,针对不同的 m 值。图 9.9 显示了目标函数的最小值(9.3.2)作为算法迭代次数的函数,对于三种不同的 m 值:

  • m = 3,旋转角度步长 Δ𝜃 = π∕4;

  • m = 5,旋转角度步长 Δ𝜃 = π∕16;

  • m = 7,旋转角度步长 Δ𝜃 = π∕64。

我们可以看到,当 m > 5 时,GA 的性能仅有轻微提升。这是个好消息,表明使用旋转角度步长 Δ𝜃 = π∕16 就足以在学习目标分布时达到期望的精度。

图 9.9:GA 收敛性作为旋转角度离散化方案的函数,针对固定的 CX 门和指数下降的突变率。点表示平均值,误差条表示 10th 和 90th 百分位数。GA 参数:N = 1000,M = 25,α = 1.0,β = 0.013863,进行 20 次 GA 运行。

图 9.9:GA 收敛性作为旋转角度离散化方案的函数,针对固定的 CX 门和指数下降的突变率。点表示平均值,误差条表示 10th 和 90th 百分位数。GA 参数:N = 1000,M = 25,α = 1.0,β = 0.013863,进行 20 次 GA 运行。

使用遗传算法(GA)进行 QCBM 的非可微学习是一种可行的 PQC 训练方法。用 GA 训练的 QCBM 至少能够与等效的经典神经网络(RBM)表现相当。QCBM 和其经典对比模型在两个不同的数据集上进行了测试(分别来源于金融时间序列的重尾分布样本和从特别构造的分布中提取的轻尾分布样本,并且其概率密度函数为尖峰型),在这两种情况下,QCBM 都展示了它学习经验分布并生成新的合成样本的能力,这些新样本具有与原始样本相同的统计特性,如概率密度函数和 QQ 图所示。

分析不同超参数集的遗传算法收敛性时,我们观察到最佳结果是在 CX 固定门和指数衰减的变异率下实现的(从变异率的最大值开始,并将衰减率设置为一个合理的小值)。更重要的是,我们发现,更细粒度的旋转角度离散化方案在某个临界点之后提供的增量价值逐渐减小。这意味着,对于许多实际应用而言,实现Δ𝜃 = π∕16 的旋转即可,在足够深的 QCBM 架构中(至少两层固定 2 量子比特门)就能以所需的准确度编码目标分布。由于在 NISQ 设备上量子比特旋转可以实现有限精度,这确保了 QCBM 可以在许多实际应用中有效使用。

QCBM 是构建市场生成器的可行选择。它的表现至少与其经典对手 RBM 相当,并展示了在近端量子处理器上实现量子优势的潜力。

摘要

在本章中,我们学习了如何构建和训练一个生成型 QML 模型——量子电路出生机。我们从 PQC 作为生成模型的总体概念开始,在该模型中,读取操作从 PQC 参数中编码的概率分布中生成一个样本。

接下来,我们介绍了硬件高效 PQC 假设的概念。此外,为了构建一个与 QPU 连接性兼容并且能轻松嵌入 QPU 图的模型,我们尝试使用给定系统的原生量子门集中的可调(单量子比特)和固定(双量子比特)门。

接下来,我们研究了可微分和不可微分的学习算法,并进行了使用遗传算法训练的 QCBM 实验。与经典基准(RBM)的比较展示了量子生成 QML 模型实现量子优势的现实可能性。

最后,我们探讨了不同模型参数集的训练算法收敛性问题。

在下一章中,我们将研究另一种重要且极具潜力的 QML 模型——变分量子特征求解器。

加入我们书籍的 Discord 空间

加入我们的 Discord 社区,与志同道合的人交流,并与超过 2000 名成员一起学习,网址:packt.link/quantum

PIC

第十章:变分量子本征求解器

参数化量子电路可以在量子机器学习之外找到许多潜在应用,这些应用超出了前几章讨论的用例。它们可以用来解决如投资组合优化[168]和蛋白质折叠[248]等多种不同问题。然而,无论具体的算法细节如何,有一个方面始终相同:通过最优的 PQC 配置(假设)和可调 PQC 参数集来构建具有所需特性的量子态。反过来,这通常是通过最小化某些成本函数来完成的——例如,在 QNN 分类器的情况下,它可以是分类错误;在 QCBM 的情况下,它可以是两个分布之间的距离。

变分量子本征求解器(VQE)是一种基于量子电路的算法,旨在找到问题哈密顿量的最小本征值(最低能量)。正如我们在第三章中了解到的,许多 NP 难度的组合优化问题的目标函数可以编码在量子系统的哈密顿量中——因此,找到哈密顿量的基态可以为我们提供目标函数的最小值。VQE 最早在[231]中提出,并迅速成为实验解决 NISQ 设备上可解的各种优化问题的最流行工具之一[153,215]。该算法的变分部分指的是通过尝试不同的量子电路(PQC)假设和可调 PQC 参数配置,系统地搜索基态的最佳近似——即变分方法。

10.1 变分方法

让我们首先回顾一下训练判别性(QNN)和生成性(QCBM)模型的细节。在这两种情况下,我们的任务是找到 PQC 参数的最佳配置(例如,可调单量子比特门的旋转角度),以使得得到的量子态具有所需的特性:我们可以从编码的概率分布中采样(生成模型)或为给定的样本获取类别标签(判别模型)。寻找 PQC 参数的最佳配置的过程在处理量子机器学习用例时称为学习。这种学习可以是可微分的,也可以是不可微分的,但它总是通过改变可调电路参数来最小化某些成本函数。

如果我们想要最小化的成本函数被编码在问题哈密顿量中,并且任务被表述为寻找它的基态呢?在第三章中,我们看到了如何在量子退火机上解决这个问题。但在 PQC 框架内,也可以使用门模型量子计算机找到量子系统的最低能量态(或者至少是一个好的近似)。

哈密顿量 ℋ 的特征方程为

ℋ |ψi⟩ = Ei |ψi⟩,

其中 |ψi⟩ 是与特征值 E[i] 相关的特征态。目标是找到 ℋ 的最小特征值 E[0](最低能量),对应于基态(最低能量态)|ψ0 ⟩。如果基态已知,这将是一个简单的任务,因为 ℋ 的特征值(能量)实际上就是 ℋ 的期望值:

⟨ψi|ℋ |ψi⟩ = ⟨ψi|Ei |ψi⟩ = Ei ⟨ψi|ψi⟩ = Ei.

我们将在下面解释如何在量子计算机上计算这个期望值。然而,在大多数情况下,基态是未知的。实际上,任务是通过寻找能够最小化 ℋ 的期望值的状态来找到基态,从而编码优化问题的解决方案。我们可以做的是构造一个逐步改进的基态近似,从而为基态能量 E[0] 提供一个越来越紧的上界。

变分方法的动机来源于第一章中引入的谱定理,它允许我们将厄米哈密顿量 ℋ 展开为

 ∑ ℋ = Ei |ψi⟩⟨ψi|. i

假设我们构造了一个状态 |ψ⟩,它是实际基态 |ψ0 ⟩ 的近似。正如我们在第一章中所知道的,ℋ 在状态 |ψ ⟩ 中的期望值是 ⟨ψ|ℋ|ψ⟩。将 (10.1) 中给出的 ℋ 代入其中,通过线性运算,我们得到

 ( ) ∑ ⟨ψ|ℋ |ψ⟩ = ⟨ψ| Ei |ψi⟩⟨ψi| |ψ⟩ ∑ i ∑ = Ei ⟨ψ|ψi⟩⟨ψi|ψ ⟩ = Ei|⟨ψ,ψi⟩|2 . i i

表达式 (10.1) 显示,ℋ 在任何状态 |ψ⟩ 中的期望值可以表示为 ℋ 的特征值的线性组合,所有权重都大于或等于零,因为 |⟨ψ, ψ ⟩ i|² ≥ 0 对于每个 i 都成立。因此,我们得到

⟨ψ|ℋ |ψ ⟩ ≥ E0,

因为 E[0] 是 ℋ 的最小特征值,并且线性组合中的所有系数(权重)(10.1)都是非负的。

PQC 的作用是生成候选态 |ψ ⟩。算法的变分部分由候选态的迭代改进(可调参数的迭代更新)组成。这是可以作为混合量子-经典协议中的经典部分来执行的。算法的量子部分包括运行 PQC,然后在构建的量子态上测量 ℋ,以获得 ℋ 的期望值。

变分方法使我们能够在数字门模型量子计算机上求解编码在哈密顿量中的困难优化问题——这是与绝热量子计算的替代方案,因为并非所有优化问题都能有效地以 QUBO 格式表述。

10.2 在量子计算机上计算期望值

VQE 算法的关键元素是期望值的计算。我们现在展示如何在量子计算机上执行这一过程。我们从单量子比特情况开始,然后将所提出的方法推广到双量子比特和多量子比特的情况。

10.2.1 单量子比特情况

考虑最简单的单量子比特系统的情况。由于任何 2 × 2 单位矩阵和厄米矩阵都可以始终分解为 Pauli 矩阵 X、Y、Z 以及单位矩阵 I 的和(在第 10.2.3 节中有更多讨论),我们可以将任何单量子比特哈密顿量表示为

ℋ = aX + bY + cZ + dI,

其中 abcd 是一些实系数。对于给定的态 |ψ ⟩,哈密顿量的期望值(10.2.1)为

⟨ℋ ⟩ ≡ ⟨ψ |ℋ |ψ ⟩ = a ⟨ψ|X |ψ ⟩+ b⟨ψ |Y |ψ⟩ + c⟨ψ|Z |ψ ⟩+ d⟨ψ |I |ψ⟩ .

ℋ 的期望值是通过将其所有项的期望值相加来计算的,这意味着我们可以独立地计算 Pauli 项的期望值,然后将它们相加以得到 ⟨ℋ ⟩。我们可以通过首先构建态 |ψ ⟩(利用 PQC 的帮助)并在计算基上执行测量来完成这一过程。构建态和执行测量的过程应当重复足够多次,以获得准确的统计数据。让我们逐项查看哈密顿量的项(10.2.1),看看如何执行。

我们从最后一项开始,它是单位算符 I 乘以系数 d。这是一个简单的情况,我们甚至不需要运行量子电路来计算其期望值,因为 I 的期望值为 1:

⟨ψ|I |ψ⟩ = ⟨ψ |ψ ⟩ = 1,

因此,这一项将对 ⟨ℋ ⟩ 贡献 d

现在我们转向下一个项 cZ。测量在计算基进行,这是 z 基。在该基中,|ψ⟩ 可以表示为基态 |0⟩|1⟩ 的叠加态,如下所示

|ψ ⟩ = αz |0⟩+ βz |1⟩,

α[z][z] ∈ℂ。期望 ⟨ψ|Z|ψ⟩ 然后计算为

ψ|Z|ψ ⟩ = |α[z]|² ⟨0|Z|0⟩ + α [z]^∗β [z] ⟨0|Z|1⟩ + α[z]β[z]^∗⟨1|Z|0⟩ + |β [z]|² ⟨1|Z|1⟩
= |α[z]|²⟨0|0⟩α [z]^∗β [z]⟨0|1⟩ + α[z]β[z]^∗⟨1|0⟩−|β [z]|²⟨1|1⟩
= |α[z]|² −|β [z]|²,

使用 Z 门的定义(第六章)和基态的正交性。

根据定义,|α[z]|² 和 |β[z]|² 是在 z 基测量后,量子态|ψ ⟩ 分别变为 |0⟩|1⟩ 的概率。为了求得该值,我们应当运行量子电路(构造态 |ψ⟩),然后进行N次测量。找到量子比特处于状态 |0⟩ 的概率估计为 n[0]∕N,其中 n[0] 是测量到状态 |0⟩ 的次数。类似地,找到量子比特处于状态 |1⟩ 的概率可以估计为 n[1]∕N,其中 n[1] 是测量到状态 |1⟩ 的次数。

因此,Z 项对 ⟨ℋ ⟩ 的贡献为

c⟨ψ|Z |ψ⟩ = cn0 −-n1-. N

现在我们可以转向右侧的前两个项 (10.2.1)。回想一下,|0⟩|1⟩ 是 Z 的本征态,具有对应的本征值 +1 和 −1,即

Z |0⟩ = |0⟩ 和 Z |1⟩ = − |1⟩.

此外,X 的本征态是

 |0⟩+ |1⟩ |0⟩− |1⟩ |+ ⟩ = --√----- 和 |− ⟩ =---√----, 2 2

Y 的本征态是

 |0⟩+ i |1⟩ |0⟩− i |1⟩ |R⟩ = ---√----- 和 |L⟩ = ---√-----. 2 2

它们对应的本征值也是 +1 和 −1,因此

X |+ ⟩ = |+ ⟩, X |− ⟩ = − |− ⟩, Y |R ⟩ = |R⟩ , Y |L⟩ = − |L⟩.

因此,量子态 |ψ ⟩ 也可以分解为基态的叠加,{|R ⟩,|L⟩} (y-基) 和 {|+⟩,|− ⟩} (x-基):

|ψ ⟩ = αx |+⟩ + βx |− ⟩ = αy |R⟩+ βy |L⟩.

如果我们能够在 x-基和 y-基中进行测量,期望值 ⟨ψ|X|ψ⟩ 和 ⟨ψ|Y|ψ ⟩ 可以以与期望值 ⟨ψ|Z|ψ⟩ 相同的方式计算,即

a ⟨ψ|X |ψ ⟩ = a n+-−-n−-, b⟨ψ|Y |ψ ⟩ = b nR-−-nL. N N

这里,n[+] 和 n[−] 分别是对应于 x-基中 |+ ⟩|− ⟩ 测量结果的次数,n[R] 和 n[L] 分别是对应于 y-基中 |R⟩|L ⟩ 测量结果的次数。

然而,可能我们只能在 z-基中进行测量。在这种情况下,我们需要在测量前对 |ψ⟩ 应用一些附加的门,以使在 z-基中测量 |0⟩ 的概率与在 x-基中测量 |+ ⟩ 的概率相同,如果我们在计算 ⟨ψ|X|ψ⟩,或者在 z-基中测量 |0⟩ 的概率与在 y-基中测量 |R⟩ 的概率相同,如果我们在计算 ⟨ψ|Y|ψ⟩。这些门记作 H 和 G,得到

H |ψ⟩ = H(αx |+ ⟩+ βx |− ⟩) = αx |0⟩ + βx |1⟩,

使用 H|+ ⟩ = |0⟩ 和 H|− ⟩ = |1⟩,并且

G |ψ⟩ = G(αy |R⟩ + βy |L⟩) = αy |0⟩+ βy |1⟩,

使用 G|R ⟩ = |0 ⟩ 和 G|L ⟩ = |1⟩

运算符 H(即哈达玛尔运算符)和 G 的矩阵表示为

 ⌊ ⌋ ⌊ ⌋ -1- 1 1 -1- 1 − i H = √2--⌈ ⌉ and G = √2-⌈ ⌉ . 1 − 1 1 i

10.2.2 两个量子比特的情况

如果问题的哈密顿量包含涉及多个量子比特的项怎么办?考虑一个包含保利矩阵张量积的哈密顿量,如 X⊗Y, Y⊗Z 等。一般方法保持不变:哈密顿量的期望值由所有项的期望值之和组成。因此,我们需要知道如何计算保利矩阵乘积的期望值。为了不失一般性,考虑 X⊗Y 这一项——相同的逻辑适用于所有其他保利张量积。

记住,X⊗Y 是两个保利算符 X 和 Y 的张量积,每个算符作用于各自的量子比特,而不是将 X 和 Y 门按顺序应用于同一个量子比特。事实上,考虑两个单位算符 U[1] 和 U[2],张量积 U[1] ⊗U[2] 在二量子比特系统的状态上作用如下

 ( ) ( ) (U1 ⊗ U2) |ψ1⟩ ⊗ |ψ2 ⟩ = U1 |ψ1⟩ ⊗ U2 |ψ2 ⟩ .

我们立即从 (10.2.2) 看到,X 和 Y 的特征向量的张量积是 X⊗Y 的特征向量。事实上,如果 U|ψU ⟩ = E[U]|ψU⟩,其中 E[U] ∈ℂ,且 U ∈{X,Y},则

(X⊗ Y) |ψX⟩⊗ |ψY⟩ = X |ψX⟩⊗ Y |ψY ⟩ = EX |ψX⟩⊗ EY |ψY⟩ = EXEY |ψX ⟩⊗ |ψY ⟩.

我们还记得所有保利算符的特征向量的特征值要么是 +1,要么是 −1(详细信息见 (10.2.1) 和 (10.2.1))。现在,对于 X⊗Y 保利项,特征值为 +1 的特征向量是

|+ ⟩⊗ |R⟩ = |+R ⟩ 和 |− ⟩ ⊗ |L⟩ = |− L⟩,

而特征值为 −1 的特征向量是

|+ ⟩⊗ |L⟩ = |+L ⟩ 和 |− ⟩⊗ |R ⟩ = |− R⟩,

这些直接来自于计算结果

(X⊗ Y) |+R ⟩ = (X⊗ Y) |+⟩⊗ |R ⟩ = X |+⟩ ⊗ Y |R ⟩ = |+ ⟩⊗ |R⟩ = |+R ⟩, (X⊗ Y) |+L ⟩ = (X⊗ Y) |+ ⟩⊗ |L⟩ = X |+ ⟩⊗ Y |L⟩ = |+ ⟩⊗ (− |L⟩) = − |+L ⟩, (X⊗ Y) |− R⟩ = (X⊗ Y) |− ⟩⊗ |R ⟩ = X |− ⟩ ⊗ Y |R ⟩ = (− |− ⟩)⊗ |R ⟩ = − |− R⟩ , (X⊗ Y) |− L⟩ = (X⊗ Y) |− ⟩⊗ |L⟩ = X |− ⟩⊗ Y |L⟩ = (− |− ⟩) ⊗ (− |L ⟩) = |− L⟩.

让我们写出二量子比特系统的量子态表示 |ψ ⟩ = |ψ1⟩|ψ2 ⟩ 在 X⊗Y 特征向量基底下的表示:

|ψ⟩ = |ψ1⟩⊗ |ψ2⟩ = (αx |+ ⟩+ βx |− ⟩)⊗ (αy |R ⟩+ βy |L⟩) = αxαy |+R ⟩+ αxβy |+L ⟩+ βxαy |− R ⟩+ βxβy |− L ⟩,

其中 (α[x][x][y][y]) ∈ℂ⁴。我们希望应用一个算符,使得我们可以在 z 基底下进行测量,同时相应态的概率幅保持不变。很容易看出,这个算符是 H 和 G 门的张量积:

(H⊗G)|ψ⟩ = (H⊗G)(αx αy |+R ⟩ + αxβy |+L ⟩+ βxαy |− R⟩ + βxβy |− L⟩)
= α[x]αy|+ ⟩|R ⟩ + α[x]βy|+ ⟩|L ⟩
+ β[x]αy|− ⟩|R⟩ + β[x]βy|− ⟩|L⟩
= α[x]αy⊗G|R⟩) + α[x]βy⊗G|L ⟩)
+ β[x]αy⊗G|R⟩) + β[x]βy⊗G|L⟩)
= α[x]αy⊗|0⟩) + α[x]βy⊗|1⟩) + β[x]αy⊗|0⟩) + β[x]βy⊗|1⟩)
= α[x]α[y]|00⟩ + α[x]β[y]|01⟩ + β[x]α[y]|10⟩ + β[x]β[y]|11⟩.

Z⊗Z 的本征值对应于本征态 {|00⟩,|01 ⟩,|10⟩,|11⟩},与 X⊗Y 对应的本征值相同,本征态为 {|+R ⟩,|+L ⟩,|− R⟩,|− L⟩}:

(Z⊗ Z) |00⟩ = (Z⊗ Z ) |0⟩⊗ |0⟩ = Z |0⟩⊗ Z |0⟩ = |0⟩⊗ |0⟩ = |00⟩ , (Z⊗ Z) |01⟩ = (Z⊗ Z ) |0⟩⊗ |1⟩ = Z |0⟩⊗ Z |1⟩ = |0⟩⊗ (− |1⟩) = − |01⟩, (Z⊗ Z) |10⟩ = (Z⊗ Z ) |1⟩⊗ |0⟩ = Z |1⟩⊗ Z |0⟩ = (− |1⟩) ⊗ |0⟩ = − |10⟩, (Z⊗ Z) |11⟩ = (Z⊗ Z ) |1⟩⊗ |1⟩ = Z |1⟩⊗ Z |1⟩ = (− |1⟩) ⊗ (− |1⟩) = |11⟩.

因此,期望 ⟨ϕ|Z⊗Z|ϕ⟩,其中

|ϕ⟩ = αxαy |00⟩ + αxβy |01 ⟩+ βxαy |10⟩+ βxβy |11 ⟩,

z 基础上给出的

|α α |2 − |α β |2 − |β α |2 + |β β |2. x y x y x y x y

概率的值 |α[x]α[y]|², |α[x]β[y]|², |β[x]α[y]|², 和 |β[x]β[y]|² 可以通过量子计算机按与一比特情况相同的方式计算得出。通过统计结果的数量 n[ij](对于 i,j ∈{0,1},其中 ∑ [i,j∈{0,1}]n*[ij] = N),X⊗Y 的期望值为

⟨X ⊗ Y⟩ = n00 −-n01-−-n10 +-n11. N

10.2.3 多量子比特情况

将这种方法扩展到更复杂的保利乘积和更大的哈密顿量是简单的,因为任何哈密顿量都可以表示为

 ∑ i i ∑ ij i j ℋ = hα σα + hαβσ ασβ + ... iα ijαβ

对于实数 h,其中上标 i,j,… 标识算符作用的子系统(量子比特),下标 α,β,… 标识保利算符。例如,i = 1, α = x,且 σ[x]¹ = X 作用于量子比特 1。对于这个展开式的有效性,不需要对厄米哈密顿量的维度或结构做任何假设 [231]。

我们已经使用了量子可观察量的线性特性,这使我们能够将哈密顿量的期望值计算为各个项期望值的总和:

 ∑ i⟨ i⟩ ∑ ij ⟨ i j⟩ ⟨ℋ⟩ = h α σα + hαβ σασβ + ... iα ijαβ

只要我们考虑可以写成关于系统大小的多项式项数的哈密顿量,评估⟨ℋ⟩就简化为一些量子态|ψ ⟩的简单保利算符的期望值之和,并乘以一些实常数。正如我们上面所见,量子计算机可以高效地评估任意数量简单保利算符的张量积的期望值[227]。

量子计算机可以用来高效地计算由保利算符的张量积组成的哈密顿量的期望值。任何哈密顿量都可以表示为保利算符(X、Y、Z 和 I 门)的张量积之和。

10.3 构建 PQC

如何构建用于计算期望值的高质量候选态是一个至关重要的问题。除非我们对基态以及在 n 量子比特系统的希尔伯特空间中查找基态的位置有一定的先验知识,否则首要任务是生成一系列候选态,这些态能够覆盖整个希尔伯特空间,而不会在任何一个区域过于集中。让我们看看如何在单量子比特和多量子比特系统中实现这一点。

10.3.1 单量子比特的 Ansatz

我们回到布洛赫球,它可视化了单量子比特系统的可能状态。图 10.1 展示了量子比特状态如何从其初始状态|0⟩变化到中间状态|ψi⟩,然后通过绕 y 轴旋转,再绕 z 轴旋转,最终到达状态|ψf⟩

图 10.1:布洛赫球:单量子比特旋转的可视化。

图 10.1:布洛赫球:单量子比特旋转的可视化。

|0⟩开始,通过绕任何两条正交轴旋转两次,可以到达布洛赫球上的任何一点。相应的电路如图 10.2 所示。

图 10.2:单量子比特系统的 PQC。

图 10.2:单量子比特系统的 PQC。

如图 10.2 所示的 PQC 是在单量子比特情况下,如果问题哈密顿量中仅包含 Z 和 I 项时我们所需的一切。如果我们想要计算 X 项的期望值,我们必须在电路中添加一个 H 门,如图 10.3 所示。

图 10.3:使用 H 门的 PQC 来计算 ⟨X⟩。

图 10.3:使用 H 门的 PQC 来计算⟨X⟩

类似地,如果我们想要计算 Y 项的期望值,我们需要在电路中添加一个 G 门,如下所示:

图 10.4: 使用 G 门计算⟨Y⟩的 PQC。

图 10.4: 使用 G 门计算⟨Y⟩的 PQC。

10.3.2 多量子比特的安扎特

现在我们来看多量子比特的情况,假设优化问题被编码在两量子比特哈密顿量中。

ℋ = aX ⊗ Y+ bY ⊗ Z+ cZ ⊗ X,

对于一些系数a, b, c ∈ℝ。如我们所知,哈密顿量的期望值(10.3.2)由各个项的期望值之和给出:

⟨ℋ ⟩ ≡ ⟨ψ |ℋ |ψ⟩ = a⟨ψ |X ⊗ Y |ψ ⟩+ b⟨ψ |Y⊗ Z |ψ ⟩+ c⟨ψ |Z⊗ X |ψ⟩。

我们需要计算所有这些期望值,对于相同的量子态|ψ⟩。为了做到这一点,我们需要构建一个量子电路,使用足够灵活的可调门,以支持一系列可能的候选态。由于问题哈密顿量作用于两量子比特态,构建候选态的 PQC 可能如下图 10.5 所示:

图 10.5: 用于构建候选态的 PQC。

图 10.5: 用于构建候选态的 PQC。

在图 10.5 所示的 PQC 中,参数(旋转角度)𝜃[1]和𝜃[2]唯一地指定了第一量子比特的态|ψ1⟩,而参数𝜃[3]和𝜃[4]唯一地指定了第二量子比特的态|ψ2⟩。计算期望值⟨X ⊗ Y⟩的完整量子电路如图 10.6 所示,其中门 H(第一个量子寄存器)和 G(第二个量子寄存器)形成了在计算基中测量之前的基变换层。图 10.7 和 10.8 展示了用于计算⟨Y ⊗ Z⟩⟨Z ⊗ X⟩的 PQC。

图 10.6: 用于计算⟨X ⊗ Y⟩项的 PQC。

图 10.6: 用于计算⟨X ⊗ Y⟩项的 PQC。

图 10.7: 用于计算⟨Y ⊗ Z⟩项的 PQC。

图 10.7: 用于计算⟨Y ⊗ Z⟩项的 PQC。

图 10.8: 用于计算⟨Z ⊗ X⟩项的 PQC。

图 10.8: 用于计算⟨Z ⊗ X⟩项的 PQC。

请注意,图 10.6-10.8 所示的态构建电路由单量子比特门组成,并不包含会产生纠缠的两量子比特门。添加两量子比特门(如 CNOT 和 CPHASE)将有助于探索更广泛的量子态范围,正如我们在之前的章节中所知道的那样,应该理所当然地进行。然而,我们在这里的任务是说明一般原理,并将通过运行 PQC 得到的结果与手动计算的结果进行比较,正如我们将在下一节中看到的那样。

10.4 运行 PQC

我们现在进行一些数值实验,以优化问题的哈密顿量(10.3.2)为编码,并将获得的结果与直接计算进行比较,以更好地理解算法的机制并建立直觉。

10.4.1 两量子比特初始态的实验

根据变分方法,并考虑图 10.5 中指定的 PQC 架构,我们需要构建由四个可调参数𝜃[1]、𝜃[2]、𝜃[3]和𝜃[4]控制的候选态。在第八章和第九章中,我们考虑了训练 PQC 的两种可能方法:可微分学习和不可微分学习。两种方法各有优缺点,可以用来找到任意大小 PQC 的最优可调参数集。然而,图 10.5 中展示的 PQC 仅为两层深、两量子寄存器宽,因此在这种情况下应用暴力搜索方法是完全可行的。

暴力搜索方法包括将旋转角度的可能值范围离散化,并保持合理小的基本步长(增量)。参数𝜃[1]和𝜃[3]是绕y-轴的旋转角度,定义在区间[0]上,我们将其离散化为:

{ } (2k +-1-)π , 2m k=0,...,m−1

对于某些整数m,同样地,𝜃[2]和𝜃[4]是绕z-轴的旋转角度,定义在[0,2π]区间内,范围为:

{ (2k + 1)π} --------- . 2m k=0,...,2m− 1

在这两种情况下,增量是π∕m。例如,取m = 8 是速度与精度之间的合理折衷。更重要的是,一旦找到最优的可调参数配置,我们可以在候选最优配置附近进行一次额外的、更细粒度的搜索,以进一步改进它。

算法如下所示。对于从集合(10.4.1)和(10.4.1)中提取的给定 R[Y]和 R[Z]旋转角度配置,我们在 Qiskit 量子模拟器上执行 100,000 次 PQCs 运行,如图 10.6、10.7 和 10.8 所示。这将给出量子态|ψ ⟩ = |ψ1⟩|ψ2 ⟩的 X⊗Y、Y⊗Z 和 Z⊗X 的期望值,其中:

 ( 𝜃 ) ( 𝜃 ) |ψ1⟩ = cos -1 |0⟩+ ei𝜃2 sin -1 |1⟩ 2 2

以及

 ( ) ( ) 𝜃3 i𝜃4 𝜃3 |ψ2⟩ = cos 2 |0⟩ + e sin 2 |1⟩.

我们选择状态|ψ ∗⟩,其对应的⟨ℋ ⟩值最小,如(10.3.2)所示,并表示对应的旋转角度𝜃[1]∗*,…,𝜃*[4]∗。随后,我们在|ψ ∗⟩的邻域内进行更精细的搜索。此时,旋转角度的新集合为:

{ } 𝜃∗i + (k-−-4)π- , i = 1,...,4, 4m k=0,...,m

增量为 π∕(4m)。我们再次选择量子态  ′ |ψ ⟩,其具有最小的 ⟨ℋ ⟩ 值,并表示相应的旋转角度 𝜃′[1],…,𝜃′[4]。

m = 8,a = 4,b = 3,c = 2 时,我们得到表 10.1 中的结果:

第 1 次搜索: 𝜃[1]^∗ = 1.7671 𝜃[2]^∗ = 3.0434 𝜃[3]^∗ = 1.7671 𝜃[4]^∗ = 1.4726 表 10.1:最小化哈密顿量期望值的可调 PQC 参数的最优配置。[min] = −3.93
第 2 次搜索: 𝜃′[1] = 1.5708 𝜃′[2] = 3.1416 𝜃′[3] = 1.5708 𝜃′[4] = 1.5708 表 10.1:最小化哈密顿量期望值的可调 PQC 参数的最优配置。[min] = −4.00

表 10.1:最小化哈密顿量期望值的可调 PQC 参数的最优配置。

在表 10.1 中,⟨ℋ ⟩ 的值是以系数 abc 为单位,旋转角度的值是以弧度为单位。注意,3.1416 = π 和 1.5708 = π∕2。因此,最小化 ⟨ℋ ⟩ 的旋转角度的最优配置是

𝜃′1 = 𝜃′3 = 𝜃′4 = π 和 𝜃′2 = π。2

相应的量子态为

|ψ ⟩ = √1--|0⟩ − √1--|1⟩, |ψ ⟩ = √1--|0⟩ + √i--|1⟩, 1 2 2 2 2 2  1 i 1 i |ψ⟩ = |ψ1⟩⊗ |ψ2 ⟩ =--|00⟩+ -|01⟩− -|10⟩− --|11⟩。2 2 2 2

10.4.2 获得结果的分析

获得的结果合理吗?由于问题规模较小且电路不深,我们可以通过直接手工计算来验证结果。首先,我们可视化状态 |ψ1⟩ 和 |ψ2 ⟩。图 10.4.2 展示了它们在布洛赫球上的位置。状态 |ψ ⟩ 1x 轴与赤道交点处的黑点。我们通过围绕 y 轴进行 π∕2 弧度旋转,再围绕 z 轴进行 π 弧度旋转,从状态 |0⟩ 得到状态 |ψ1 ⟩。状态 |ψ2 ⟩ 是位于 y 轴与赤道交点处的灰点,它是通过围绕 y 轴进行 π∕2 弧度旋转,再围绕 z 轴进行 π∕2 弧度旋转,从状态 |0⟩ 得到的。

图 10.9:状态 |ψ1⟩(黑点)和 |ψ2⟩(灰点)的可视化

图 10.9:状态 |ψ1⟩(黑点)和 |ψ2⟩(灰点)的可视化。

考虑期望值 ⟨X⊗ Y⟩。算符 X 作用在 |ψ1⟩ 上,后者是其在 x 基中的本征态之一:

 -1- -1- |ψ1⟩ = √2-|0⟩− √2--|1⟩ = |− ⟩,

并且 Y 作用在 |ψ2⟩上,后者也是其在 y 基中的本征态之一:

|ψ ⟩ = √1-|0⟩+ √-i-|1⟩ = |R ⟩。2 2 2

然后我们在计算基(z基)上进行测量。在测量前,Hadamard 操作符 H 将|ψ1⟩ = |− ⟩变换为|1⟩,这是z基中的一个基态。同样,操作符 G 将|ψ2⟩ = |R ⟩变换为|0⟩,这也是z基中的一个基态。

因此,在z基上测量将给我们状态|1⟩|0⟩ = |10⟩,其概率为 1。如果我们进行N次测量,我们将得到状态|10⟩ N次,并且对应的期望值⟨X ⊗ Y⟩将为

⟨X ⊗ Y⟩ = n00 −-n01-−-n10 +-n11= 0−-0-−-N-+-0-= − 1. N N

X⊗Y 项前的系数a的值设为 4。因此,第一项对哈密顿量期望值的贡献是−4(见 10.3.2)。

期望值⟨Y⊗ Z⟩⟨Z ⊗ X⟩的计算同样简单。我们从⟨Y ⊗ Z⟩开始。操作符 Y 作用于状态|ψ1⟩中的第一个量子比特。由于我们在z基上测量得到的状态,我们需要在测量前应用 G 操作符。操作符 G 将|ψ1⟩变换为

1+--i 1-−-i 2 |0⟩+ 2 |1⟩.

z基上进行测量将以相等的概率 12 得到|0⟩|1⟩

操作符 Z 作用于状态|ψ2⟩中的第二个量子比特。由于我们在z基上测量操作符 Z,因此无需应用任何门。对|ψ2⟩z基上进行测量也将以相等的概率 12 得到|0⟩|1⟩。因此,我们有相等的概率测量所有四个基态 (|00⟩, |01⟩, |10⟩, 和|11⟩),概率为 14,并且,随着N趋近于无穷大,我们实验中⟨Y ⊗ Z⟩的期望值应收敛于

 n00 −-n01-−-n10 +-n11 14N-−--14N-−-14N--+-14N-- ⟨Y ⊗ Z⟩ = N = N = 0.

现在剩下的是⟨Z ⊗ X⟩。操作符 Z 作用于|ψ1⟩。测量在z基上进行,因此无需变换。测量将以相等的概率 12 得到状态|0⟩|1⟩。操作符 X 作用于状态|ψ2⟩中的第二个量子比特。测量在z基上进行,因此我们需要在测量前应用 Hadamard 门 H。将 H 门应用于|ψ2⟩后,它将变为

1+ i 1 − i -----|0⟩+ -----|1⟩, 2 2

z基底测量中,产生的结果是 |0⟩|1⟩,其概率为 12。因此,我们发现自己处于与 ⟨Y ⊗ Z⟩ 相同的情况:所有基态的概率是相等的。随着N趋于无穷大,期望值 ⟨Z ⊗ X⟩ 也应趋于

 n00 −-n01-−-n10 +-n11 14N-−--14N-−-14N--+-14N-- ⟨Z ⊗ X⟩ = N = N = 0.

这正是我们在数值实验中观察到的结果。给定的所有三个项的总贡献,由(10.3.2)表示,且a = 4,b = 3,c = 2 时,其值为−4。X⊗Y 项具有最大的系数,因此可以理解为的基态是最小化期望值的状态 ⟨X⊗ Y⟩(期望值 ⟨Y ⊗ Z⟩⟨Z⊗ X⟩ 为零)。

PQC 可用于构建 VQE 算法的候选状态。候选状态的选择和改进是通过经典方法进行的。这使得 VQE 成为混合量子-经典算法的完美示例。

10.5 使用 VQE 进行离散投资组合优化

在第三章中,我们研究了量子退火在 NP 难离散投资组合优化问题中的应用。相同类型的 QUBO 问题可以借助混合 VQE 算法在门模型量子计算机上求解。离散投资组合优化问题的 QUBO 形式化包含了最小化成本函数 (3.3.1):

 N∑ ∑N ∑N L(q) = aiqi + bijqiqj, i=1 i=1j=i+1

其中 q := (q[1],…,q[N]) 是一个二进制决策变量向量,用于指示从N个可投资资产中选择了哪些(等权重)资产:q[i] = 1 表示资产i被选中,q[i] = 0 表示资产i未被选中。任务是找到一个使L(q)最小化的 q 配置。

对于每个 i,j = 1,…N,系数 a[i]、a[j] 和 b[ij] 分别反映了资产ij的个别吸引力和联合吸引力。例如,具有较高预期回报和较低波动性的资产会被赋予较大的负值 a。类似地,具有低正相关或负相关的资产对会被赋予负值 b,以奖励多样化。预期回报较低、波动性较高并且与其他资产强相关的资产会被赋予正值 ab,以进行惩罚。

量子退火器在其 Ising 模型公式化中求解 QUBO 问题,其中二进制决策变量 q := (q[1],…,q[N]) 被转化为自旋变量 s := (s[1],…,s[N]),其取值为 {+1,−1},通过变换 s[i] = 2q*[i] − 1 进行。我们分析了一个包含仅两个资产的可投资宇宙的最简单情况。在这种情况下,QUBO 成本函数为:

L(q) = a1q1 + a2q2 + b12q1q2,

或者,在伊辛模型的表述中,

L (s) = g1s1 + g2s2 + J12s1s2 + const,

其中

 1 1 1 1 1 g1 = -a1 + -b12, g2 = -a2 + -b12, J12 = -b12. 2 4 2 4 4

(10.5)中的常数项与决策变量s[1]和s[2]无关,因此可以忽略。我们要最小化的成本函数变为

L(s) = g1s1 + g2s2 + J12s1s2.

正如我们在第二章中所知,从经典描述到量子力学描述的过渡,意味着将对应物理可观察量的经典变量替换为其相应的算符。在 QUBO 问题的伊辛模型表述中,它意味着将经典自旋变量替换为相应的保利算符σ[x]、σ[y]和σ[z],它们在量子电路中分别由量子门 X、Y 和 Z 表示。

正如我们在第三章中记得的那样,伊辛成本函数(10.5)对应于以下最终哈密顿量,它编码了相同的优化问题:

 1 2 1 2 ℋF = g1σ z + g2σz + J12σzσz.

在这里,经典自旋变量s[1]和s[2]被σ[z]算符替换,σ[z]¹是作用在量子比特 1 上的 Z 门,而σ[z]²是作用在量子比特 2 上的 Z 门。

注意,二进制 QUBO 决策变量q、经典自旋变量s与 Z 的本征态之间的映射关系如下:

q = 0 → s = − 1 → |1⟩ since Z |1⟩ = − |1⟩,

q = 1 → s = +1 → |0⟩ since Z |0⟩ = |0⟩.

现在我们求解 QUBO 问题(10.5),其表达式为

a1 = − 2, a2 = 3, b12 = − 2,

使用经典方法(在这种情况下,由于解空间仅包含四个可能的解,因此是一个简单的穷举搜索)和变分量子算法(VQE)方法。

经典的穷举搜索结果可以通过直接计算轻松获得,并总结在表格 10.2 中,最优解 q^∗ = (1,0):资产 1 被选择,而资产 2 未被选择。

q[1] q[2] L(q)
0 0 0
0 1 3
1 0 -2
1 1 -1

表格 10.2:经典穷举搜索结果。

VQE 计算如下。我们首先将哈密顿量(10.5)重写为量子门形式:

ℋF = g1Z1 + g2Z2 + J12Z1 ⊗ Z2,

其中 Z¹是作用在量子比特 1 上的 Z 门,Z²是作用在量子比特 2 上的 Z 门,Z¹ ⊗Z²是作用在量子比特 1 和 2 上的 Z 门的张量积。

下一步是计算期望值⟨Z⟩⟨Z ⊗ Z⟩。正如我们所知,Z 是一个相位门,它会翻转量子比特的相位:

Z |0⟩ = |0⟩, Z |1⟩ = − |1⟩.

因此,我们有

 ⟨0|Z1 |0⟩ = +1, ⟨1|Z1 |1⟩ = − 1, ⟨0|Z2 |0⟩ = +1, ⟨1|Z2 |1⟩ = − 1, ⟨00|Z1 ⊗ Z2 |00⟩ = +1, ⟨01|Z1 ⊗ Z2 |01 ⟩ = − 1, ⟨10|Z1 ⊗ Z2 |10⟩ = − 1, ⟨11|Z1 ⊗ Z2 |11 ⟩ = +1.

在这里,我们通过解析方法计算了算符 Z 和 Z⊗Z 的期望值,但如果我们按照第 10.2 节的描述使用量子计算机计算,得到的结果将完全相同。现在我们需要通过变换 (10.5) 计算系数 g[1]、g[2] 和 J[12] 的值。

g1 = − 1.5, g2 = 1, J12 = − 0.5.

ℋ[F] 在态 |00⟩|01⟩|10⟩|11⟩ 中的期望值可以计算为

|00⟩ : ⟨ℋ⟩ = g[1] ⋅ (+1) + g[2] ⋅ (+1) + J[12] ⋅ (+1) = −1,
|01⟩ : ⟨ℋ⟩ = g[1] ⋅ (+1) + g[2] ⋅ (−1) + J[12] ⋅ (−1) = −2,
|10⟩ : ⟨ℋ⟩ = g[1] ⋅ (−1) + g[2] ⋅ (+1) + J[12] ⋅ (−1) = 3,
|11⟩ : ⟨ℋ⟩ = g[1] ⋅ (−1) + g[2] ⋅ (−1) + J[12] ⋅ (+1) = 0.

使用 VQE 找到的最佳解是 |01⟩ = |0⟩|1⟩,即选中了资产 1 而未选中资产 2,这与穷举搜索得到的最佳解相同。

VQE 是解决与金融相关的 NP 难优化问题的可行工具。

总结

在本章中,我们介绍了变分量子本征求解器(VQE)算法,这是一种基于变分方法的强大量子机器学习模型,能够帮助我们解决困难的优化问题。我们学习了如何使用量子计算机计算期望值,以及如何构建量子电路(PQC),从而创建候选量子态。

我们还实验性地运行了 VQE 模型,针对一个编码为二量子比特哈密顿量的示例问题,并通过手动计算分析和验证了结果。最后,我们展示了 VQE 在与金融相关的优化问题中的应用,特别是离散投资组合优化的样例。

在下一章中,我们将介绍量子近似优化算法(QAOA),这又是另一种混合量子经典方法,用于解决困难的优化问题。

加入我们书籍的 Discord 空间

加入我们的 Discord 社区,和志同道合的人一起学习,和超过 2000 名成员一起交流:packt.link/quantum

PIC

第十一章:量子近似优化算法

正如名字所示,量子近似优化算法(QAOA)是一种优化算法。它受到了前几章中讨论的两种优化算法的启发:AQC 和 VQE。QAOA 从 AQC 中借用了通过将相应的目标函数编码到问题哈密顿量中来解决优化问题的概念,然后通过这种方式演化系统,使得最终哈密顿量的基态提供我们所追求的解决方案(以比特串格式表示)。QAOA 从 VQE 中借用了适用于参数化量子电路的变分原理。粗略地说,QAOA 是优化求解器的门模型版本,而这种优化本来可以通过模拟 AQC 方法来解决。我们也可以将 QAOA 看作是 VQE 的特例,其中对哈密顿量的形式有限制。

QAOA 在 Farhi、Goldstone 和 Gutmann 于 2014 年的开创性工作中被提出[96],并且其在建立量子霸权方面的潜力在 Farhi 和 Harrow 的研究中得到了探讨[99]。QAOA 及其推广算法——量子交替算符假设(同样的首字母缩写!)已在多个金融应用案例中进行了测试。这里我们可以提到 Hodson、Ruck、Ong、Garvin 和 Dulma 的工作[138],该工作涉及投资组合再平衡实验,以及 Barkoutsos、Nannicini、Robert、Tavernelli 和 Woerner 的研究[26],他们使用条件风险价值(CVaR)作为 QAOA 的目标函数。该算法具有显著潜力,并有望成为量子计算方法中针对金融应用的标准工具。

11.1 时间演化

再次考虑量子力学系统的动态描述,这在第一章(作为量子力学的公设之一)和第二章(在其中介绍了绝热量子计算的原理)中简要讨论过。这些动态由薛定谔方程(1.2.2)支配:

 d |ψ (t)⟩ iℏ--dt--- = ℋ |ψ(t)⟩,

给定一些初始条件 |ψ(0)⟩,其中 |ψ (t)⟩是时间 t 处的量子态,ℋ是时间无关的哈密顿量。其解由 (1.2.2)给出,即

|ψ (t)⟩ = 𝒰(0,t) |ψ(0)⟩,

其中算符 𝒰(0,t)是通过 (1.2.2)从哈密顿量 ℋ得到的:

 ( iℋt) 𝒰 (0,t) = exp − ---- . ℏ

我们采用单位制,其中 ℏ设为 1,因此系统的动态可表示为:

|ψ(t)⟩ = e− iℋt |ψ (0 )⟩.

如果已知系统的初始状态 |ψ(0)⟩,则可以知道系统在时间 t 时的状态,该状态由哈密顿量 ℋ 在时间 t 内的作用决定。

然而,解(11.1)假设系统哈密顿量是时间无关的。与此同时,AQC 工作于时间依赖的哈密顿量,形式为(2.2):

 ( t ) t ℋ (t) = 1 − T- ℋ0 + T-ℋF ,

对于某些初始哈密顿量 ℋ[0] 和某些最终问题(编码优化问题)哈密顿量 ℋ[F],我们如何调和这个不匹配呢?答案是我们可以近似[272] 由一系列时间无关的哈密顿量来近似时间依赖的哈密顿量 ℋ(t),它在 [0,T] 时间段内变换系统状态:

ℋ1, ℋ2, ..., ℋm,

在相应的较短时间间隔内变换系统状态:

[t0 = 0,t1], [t1,t2], ..., [tm−1,tm = T ].

一个好的类比是用分段线性函数近似连续函数(例如,sin(⋅)),如图 11.1 所示。时间间隔 [t[i−1],t[i]] 越细化,近似越好。

图 11.1:t↦→sin(t)的分段线性近似。

图 11.1:t↦→sin(t)的分段线性近似。

类似地,我们可以将算符 𝒰(0,T) 近似为

𝒰 (0,T) ≈ 𝒰(tm− 1,tm )𝒰(tm−2,tm− 1) ⋅⋅⋅𝒰 (t2,t1)𝒰(t0,t1).

同样,较大的 n 值会给出更好的近似。

量子力学系统在较长时间间隔内的演化可以被建模为一系列时间无关的哈密顿量,通过相应的较短时间间隔变换系统状态。

11.2 Suzuki-Trotter 展开式

可以使用 Suzuki-Trotter 展开式[279]获得对 𝒰(0,T)的一个特别有用的近似。如果 𝒜[1], 𝒜[2],…, 𝒜[k] 是不一定对易的算符,则

 ( ) [ ( 𝒜 ) ( 𝒜 ) (𝒜 ) ]m exp 𝒜1 + 𝒜2 + ...+ 𝒜k = lim exp -1- exp -2- ⋅⋅⋅exp --k . m →∞ m m m

回想一下,两个算符 𝒜 和 ℬ 如果满足 𝒜ℬ = ℬ𝒜,则称它们对易。在前几章中引入的许多算符是不对易的,例如,不同轴上的旋转是不对易的,最终结果(最终量子态)取决于旋转的顺序。

如第一章所述,厄米算符的期望值是实数,并且对应于物理可观察量(例如,厄米哈密顿量的期望值是物理上可观察的能量)。如果算符对易,我们可以按任意顺序测量它们并得到相同的结果。相应物理可观察量的值没有不确定性。

然而,铃木-托特展开不要求算符对易就能保持有效。这对 QAOA 有重要的影响,正如我们接下来将看到的。如果𝒰(0,T)的形式为 exp([𝒜 + ℬ]T),则我们可以使用铃木-托特展开得到

 [ ( ) ( ) ] 𝒜T-- ℬT- m exp([𝒜 + ℬ]T) = mli→m∞ exp m exp m ,

即[𝒜 + ℬ]T的时间演化可以通过在时间间隔T∕m内交替应用𝒜和ℬ来近似。

在第三章中,我们介绍了 AQC 的详细规范,其中哈密顿量ℋ[0]和ℋ[F]具有一般形式。

 ∑n ∑n ∑n ∑n ℋ0 = σix and ℋF = aiσiz + bijσizσjz, i=1 i=1 i=1 j=i+1

对于一些系数(a[i])[i=1,…,n]和(b[ij])[i,j=1,…,n]。我们还将感兴趣的读者引导至 [304],以便了解 QAOA 与 AQC 之间的精确联系,特别是在有限步骤m的情况下。

初始哈密顿量ℋ[0]是算符𝒜——称为混合哈密顿量——最终哈密顿量ℋ[F]是算符ℬ——称为相位哈密顿量。回顾第十章,保利算符σ[x]、σ[y]和σ[z]分别由量子门 X、Y 和 Z 表示,σ[x]^i 中的上标 i 表示作用的比特。

初始状态设置为所有可能解的等超位置状态 [122]:

 1 ( ) 1 2∑n−1 |ψ(0)⟩ = √-n- |0...00⟩ + |0 ...01⟩+ ...+ |1...11⟩ = √-n- |i⟩, 2 2 i=0

这是𝒜的基态,可以通过对每个比特应用哈达玛门 H,从|0⟩^(⊗n)轻松构造得到,即:

|ψ(0)⟩ = H⊗n |0⟩⊗n .

备注: 对于一个单比特系统,𝒜是 X 门,初始状态为

 1 |ψ(0)⟩ = √--(|0⟩ + |1⟩) = |+⟩ . 2

正如我们在第十章中所知,状态|+⟩是 X 的特征状态,其特征值为 1,即 X|+ ⟩ = |+⟩

11.3 算法规范

现在一切就绪,可以开始制定 QAOA 程序 [122]。

--------------------------------------------------------------------- -算法---9:-量子--近似-优化-算法----------- 输入: 𝒜 和 ℬ. 1: 通过交替应用运算符 𝒜 1 m 和 ℬ 进行 m 轮操作,创建一个参数化的量子态 |ψ(β, γ)⟩,其中 β := (β1,...,βm ),γ := (γ ,...,γ ),每一轮的持续时间由参数 β 和 γ 分别指定: i i ( ⊗n) |ψ (β, γ)⟩ = e− iβm𝒜e −iγmℬ ⋅⋅⋅e−iβ2𝒜e− iγ2ℬe−iβ1𝒜e −iγ1ℬ H ⊗n |0⟩ 。 2: 对所得量子态进行计算基(z 基)测量,返回一个候选解。重复上述量子态准备和测量过程,从返回的解样本中统计估计成本函数 f 的期望值 ⟨f⟩ = ⟨ψ(β,γ)|ℬ |ψ(β,γ )⟩(如第十章所述)。 3: 然后,可以在经典优化循环中使用更新后的时间参数 β 和 γ 进行上述步骤的重复——这是算法的变分部分——目标是最小化成本函数 ⟨f⟩ 的期望值。结果:算法返回找到的最佳解。 ---------------------------------------------------------------------

交替应用运算符 exp(−iβ𝒜) 和 exp(−iγℬ) 以确保我们不会陷入局部最小值是非常重要的。同样重要的是,𝒜 和 ℬ 必须不对易 [272]。事实上,只有应用 exp(−iγℬ) 时,我们可能会陷入相位哈密顿量的本征态。如果发生这种情况,我们将被困在那里:对其本征向量进一步应用线性运算符可能会改变其长度,但不会改变其方向。对于两个对易算符交替操作的情况也是如此:如果 𝒜 和 ℬ 对易,则可以得到一组同时是 𝒜 和 ℬ 本征态的基态,一旦进入这些本征态中的一个,就会被困在其中。然而,由于 σ[x] 和 σ[z] 不对易,总是有机会逃离局部最小值。

QAOA 潜力的持续探索始于 Farhi、Goldstone 和 Gutmann 的基础性论文 [96],该论文展示了 QAOA 在连通的 3-正则图上的 Max-Cut 问题中超越了经典算法。正则图是指每个顶点都有相同数量的邻居。在 3-正则图(也称为 立方 图)的情况下,每个顶点与三个其他顶点相连。我们在下一节中考虑 Max-Cut 问题的最一般形式。这一决定性结果促使了经典算法的积极发展,最终由 Barak et al [25] 构建了一个渐近性能更好的算法。这反过来又引发了进一步的研究:Hastings 在 [128] 中研究了 QAOA 和最佳经典算法之间的性能比较,而 Bravyi、Kliesch、Koenig 和 Tang [44] 证明了 QAOA 的局部性和对称性严重限制了其性能。为了克服这些局限性,他们提出了一种非局部版本,它在随机 3-正则图上的挫败 Ising 模型中显著优于标准 QAOA。

11.4 Max-Cut 问题

Max-Cut 问题是图划分问题的特殊情况之一,该问题在第三章中有所介绍。其目标是将图的顶点分成两组,使得要么最大数量的边在这两组之间被“切割”(如果所有边的权重相同),要么这些边的总权重最大化(如果边的权重不同)。

总权重(或切割边的数量)最大化的问题可以表述为代价函数的最小化,该代价函数是所有单独边的代价之和。与连接顶点 ij 的边相关的每个单独代价 c[ij] 由以下公式给出:

 1 cij = -wij(1 − sisj), 2

其中 s[i] 和 s[j] 是经典自旋变量,取值为 {−1,*+1},而 w[ij] 是与连接顶点 ij 的边相关联的权重。两个顶点组是指自旋变量取相同值的组(要么是 −1,要么是 +1)。从 (11.4) 中可以看出,当 s[i] 和 s[j] 的符号相同,代价 c[ij] 为零;然而,当 s[i] 和 s[j] 的符号相反时,代价 c[ij] 等于权重 w[ij]。

整个图的代价函数具有以下形式:

 ∑ 1 L (s) = 2wij(1− sisj), {ij}∈G

其中 s := (s[1],…,s[n]) 是与 n 节点图 G 相关联的决策变量集,求和遍历所有通过图边连接的节点对。

Max-Cut 问题在金融中的应用有很多种,例如客户聚类客户细分,其中任务可以通过创建一个包含每个客户的节点和每对客户之间的边的图来进行建模。连接任意两位客户的边的权重由客户特征的相对接近程度决定:客户越接近,连接它们的边的权重越小。通过找到最大权重割得到的集群具有这样的性质:同一集群中的客户与其他集群中的客户更加不同。

然而,Max-Cut 在金融领域的代表性应用是投资组合优化。Dees、Stanković、Constantinides 和 Mandi [81] 已经展示了,基于图切分的图论投资组合分割技术能够通过严格的图框架帮助设计出稳健且可处理的资产配置方案,考虑到较小的、计算上可行的、且在经济上有意义的资产集群。Barkoutsos、Nannicini、Robert、Tavernelli 和 Woerner [26] 通过使用条件价值风险(CVaR)技术改进了变分量子优化,该技术在金融风险管理中广泛使用。一个投资组合优化的 QAOA 应用实例,通过在量子模拟器上求解最大独立集问题进行了展示,见[276]。此外,还需要提到 Hodson、Ruck、Ong、Garvin 和 Dulma [138] 进行的使用量子交替算符假设的投资组合再平衡实验。

11.4.1 QAOA 门

对应于成本函数(11.4)的混合哈密顿量 𝒜 和相位哈密顿量 ℬ 表示为

 n ∑ i ∑ 1- ( i j) 𝒜 = σx 和 ℬ = 2 wij 1− σ zσ z , i=1 {ij}∈G

其中,旋转变量s被对应的泡利算符σ替代。因此,我们需要找到这些算符的量子门表示

 ( ) ( i) 1 i j exp − iβσx 和 exp −2-iγσ zσz .

为此,我们需要以下内容(参见引理 1,虽然证明略有不同):

定理 9. 假设表示单位算符,以下对于任何 单位厄米算符和任意 𝜃 ∈ℝ成立:

 ( ) ( ) ( ) 1- 𝜃- 𝜃- R 𝜃(ℋ) ≡ exp − 2i𝜃ℋ = cos 2 ℐ − isin 2 ℋ.

证明. 由于ℋ是单位厄米算符,其本征值为+1 和−1(见第一章)。令 𝒫[±] 为分别投影到本征值±1 的本征空间的投影算符,因此

ℐ = 𝒫+ + 𝒫 − , ℋ = 𝒫+ − 𝒫− .

当一个函数(在本例中为R[𝜃])应用到一个矩阵(在本例中为ℋ)时,它应用到矩阵的每一个本征值上:

 ( ) ( ) R (ℋ ) = exp − 1-i𝜃(+1 ) 𝒫 + exp − 1i𝜃 (− 1) 𝒫 𝜃 2 + 2 − ( 1 ) ( 1 ) = exp − --i𝜃 𝒫+ + exp -i𝜃 𝒫− . 2 2

从 (11.4.1) 我们得到:

 1 1 𝒫+ = -(ℐ + ℋ ) and 𝒫− = --(ℐ − ℋ ). 2 2

将 (11.4.1) 代入 (11.4.1) 得到:

R𝜃 = 1- 2exp( ) 1- − 2i𝜃(ℐ + ℋ) + 1- 2exp( ) 1- 2i𝜃(ℐ−ℋ)
= 1- 2[ ( ) ( )] exp − 1i𝜃 + exp 1i𝜃 2 2ℐ + 1- 2[ ( ) ( )] exp − 1i𝜃 − exp 1i𝜃 2 2
= cos( ) 𝜃- 2ℐ− isin( ) 𝜃- 2.

我们可以使用 (9) 来写下矩阵形式的算符表达式 (11.4.1)。我们从第一个算符开始:

exp(− iβ σx) = cos(β)I⌊ − isin⌋(β)X ⌊ ⌋ = cos(β)⌈1 0⌉ − isin(β)⌈0 1⌉ 0 1 1 0 ⌊ ⌋ cos(β ) − isin(β) = ⌈ ⌉. − isin(β) cos(β )

由于算符 RX 的矩阵表示如下:

 ⌊ ⌋ (𝜃) (𝜃) RX(𝜃) = ⌈ cos 2( ) − isin( 2) ⌉ , − isin 𝜃2 cos 𝜃2

(见例如,第六章 或 定理 9),我们得到:

exp(− iβ σx) = RX(2β ),

因此,算符 exp(−iβσ[x]^i) 应该在电路中由量子寄存器 i 上的门 RX 来表示。

我们现在可以继续处理算符 exp(− 1iγσ σ ) 2 z z 的门表示,其中 σ[z]σ[z] 代表两个作用于不同量子比特的 σ[z] 算符的张量积:

 ( 1 ) (γ ) ( γ) exp − -iγσzσz = cos -- I ⊗ I − isin -- Z⊗ Z 2 ⌊ ⌋2 ⌊ 2 ⌋ 1 0 0 0 1 0 0 0 ( )|| || ( ) || || = cos γ- || 0 1 0 0 ||− isin γ- ||0 − 1 0 0|| 2 | 0 0 1 0 | 2 |0 0 − 1 0| ⌈ ⌉ ⌈ ⌉ 0 0 0 1 0 0 0 1 ⌊ (γ) (γ) ⌋ |cos 2 − isin 2 ( ) 0 ( ) 0 0 || || 0 cos γ2 + isin γ2 0 0 || = || (γ ) (γ) || ⌈ 0 0 cos 2 + isin 2 ( ) 0 ( )⌉ 0 0 0 cos γ − isin γ ⌊ ⌋ 2 2 e−iγ∕2 0 0 0 || iγ∕2 || = || 0 e 0 0 || . |⌈ 0 0 eiγ∕2 0 |⌉ −iγ∕2 0 0 0 e

我们利用了以下事实:

 ( 1 ) ( γ) (γ ) exp − -iγ = cos -- − isin -- 2 2 2

 ( 1 ) ( γ) (γ ) exp -iγ = cos -- + isin -- . 2 2 2

以下引理提供了算符 exp( 1 ) −2iγσzσz 的量子电路表示:

引理 8. 算符 exp( ) − 12iγ σizσjz 可以通过以下电路表示:

证明。 从 (6.3.3),我们可以写出:

 ⌊ ⌋ ⌊ ⌋ e−iγ∕2 0 −iγ∕2 1 0 RZ(γ ) = ⌈ iγ∕2⌉ = e ⌈ iγ⌉ . 0 e 0 e

乘子 exp( 1 ) − 2iγ是一个不可观测的全球相位,可以忽略。现在,

 ⌊ ⌋ 1 0 0 0 ⌊ ⌋ ⌊ ⌋ | | ⌈1 0⌉ ⌈1 0 ⌉ || 0 eiγ 0 0 || RZ(γ )⊗ RZ(γ) = iγ ⊗ iγ = || iγ || . 0 e 0 e ⌈ 0 0 e 0 ⌉ 0 0 0 e2iγ

最后,CRz 门的矩阵表示为

 ⌊ ⌋ | 1 0 0 0 | | 0 1 0 0 | CRZ(− 2γ ) = || || , |⌈ 0 0 1 0 |⌉ 0 0 0 e− 2iγ

和整个电路的矩阵表示如引理所示

⌊ ⌋ ⌊ ⌋ ⌊ ⌋ 1 0 0 0 1 0 0 0 e− iγ∕2 0 0 0 || iγ || || || || iγ∕2 || ||0 e 0 0 || ||0 1 0 0 || = eiγ∕2|| 0 e 0 0 ||. |0 0 eiγ 0 | |0 0 1 0 | | 0 0 eiγ∕2 0 | ⌈ 2iγ⌉ ⌈ −2iγ⌉ ⌈ − iγ∕2⌉ 0 0 0 e 0 0 0 e 0 0 0 e

同样,全球相位可以忽略,我们得到了与 exp( ) − 12iγσz σz相同的矩阵表达式。□

11.4.2 QAOA 电路

正如在章节 8 和 9 中指出的,现有的量子处理器通常具有有限的量子比特连通性,因此我们需要使用特定的嵌入方案,将 Max-Cut 图映射到 QPU 图中。最简单的情况是图节点和连通边的一对一映射。图 11.2 展示了这样的一个图(在 Rigetti 的 Aspen 系统中实现),由八个节点(嵌入在量子比特 1,…,8 中)和八条边组成。节点 1、3、5 和 7 各有一个连接,而节点 2、4、6 和 8 各有三个连接。

图 11.2:Max-Cut 优化问题在 Rigetti 的 Aspen 系统中的嵌入。

图 11.2:Max-Cut 优化问题在 Rigetti 的 Aspen 系统中的嵌入。

对应的 QAOA 电路如图 11.3 所示。

图 11.3:Max-Cut 问题的 QAOA 电路。

图 11.3:Max-Cut 问题的 QAOA 电路。

该电路由四个不同的层组成。第一层是一个 Hadamard 门层,创建了状态|0⟩|1⟩的均等叠加——将基态|0⟩转化为基态|+⟩。第二层表示由可调参数γ控制的相位哈密顿量的作用。第三层表示由可调参数β控制的混合哈密顿量的作用。最后一层由测量算符组成。第二层和第三层可以多次应用,且参数γβ的值可以不同。

使用Qiskit量子模拟器通过 QAOA 找到的最佳解决方案,针对权重相等的情况(w[ij] = 1,对于所有{i,j}∈ G),如图 11.4 所示。最佳解为比特串 10011001,并由虚线曲线表示,将节点分成两个相等的子集并切割所有图的边。

图 11.4:Max-Cut 问题解决方案的可视化。

图 11.4:Max-Cut 问题解决方案的可视化。

在这里,图中的节点(量子比特){1,4,5,8}属于组“1”,而节点{2,3,6,7}属于组“0”。

在不等权重的情况下,电路布局保持不变,但可调门参数反映了分配给不同边的权重的相对大小。例如,如果分配给节点 1 和节点 2 之间连接的权重从 1 增加到 5,且所有其他权重保持为 1,则对应于节点 1 和节点 2 之间连接的相位哈密顿量项从 exp(− 1iγσ σ ) 2 z z变化为 exp( ) − 52iγσzσz,并且量子电路的相应部分变更为图 11.5 所示,电路的其余部分保持不变。

图 11.5:权重 w12 从 1 增加到 5.

图 11.5:权重w[12]从 1 增加到 5\。

QAOA 可以成功解决其 QUBO 形式的 NP 难度组合优化问题。

总结

在本章中,我们研究了一种受到量子系统绝热演化原理启发的量子优化算法。在这方面,QAOA 可以看作是 AQC 方法的量子门模型对应用,用于解决经典难以处理的优化问题。

我们讨论了铃木-托特展开式,它提供了量子力学系统时间演化的近似,并且是算法的核心。我们展示了 QAOA 在 Max-Cut 问题上的实现(门和电路),该问题在金融领域有广泛应用。

在下一章中,我们将探讨参数化量子电路的动力来源。

第十二章:参数化量子电路的力量

正如我们在前几章中看到的,基于参数化量子电路的量子机器学习(QML)模型种类繁多。其原因之一是它们对噪声的耐受性[222],这在我们使用 NISQ 硬件时尤为重要。然而,这并不能完全解释 PQC 的流行,或它们为何被认为是经典机器学习模型的强劲竞争者。PQC 必定有一些基本特性,使其优于经典对等模型。在本章中,我们讨论了两种这样的特性:抗过拟合能力和更强的表达能力。

抗过拟合能力是一个直接后果,因为典型的 PQC——没有中途测量的 PQC——可以通过线性单位 ary 算符来表示。线性模型强烈施加正则化,从而防止过拟合。同时,由于输入被映射到更高维的希尔伯特空间,模型仍然保持强大,如果 PQC 作为判别模型(QNN)进行训练,则在该空间中可能更容易执行分类。

表达能力与模型表达变量之间不同关系的能力相关,即其学习复杂数据结构的能力。看来,作为生成模型(QCBM)训练的参数化量子电路(PQC)相比于其对应的经典版本(如 RBM),具有严格更大的表达能力。

12.1 强正则化

作为分类器训练的参数化量子电路面临着与经典模型相同的挑战:需要良好地推广到未见过的数据点。经典上,我们有许多监督学习模型和正则化技术可供选择。这些应对过拟合的正则化技术是模型特定的。例如,我们可以尝试限制决策树的深度,或在训练神经网络时在代价函数中施加惩罚项。

考虑一个传统的前馈神经网络,可以说它是量子分类器最直接的经典对等物。在经典和量子两种情况下,信号都通过网络单向传递,量子门层可以与经典激活单元的层进行比较。无论我们是应用L[1](Lasso)或L[2](Ridge)惩罚项,还是使用 dropout 技术,我们都希望网络中存在某种正则化的度量。这是一个有趣的理论问题,同时也是一个重要的实践任务,它让我们能够制定应对过拟合的最佳策略。理想情况下,这种度量应适用于经典和量子神经网络,以提供对比它们各自正则化特性的有意义比较。

通常,相对较小的网络权重与较高程度的正则化相关联,而较高的网络权重则是过拟合的症状。然而,拥有一个正式的数学工具来量化网络的过拟合能力是非常理想的。Lipschitz 常数就是一种可能的、能够捕捉正则化程度的明确量度。

12.1.1 Lipschitz 常数

根据 Gouk [115],给定两个度量空间 (𝒳,d[𝒳]) 和 (,d),如果存在一个常数k ≥ 0,使得一个函数f : 𝒳 → 被称为 Lipschitz 连续的,则满足:

![d (f (x1),f(x2)) ≤ kd𝒳(x1,x2), for all x1,x2 ∈ 𝒳 .

k的值被称为 Lipschitz 常数,且该函数被称为k-Lipschitz 函数。我们关注的是最小的 Lipschitz 常数,或者至少是其上界。为了获得上界估计,我们应当注意前馈神经网络的一些有用性质。

在前馈神经网络的j层中,x[1]和 x[2]是前一层j − 1 的n维样本输出,f(x[1])和f(x[2])是第j层的m维输出。度量d[𝒳]和d可以是L[1]或L[2]范数。

l个完全连接层组成的前馈神经网络可以表示为一系列函数组合:

f(x) = (ϕl ∘ ϕl− 1 ∘...∘ ϕ1)(x),

其中,每个ϕ[j]实现了x的第j层仿射变换,该变换由m × n的权重矩阵 W[j]和m维的偏置向量 b[j]来参数化:

ϕj(x) = Wjx + bj.

一个k[1]-Lipschitz 函数与一个k[2]-Lipschitz 函数的组合是一个k[1]k[2]-Lipschitz 函数 [115]。因此,我们可以分别计算每一层的 Lipschitz 常数,并将它们组合在一起,从而获得整个网络 Lipschitz 常数的上界。

选择d[𝒳]和dL[2]范数∥⋅∥[2]。在这种情况下,我们从 Lipschitz 连续性的定义中得到以下关系,对于完全连接网络层j

∥(Wjx1 + bj)− (Wjx2 + bj)∥2 ≤ k∥x1 − x2∥2.

引入 a = x[1] − x[2]并假设 x[1] x[2],我们得到估计

∥Wja-∥2-≤ k. ∥a∥2

完全连接网络层的最小 Lipschitz 常数,L(ϕ[j]),等于不等式左侧的上确界 (12.1.1):

 ∥W a∥ L (ϕj) := sup ---j--2-. a⁄=0 ∥a∥2

操作符范数(12.1.1)由权重矩阵 W[j]的最大奇异值给出,它对应于谱范数——矩阵拉伸向量的最大比例。可以通过任何适用的开源包轻松计算,例如来自scikit-learn包的 sklearn.decomposition.TruncatedSVD。

在量子神经网络的情况下,任何在n个量子比特上操作的参数化量子电路,无论其多么复杂和深度,都可以通过一个 2^n × 2^n 的幺正矩阵表示。由于幺正矩阵的所有奇异值都等于 1,这为比较不同网络的正则化能力提供了一个自然的基准。

12.1.2 正则化示例

我们在第八章分析的澳大利亚信用审批(ACA)数据集[241,242]可以作为一个很好的示例。我们可以比较经典和量子神经网络的性能,同时监控由 Lipschitz 常数衡量的正则化。

经典神经网络是一个具有两层隐藏层的 MLP 分类器。每一层隐藏层的激活单元数量与 ACA 数据集中的特征数量(14)相同,因此我们需要为两个 14 × 14 的方阵计算最大的奇异值。这些特征使用sklearn.preprocessing.StandardScaler进行了标准化。我们还使用sklearn.neural_network.MLPClassifier来构建具有表格 12.1 中所示超参数集的分类器:

超参数
隐藏层数量: 2
每层的激活单元数量: 14
激活函数: tanh
求解器: adam
初始学习率: 0.01
迭代次数: 5000
随机状态: 0
正则化参数,α 可变

表格 12.1:MLP 分类器超参数。

MLP 分类器的正则化参数α是我们的控制变量。它控制网络代价函数中的L[2]正则化项:这个参数越大,越多的大网络权重会受到惩罚。所有其他参数都设置为默认值。

量子神经网络如图 8.5 所示。该参数化量子电路仅由 7 个固定的两量子比特门(CZ)和 15 个可调的一量子比特门(R[X]和 R[Y])组成。表格 12.2 比较了 MLP 和 QNN 分类器在样本内和样本外数据集上的表现(ACA 数据集使用sklearn.preprocessing.StandardScaler被分割成 50:50 的训练集和测试集)。

我们观察到 QNN 提供了强大的正则化,且在样本内和样本外数据集上的表现如预期一致,这与由幺正矩阵表示的网络相符。

分类器 平均F[1]得分 平均F[1]得分 Lipschitz 常数
(样本内) (样本外) (上限)
MLP, α = 0.001 1.00 0.78 36.2
MLP, α = 0.01 1.00 0.79 33.5
MLP, α = 0.1 1.00 0.80 18.6
MLP, α = 1 0.99 0.83 7.4
MLP, α = 10 0.90 0.86 1.3
MLP, α = 40 0.85 0.86 0.5
MLP, α = 50 0.35 0.37 1e-05
QNN 0.86 0.85 1.0

表 12.2:MLP 和 QNN 分类器在 ACA 数据集上训练的 F[1]得分和 Lipschitz 常数。

此外,我们观察到,等效的正则化程度只能通过 MLP 在正则化参数α取极大值时才能实现。将α进一步增大将完全破坏网络的学习能力。对于所选的 MLP 配置,α的临界值在 40 到 50 之间。

参数化量子电路可以表示为(高维)保持范数的单位 ary 矩阵。这确保了量子神经网络的强正则化特性。

现在我们可以进入参数化量子电路的下一个特性:它们的表达能力。我们可以将 PQC 的表达能力定义为电路生成纯量子态的能力,这些量子态能够很好地代表希尔伯特空间[266]。换句话说,从 QML 的角度来看,PQC 的表达能力是它学习(“表达”)复杂数据结构的能力。在接下来的章节中,我们将尝试量化不同类型 PQC 固有的表达能力。

12.2 表达能力

我们在前面的章节中看到,PQC 可以应用于解决优化问题(QAOA 和 VQE),以及各种机器学习任务,包括判别性(QNN 分类器)和生成性(QCBM 市场生成器)用例。一般来说,我们用于量子机器学习任务的 PQC 可以分为两类[88]:张量网络 PQC(类似于图 8.4 中的 QNN 电路)和多层 PQC(类似于图 9.1 中的 QCBM 电路)。它们的表达能力如何,我们又该如何对它们进行排名呢?在尝试回答这个问题之前,让我们先来看一个简单的示例:在单一量子寄存器上指定的量子电路。

图 12.1:具有不同表达能力的 PQC。

图 12.1:具有不同表达能力的 PQC。

图 12.1 展示了四个具有显著不同表达能力的单量子比特电路,其中U[−π,π]表示闭区间[−π,π]上的均匀分布。让我们逐个分析它们。

PQC A 以量子比特状态初始化开始,如|0⟩ – Bloch 球上的北极(图 7.2)。唯一的门是 Hadamard 门 H,它将|0⟩变换为 (|0⟩ + |1⟩)√ -- 2。因此,状态|ψA⟩只能是 Bloch 球上的一个单点。

PQC B 也从量子比特状态初始化为|0⟩开始,应用 Hadamard 门将初始状态转化为 (|0⟩ + |1⟩)√ -- 2,然后围绕z-轴应用旋转 R[Z],角度𝜃[z]从区间[−π,π]上的均匀分布中抽取。最终状态|ψB ⟩可以是赤道上的任何一点,且所有这些点的概率相等。

PQC C 通过旋转 R[X]向 PQC B 添加一个旋转角度𝜃[x],该角度从区间[−π,π]上的均匀分布中抽取。通过围绕两个正交轴的两次旋转,我们可以到达 Bloch 球上的任何点。然而,若角度𝜃[z]和𝜃[x]从区间[−π,π]上的均匀分布中抽取,则在状态|ψ ⟩ C下,Bloch 球上的点并不呈均匀分布。我们观察到,在点 (|0⟩ + |1⟩)√-- 2 和 (|0⟩|1⟩)√ -- 2 附近,密度最高,而在 90^∘和 270^∘经线沿线,密度最低。

最后,PQC D 在y轴上通过一个旋转 R[Y]添加了一个角度𝜃[y],该角度从区间[−π,π]的均匀分布中抽取。这个旋转使得之前聚集的点在 Bloch 球上更加均匀地分布,从而使 Bloch 球上的所有点都能被平等地访问。

因此,关于我们探索希尔伯特空间的能力,我们可以将上述 PQC 的表达能力层次分为以下几类:

PQC D > PQC C > PQC B > PQC A.

现在我们可以回到前几章开发的 PQC。

12.2.1 多层 PQC

多层量子电路(MPQC)由多个量子电路块组成,每个块中的量子门排列是相同的[28,189]。图 12.2 展示了 MPQC 的示意图。

图 12.2:多层 PQC 的示意图。

图 12.2:多层 PQC 的示意图。

以下数学形式可以用来描述 MPQC。输入的n量子比特量子态,所有量子比特初始化为|0⟩的计算基态,为|0⟩^(⊗n),总共的电路块数为l,第i个块表示为 U(𝜃^i),其中参数的数量与量子比特数成正比,n与生成数据的维度呈对数关系(这反映了我们关于数据编码方案的假设)。因此,电路生成的输出态为

 ∏ l i ⊗n |ψ ⟩ = U (𝜃 )|0⟩ . i=1

12.2.2 张量网络 PQC

张量网络 PQC(TPQC)将每个块视为局部张量。这些块的排列遵循特定的网络结构,如矩阵积态或树形张量网络[144]。图 12.3 展示了 TPQC 的示意图。

图 12.3:张量网络 PQC 的示意图。

图 12.3:张量网络 PQC 的示意图。

从数学上讲,第i块 U(𝜃^i)由M[i]个局部张量块组成,其中M[i] ∝ n∕2^i,表示为 U(𝜃^i) = ⊗ [j=1](M[i])U(𝜃[j]i)。请注意,这些张量块中的许多可能是恒等算符。因此,生成的状态呈现以下形式:

 M ∏l ⊗ i i ⊗n |ψ⟩ = U(𝜃j)|0⟩ . i=1 j=1

12.2.3 表达能力的度量

主要问题是回答 MPQC 和 TPQC 与其经典对应物(如经典神经网络)相比,是否具有更大的表达能力。模型的表达能力可以通过多种方式定义,例如作为模型表达不同变量之间关系的能力[22]。深度神经网络是能够学习复杂数据结构的强大模型的一个很好的例子[94]。因此,模型的能力可以通过其复杂性量化,而Vapnik-Chervonenkis 维度是衡量复杂性的选择度量[293]。目标是提供一个关于模型如何泛化到未见数据的估计。

另一种流行的方法是费舍尔信息,它描述了模型参数空间的几何结构[247]。可以说,基于费舍尔信息的有效维度,而非 Vapnik-Chervonenkis 维度,是研究量子和经典神经网络能力的更好度量[1]。

然而,最自然的表达能力度量之一是纠缠熵,它使我们能够为量子和经典机器学习模型建立一个明确的排名。在本章中,我们将展示基于纠缠熵在[88]中为 TPQC 和 MPQC 获得的表达能力估计。

让我们回顾一下在统计力学中引入的熵的定义(吉布斯熵S)和在信息论中引入的熵的定义(香农熵 H),详见第六章:

 ∑ ∑ S := − kB pilog(pi) 和 H := − pilog2(pi). i i

在这里,p[i]是吉布斯熵情况下从平衡集中取出微观状态i的概率,而在香农熵的情况下,它是从消息空间中选择消息i的概率。

这些熵的定义可以扩展到量子情况。在第一章中,我们介绍了密度矩阵作为描述纯态和混合量子态的通用工具:

 N N ∑ ∑ ρ := ρij |i⟩⟨j|, i=1 j=1

其中 (|i⟩)[i=1,…,N] 是给定量子系统的基向量。冯·诺依曼熵 𝒮 定义为

𝒮(ρ) := − Tr(ρlog(ρ)).

由于密度矩阵是厄米的,它是可对角化的,因此存在一个基 (|k⟩)[k=1,…,N],使得

 N N N ρ = ∑ ρ |k⟩ ⟨k| =:∑ p |k⟩⟨k|, where ∑ p = 1. kk k k k=1 k=1 k=1

算符 ρlog(ρ) 的特征值为 (p[k] log(p[k]))[k=1,…,N],因此我们可以得到冯·诺依曼熵的以下表达式:

 ∑ 𝒮(ρ) = − Tr (ρ log(ρ)) = − pklog(pk). k

从 (12.2.3) 和 (12.2.3) 可以看出,对于量子态的正交混合,量子熵和经典熵是相同的。

如果系统有两个组成部分,AB,我们可以将约化 密度矩阵 定义为对不感兴趣的希尔伯特空间子空间上的密度矩阵的部分迹。令 (|a⟩ i)[i=1,...,N] 为系统 A 的希尔伯特空间 ℍ[A] 的标准正交基,且 (|b ⟩ j)[j=1,...,M] 为系统 B 的希尔伯特空间 ℍ[B] 的标准正交基。则双体系统 AB 在张量积希尔伯特空间 ℍ[A] ⊗ℍ[B] 上的密度矩阵 ρ[AB] 可表示为

 ∑N ∑M N∑ ∑M ρAB = cijkl |ai⟩⟨ak|⊗ |bj⟩⟨bl|, i=1j=1 k=1l=1

对某些系数 c[ijkl],部分迹为

 ∑N M∑ ∑N ∑M TrB(ρAB ) = cijkl |ai⟩⟨ak|⟨bl|bj⟩, i=1 j=1 k=1 l=1

这是一种在 ℍ[A] 上的约化密度矩阵 ρ[A],并且

 N M N M Tr (ρ ) = ∑ ∑ ∑ ∑ c |b ⟩⟨b |⟨a |a ⟩, A AB i=1 j=1 ijkl j l k i k=1 l=1

这是一种在 ℍ[B] 上的约化密度矩阵 ρ[B]。请注意,Tr(|ai⟩a[k]|) = ⟨ak|ai⟩ 和 Tr(|b ⟩ jb[l]|) = ⟨b|b ⟩ l j

示例: 考虑处于状态中的两比特系统

|ψ ⟩ = 1√--(|01⟩ + |10 ⟩), 2

这是四种最大纠缠贝尔态之一(见第 6.5.2 节)。我们假设第一个量子比特是系统 A,第二个量子比特是系统 B。该状态对应以下密度矩阵:

 ( ) ρ := |ψ ⟩⟨ψ| = 1- |01⟩⟨01|+ |01⟩⟨10|+ |10⟩⟨01|+ |10⟩⟨10| . AB 2

现在让我们对这个状态施加部分迹 TrB:

 1 ( ) ρA := TrB(ρAB ) =-- |0⟩⟨0|⟨1|1 ⟩+ |0⟩⟨1|⟨0|1⟩+ |1⟩ ⟨0|⟨1|0⟩+ |1⟩⟨1|⟨0|0⟩ 2 ⌊ ⌋ 1 ( ) 1 1 0 = 2- |0⟩⟨0|+ |1⟩⟨1| = 2-⌈ ⌉ . 0 1

在(12.2.3)中的约化密度矩阵ρ[A]与(1.3.3)中的密度矩阵ρ相同,后者描述了一个统计集合,其中包括状态|0⟩|1⟩(混合态),即,物理系统以相等概率准备处于状态|0⟩或状态|1⟩

双体系统AB纠缠熵定义为

𝒮(ρA) := − Tr(ρA log(ρA )) = − Tr(ρB log(ρB)) =: 𝒮 (ρB),

并且可以作为衡量模型表现力的度量,方法如下。首先,注意到 TPQC、MPQC 和经典神经网络与张量网络(如矩阵积态 MPS)有着密切的联系[88]。关键问题是,给定的量子系统是否可以通过 MPS 高效表示。

满足面积定律(其纠缠熵与边界面积成比例增长)的量子系统具有高效的矩阵积态(MPS)表示。同时,满足体积定律(其纠缠熵与体积成比例增长)的量子系统不能通过 MPS 有效表示[88]。

12.2.4 PQC 的表现力

在第五章中,我们介绍了受限玻尔兹曼机(RBM)——一种操作在随机二进制激活单元上的神经网络,是参数化量子电路的自然经典对应物。我们考虑了两种类型的 RBM:

  • 一个浅层的两层网络,其中可见层的激活单元与隐藏层的激活单元相连,但同一层内的激活单元之间没有连接;

  • 更深层次的多层堆叠式受限玻尔兹曼机(RBM)网络,其中第k层 RBM 的隐藏层作为第(k + 1)层 RBM 的可见层。这种堆叠式 RBM(按顺序训练)称为深度玻尔兹曼机(DBM)。

还可以对 RBM 层之间的连接施加进一步的限制。在短程RBM 中,我们限制隐藏层激活单元的连接性,使它们只能连接到可见层中相互接近的少数激活单元(局部连接)[84]。在长程RBM 中,我们允许隐藏层激活单元与可见层激活单元之间的连接不一定是局部的。

邓、李和萨尔马已经确定了所有短程 RBM 态的纠缠熵满足任意维度和二分几何的面积定律[85]。对于长程 RBM 态,这些态可能表现出体积定律的纠缠。因此,长程 RBM 能够表示具有大纠缠的量子态。

可能并不令人惊讶的是,DBM 的表达能力甚至比单一的 RBM 更强。然而,利用纠缠熵作为表达能力的度量,Du、Hsieh、Liu 和 Tao 在[88]中证明了 MPQC 的表达能力严格大于 DBM。主要结果可以表述为以下定理:

定理 10(表达能力定理) MPQC 和 TPQC 的表达能力,使用 𝒪(poly(n)) 个单量子比特门和 CNOT 门,以及具有 𝒪(poly(n)) 可训练参数的经典神经网络,其中 n 表示量子比特或可见单元的数量,可以排序为

MPQC > DBM > long-range RBM > TPQC > short-range RBM.

定理 10 为旨在确立基于 PQC 的 QML 模型量子优势的实验工作提供了坚实的理论基础。与经典模型相比,PQC 更强的表达能力促使了近年来许多此类模型的发展。例如,针对 NISQ 设备并利用量子纠缠更强表达能力的混合量子-经典方法,已在[59]中提出。通过数值模拟表明,量子长短期记忆(QLSTM)模型比具有相似网络参数的经典 LSTM 学习得更快。此外,QLSTM 的收敛性比其经典对手更加稳定。在[58]中提出了量子卷积神经网络(QCNN),由于其更强的表达能力,达到了比经典 CNN 更高的测试精度。其表达能力的来源是用基于变分量子电路的量子卷积核替代了经典的卷积滤波器。

多层参数化量子电路,如 QCBM,在只允许多项式数量的参数时,比经典模型如 RBM 具有更强的表达能力。对于表现出量子优势的系统,经典模型无法学习重现统计数据,除非它使用指数级的资源[29]。

摘要

在本章中,我们学习了参数化量子电路的力量来自何处。我们从观察到量子神经网络在其架构中具有强大的正则化开始。这是因为任何 PQC,无论多么宽广和深度,都是一个单位线性算符。

接下来,我们考虑了参数化量子电路的表达能力,并建立了表达能力层级的概念。主要结果(定理 10)支持了实验结果,这些实验表明在与 NISQ 设备主要特性兼容的各种 QML 模型中存在量子优势的元素。

在下一章中,我们将深入探讨新量子算法这一较少研究的领域,这是一个非常活跃的研究方向。

加入我们书籍的 Discord 空间

加入我们的 Discord 社区,与志同道合的人一起学习,和超过 2000 名成员共同探讨:packt.link/quantum

图片

第十三章:展望未来

第一代量子算法出现在 1990 年代,那时量子计算机仅仅是一个概念。一方面,缺乏实际的量子硬件是一个巨大的劣势,因为这使得直接实验变得不可能;另一方面,这也激发了理论研究,而理论研究不受早期量子计算机的不完美限制和约束。研究人员专注于设计可以实现二次甚至指数级加速的算法,假设有一天将会出现强大的、无误差的量子计算机。这正是 Shor 的素因数分解算法[265]和 Grover 的搜索算法[117]被发现的时期。顺便提一下,在本书即将发布之际,Peter Shor 被授予 2022 年基础物理学突破奖的四位获奖者之一(与 C. H. Bennett、G. Brassard 和 D. Deutsch 一起),以表彰他们在量子信息领域的奠基性工作。许多此类算法依赖于基本的构建模块,如量子相位估计和量子傅里叶变换[278]。这些算法在展示通用门模型量子计算机的能力方面发挥了重要作用——如果它们当时存在的话!

25 年后,我们面临了一个不同的问题:开发实用的量子计算算法和技术,使我们能够从 NISQ 计算机中提取价值。虽然量子计算硬件以惊人的速度在进步,但它仍然远未达到能够破解 RSA 加密的程度。现有的量子计算机能够做什么?与经典计算机相比,它们的相对优势在哪里?在本章中,我们将探讨几种新的、适用于 NISQ 的算法,这些算法让我们更接近实现量子优势的目标。

13.1 量子核方法

我们首先介绍流行的经典核方法,然后描述基于参数化量子电路的量子版本。

13.1.1 经典核方法

核方法是强大经典监督学习算法的关键元素:支持向量机(SVM)。与目标是最小化分类误差的前馈神经网络分类器不同,SVM 的目标是最大化边界,即定义为分隔超平面(分隔属于不同类别的样本的决策边界)与距离该超平面最近的训练样本之间的距离[243]。距离分隔超平面最近的样本被称为支持向量,因此该算法得名。

边际最大化降低了泛化误差,并有助于抵抗过拟合。这是一个非常重要的性质,但对于非线性可分的数据,寻找分隔超平面并非易事。幸运的是,核方法允许我们通过创建原始特征的非线性组合,并将其投影到一个高维空间,从而克服这个困难,在该空间中数据样本变得线性可分。

而具有线性可分数据的支持向量机(SVM)操作在训练样本的内积上⟨xi,xj⟩,其广义版本对于非线性可分数据则操作在核函数上

k(xi,xj) := ϕ(xi)⊤ ϕ(xj),

其中ϕ : ℝ^N → ℝ^M,且MN,是将N维特征 x := (x[1],…,x[N])投影到M维特征空间的特征映射。直接计算内积(13.1.1)将计算代价高昂,但核函数计算代价较低——这就是所谓的核技巧。核函数可以看作是对一对样本操作的相似性函数。例如,径向基函数

 i j ( ∥xi − xj∥2) k(x,x ) = exp − ---2σ2---- ,

将样本 x^i 和 x^j 之间的距离(定义在[0,∞)^N 上)转化为相似性分数(定义在区间[0,1]上)。

核函数的选择可以使分类任务变得更加容易。然而,一些核函数可能计算起来比较困难。这时,量子计算可能通过提供高效的量子电路来计算它们,发挥重要作用。

13.1.2 量子核方法

王、杜、罗和塔 [298]展示了经典核和量子核之间的密切对应关系。特征映射ϕ(⋅)与通过参数化量子电路𝒰(⋅)准备量子态相吻合,后者将输入数据样本映射到由n个量子比特描述的高维希尔伯特空间中:

 ⊗n ϕ(x) → |ψ(x)⟩ = 𝒰(x) |0⟩ .

然后,核函数与对准备好的量子态进行测量相吻合:

 |⟨ ⟩| k(xi,xj) → |ψ (xj)|ψ(xi) |2 ,

并且与替代方法相比,能够支持更具表现力的模型

k (xi,xj) = ϕ(xi)⊤ ϕ(xj) → ⟨ψ(xj)|ψ (xi)⟩.

 [143]认为,尽管核函数 (13.1.2) 似乎更自然,但量子核 (13.1.2) 可以学习任意深度的量子神经网络(深度 PQC)。这是一个强有力的结果,特别是结合了参数化量子电路(第十二章,公式 (10))的表现力层级。

Havlíček 等人 [129]描述了量子计算机如何用于估计核函数。核函数项是不同特征向量之间的保真度(类似于经典核方法中的相似度得分)。Burnham、Cleve、Watrous 和 R. de Wolf [50],以及 Cincio、Subaşi、Sornborger 和 Coles [66]研究了各种保真度估计方法,如量子指纹识别和机器学习方法(这两者都依赖于应用 CSWAP 门实现交换测试)。然而,通过利用特征空间中的状态并非任意的这一事实,量子态之间的重叠可以通过转移概率进行估计:

|⟨ j i⟩|2 † j i 2 | ψ(x )|ψ(x )| = |⟨0 |𝒰 (x )𝒰 (x ) |0⟩|,

其中,为了简便,我们使用了符号|0 ⟩ := |0⟩(⊗n)。第一步是将两个连续的特征映射电路(表示操作符𝒰(xi)和𝒰†(xj))应用于初始态|0⟩。第二步是在计算基下对最终态进行K次测量,并计数所有零字符串|0⟩的数量κ。所有零字符串的频率κ∕K是转移概率(即“相似度得分”)的估计值。

剩下的监督学习协议是经典的,允许量子计算的核函数自然嵌入到整体框架中:该算法本质上仍然是经典的,只有经典计算中困难的任务被外包给量子芯片。

13.1.3 特征映射的量子电路

图 13.1 展示了特征映射电路的示意图。在这个示例中,我们处理的是一个 8 维数据集,其特征通过旋转角度进行编码,因此样本 x^i := (x[1]i*,…,x*[8]i)可以直接映射到可调电路参数向量𝜃^i := (𝜃[1]i*,…,𝜃*[8]i)。电路的第一部分实现了操作符𝒰(x^i),由于固定的两量子比特 CZ 门层,它创建了一个纠缠态,而电路的第二部分实现了𝒰†(xj)。这里我们使用以下事实:

R†X(𝜃) = RX(− 𝜃), R†Y(𝜃) = RY(− 𝜃), CZ† = CZ。

很容易看出,如果样本 x^i 和 x^j 相同(即𝜃^i = 𝜃j),则𝒰(xi)𝒰†(xj) = ℐ,并且所有K次测量都将返回所有零字符串|0 ⟩

图 13.1:示意量子核电路。

图 13.1:示意量子核电路。

剩下的协议是经典的——量子计算机用于辅助分类器计算核函数,如果仅有经典计算资源,则无法实现该计算。

现在,让我们将量子内核方法应用于澳大利亚信用审批数据集(在第八章中介绍),以估计来自同一类别的样本和来自两个不同类别的样本之间的相似度。ACA 数据集由 690 个样本组成,其中 383 个样本被标记为类别 0,307 个样本被标记为类别 1,因此数据集在类别上是合理平衡的。每个样本由 14 个特征(连续、整数、二进制)组成。在第八章中,我们构建了一个 QNN 分类器,并在 ACA 数据集上测试了其性能,采用了第 7.2 节中解释的角度编码方案。我们希望构建一个与角度编码方案一致的特征映射,并且不需要构建一个过深的 PQC。事实上,我们希望使用 PQC 构建一个尽可能接近图 13.1 所示的特征映射。该方案可以嵌入到本书之前讨论的所有现有 NISQ 系统中。例如,我们可以使用图 13.2 所示的 IBM 墨尔本系统。

图 13.2:量子内核电路嵌入到 IBM 的墨尔本系统中。

图 13.2:量子内核电路嵌入到 IBM 的墨尔本系统中。

我们知道,如果采用角度编码方案,7 个量子寄存器(如图 13.2 中以粗线连接的阴影量子比特所示)可以编码一个 14 特征的数据样本。对应的电路如图 13.3 所示。物理量子比特之间的线性顺序连接使得选择 2 量子比特门变得非常直接(实际上,与图 13.1 中的相似)。

图 13.3:ACA 数据集的量子内核电路。

图 13.3:ACA 数据集的量子内核电路。

在图 13.3 所示的电路中,角度𝜃^i 和𝜃^j 分别编码数据样本 x^i 和 x^j,这些样本可以来自同一类别,也可以来自两个不同类别。运行电路K次并计算所有全零比特串的数量κ(测量后)可以给出样本 x^i 和 x^j 之间的相似度度量(估计为比率κ∕K)。图 13.4 显示了通过在 Qiskit 模拟器上运行量子电路K = 10,000 次得到的量子内核(13.1.2)的转移概率(相似度分数)均值。均值是通过计算来自相应类别的所有可能样本对的结果得到的。

图 13.4:ACA 数据集的量子内核(13.1.2)的均值。

图 13.4:ACA 数据集的量子内核(13.1.2)的均值。

正如预期,从同一类别中抽取的样本相比于来自两个不同类别的样本,量子核所给出的相似度得分通常显著更大。

可以在量子计算机上高效计算的量子核具有提升混合量子-经典机器学习模型性能的潜力。

13.2 量子生成对抗网络

生成对抗网络(GANs)是强大的统计技术,用于生成(按需)足够接近给定样本的数据(在某种意义上)。它们在[114]中首次提出,并最初在图像数据上进行测试。从那时起,它们在金融领域得到了广泛应用,包括时间序列生成[301, 302],交易模型调优[176],投资组合管理[196],合成数据生成[17]以及各种类型的欺诈检测[261]。其核心思想是通过生成器和判别器互相竞争,从而提升自身能力:生成器通过变得更擅长从随机噪声中生成接近真实数据的样本(即,好的样本)而提升,而判别器则通过能够识别真实数据和“假数据”(即生成的数据)来提升。生成器和判别器通常都是构建为神经网络,并具有待优化的超参数。数学上,给定一个生成器(⋅,𝜃()和一个判别器(⋅*,*𝜃(),其中𝜃(和𝜃(表示超参数,问题可以表述为如下:

 { } min max 𝔼x∼ℙdata [log ((x;𝜃 )]+ 𝔼z∼ℙ ) [log (1− ((z;𝜃);𝜃 ))] , 𝜃 𝜃 (⋅,𝜃

其中 x ∼ℙ[data] 表示从原始数据集中生成的某个样本 x,而 z ∼ℙ 表示从生成器生成的样本。我们建议有兴趣的读者参考[[95],了解生成对抗网络在金融中的优点和陷阱。鉴于其流行以及量子神经网络的存在(第八章),因此探索生成对抗网络是否可以扩展到量子世界,以及这样做是否存在任何优势,显得十分自然。

量子生成对抗网络(QGAN)的主要原则——由 Lloyd 和 Weedbrook[192]以及 Dallaire-Demers 和 Killoran[77]同时提出——保持不变,依赖于两个参与者,生成器和判别器,相互竞争。在[192]中,作者将经典问题转化为密度矩阵的语言(在 1.3.1 节中描述):给定一些由密度矩阵σ(不一定描述纯态)表示的数据和生成器生成的输出密度矩阵ρ,判别器的任务是从假数据中识别真实数据。更具体地,它通过正算符值测量(见 1.2.3 节)产生结果 T(代表真实)或(代表假)。给定真实数据,测量得出正向答案的概率是

ℙ(T |σ ) = (Tσ ),

给定生成数据的情况下,它得出正向答案的概率是

ℙ(T|) = (T ρ).

对抗游戏,与经典情况类似,因此可表示为

 { } min max (T ρ)− (Tσ ) . T

请注意,正测量算符集 T(其 1-范数小于 1)和密度矩阵集ρ是凸集,这确保了优化问题(13.2)至少存在一个最优解。然而,这两个集合是无限维的,使得优化问题难以求解。通过类似的论证,Dallaire-Demers 和 Killoran[77]进一步提出将生成器和判别器建模为由描述旋转角度等参数的参数化变分量子电路。一个自然的问题是是否存在某种最优的变分量子电路架构。尽管目前没有明确答案——据我们所知——近期的发展已改善了我们对这种电路的理解和其能力。

n个量子比特开始,一个量子生成器: ℂ(2n) →ℂ(2n) 采取多层量子神经网络的形式,例如如下所示:

 ∏1 := Ul(𝜃l). l=L

对于每一层l ∈{1,…,L},单元门 Ul 同时作用于所有n个量子比特,并依赖于一组参数(或超参数)𝜃[l]。为了避免(过于昂贵的)高阶量子比特门,纠缠采用成对控制单元门的形式,因此我们假设,对于每个l ∈{1,…,L},U[l]仅由一比特或二比特门组成。一种可能的(虽然不是唯一的)参数化 U[l]的方法是基于以下原则:

  • 任何一个比特单元门都可以分解成三个旋转门 R[Z]、R[X]和 R[Y]的序列,如在[223,定理 4.1]中所证明;

  • 按照[256],非原始两比特门(即将乘积态映射到非乘积态的两比特门),结合单比特门,确保量子通用性[47]。特别地,分解式 RXQ(ϕ)是通用的[47,补充定理 9.2],其中𝜃, ϕ ∈ 0,2π),在此

    ![ ⌊ ⌋ | 1 0 0 0 | || 0 1 0 0 || Q(ϕ) := | | . |⌈ 0 0 1 0 |⌉ 0 0 0 eiϕ 因此,L层神经网络的一般形式为(13.2),其中每层门 Ul 的形式为|  {⊗n } Ul(𝜃l) = RX(𝜃ie)Q1+(i mod n)(𝜃iimp) i=1 {( n ) ( n ) ( n ) } ⊗ R (𝜃i ) ⊗ R (𝜃i ) ⊗ R (𝜃i ) , i=1 Z Z,l i=1 X X,l i=1 Y Y,l | |
    | --- | --- |

其中 Q^i 表示比特i是控制比特,门作用于比特(i + 1)。注意,1 + (i mod n) = 1 + ii ∈{1,…,n− 1} 时,并且当 i = n 时等于 1。因此,每层的超参数总数为 5n,总共为 5nL。判别器本身可能是量子性质的,也可能不是(遵循类似生成器的构造),具体取决于实际问题(例如,它在[18]中有,但在[268]中没有),并且问题的性质 – 尤其是可能需要将数据从量子编码/解码为经典(成本较高)可能会影响这一选择。

有限维优化(13.2)通常通过某些梯度下降方法进行;梯度本身是通过在[77]中的独立量子电路计算的,或者更高效地 – 使用在 8.2.3 节中解释的参数偏移规则(参见[257]),该规则允许通过原始电路精确计算梯度。

QGANs 是一个非常新的活跃研究领域,预计 NISQ 基础的算法将在此领域特别有成果。它们与 QNNs 的整体发展密切相关,当前该领域的进展涉及以下内容,我们鼓励读者在未来几年密切关注:

  • QGAN 用于生成概率分布:我们建议感兴趣的读者参考[18,268,314],主要是在金融领域的单变量分布,以及[5,312],涉及多变量分布;

  • 量子卷积神经网络:在[160]中,作者展示了如何处理(量子)深度神经网络中的非线性问题;[69,300]解释了如何减少电路中所需的门数量(即旋转参数的数量),而[142]强调了两比特交互的重要性和充分性,更适用于 NISQ 设备;

  • 量子 Wasserstein GAN:在[55]中——模仿经典 Wasserstein GAN 的最新结果[13,121]——作者引入了量子数据之间的 Wasserstein 半度量,用于减少所需量子门的数量。

13.3 贝叶斯量子电路

参数化量子电路可以用来构造具有期望特性的量子态,并以受控的方式对其进行修改。然后,测量最终的量子态相当于从概率分布中绘制一个比特串样本。这是我们在第九章中考虑的量子电路 Born 机(QCBM)背后的关键概念。贝叶斯量子电路(BQC)是另一种量子生成式机器学习模型,扩展了 QCBM 的功能[88]。与仅在数据量子比特上操作并编码期望概率分布的 QCBM 不同,BQC 具有额外的辅助量子比特,编码先验分布。BQC 电路如图 13.5 所示。

图 13.5:BQC 的示意图。

图 13.5:BQC 的示意图。

电路中的前m个量子寄存器是辅助量子比特。应用K操作符块 U(γi)[i=1,…,K]到初始态![|0⟩](https://github.com/OpenDocCN/freelearn-quant-zh/raw/master/docs/qml-opti-fin/img/file1266.jpg)(⊗m)之后,我们构造出态|ψ ⟩

 K |ψ⟩ = ∏ U(γi) |0⟩⊗m , i=1

并通过测量该态生成来自先验分布的样本。

接下来的n个量子寄存器是数据量子比特。对它们进行的量子门操作依赖于辅助量子比特的状态。条件性地将l × m个操作符块应用到n个数据量子比特后,我们得到一个条件于|ψ ⟩的态。测量该态将生成来自条件分布的样本,这正是实现贝叶斯模型所需的。贝叶斯建模允许我们使用贝叶斯定理[57]根据一些观测数据D推断模型参数𝜃的后验分布。

ℙ(𝜃|D) = ℙ-(D-|𝜃)ℙ(𝜃) = ∫-ℙ(D-|𝜃-)ℙ-(𝜃)--, ℙ(D ) ℙ(D |𝜃)ℙ(𝜃)d𝜃

其中ℙ(D|𝜃)是似然,ℙ(D)是边际似然或证据,ℙ(𝜃)是先验。我们通过反复测量由(13.3)给出的状态|ψ⟩得到ℙ(𝜃),通过反复测量在应用条件算符 U(β)后的最终状态得到ℙ(D|𝜃),并通过反复测量在无条件应用算符 U(β)后的最终状态得到ℙ(D)。

对于 BQC,先验由参数γ := (γ¹,…,γ^K)进行参数化。后验可以用来通过后验 预测 [105]来建模新的未见数据,D^∗:

 ∫ ℙ(D ∗|D) = ℙ (D ∗|𝜃)ℙ(𝜃|D)d𝜃.

这个积分对所有可能模型的预测进行加权平均,权重由后验概率给出,这叫做贝叶斯模型平均

BQC 可以通过最小化第九章中描述的最大均值差异成本函数进行训练。在表现力方面,Du、Hsieh、Liu 和 Tao [88]展示了与 MPQC 相比,从计算复杂度角度来看,BQC 具有更强的表现力。

贝叶斯网络可以用于金融资产价格预测 [21,56],预测限价单市场的动态 [199],预测企业破产 [52],以及建模、分析和理解交易行为 [282]。

贝叶斯量子电路模型通过增加编码先验分布的辅助量子寄存器,扩展了作为生成模型(QCBM)训练的参数化量子电路的能力。因此,它比 MPQC 具有更强的表现力。

13.4 量子半正定规划

在半正定规划(SDP)中,优化一个线性函数,受限于对称矩阵的仿射组合是正半定的这一约束。这样的约束是非线性和非光滑的,但却是凸的,因此半正定规划是凸优化问题。半正定规划统一了几种标准问题(例如线性规划和二次规划),并在工程和组合优化中找到许多应用 [292]。类似于寻找经典核方法的量子对应物,我们可以指定 SDP 的量子版本。

13.4.1 经典半正定规划

SDP 通常可以定义为以下优化问题:

 max Tr(CX ), subject to Tr(AjX ) ≤ bj, for all j ∈ [[M ]], X∈ℳ+N(ℝ)

其中[[M]] := {1,…,M},ℳ[n]^+(ℝ)表示大小为N × N的正半定矩阵集合。这里,厄米矩阵(A[j])[j=1,…,M]和 C 位于ℳN 中,(b[j])[j∈[[M]]] ∈ℝ^M 是问题的输入。

SDP 可应用于复杂的 NP 难优化问题 [112],例如各种投资组合优化问题。例如,通常认为资产收益的分布是已知的,这是一种不现实的假设。所需的信息可能不完整,估计也可能受到估计误差和建模误差的影响(例如,假设分布是平稳的)。

13.4.2 最大风险分析

假设资产收益协方差矩阵 Σ 的估计存在不确定性,经典的最大风险分析问题可以表述为

 ⊤ L U Σ∈mℳa+x(ℝ)w Σw, subject to Σij ≤ Σij ≤ Σ ij, for all i,j ∈ [[N ]], N

其中,w 是固定的权重向量,Σ 是问题变量。对于每个 i,j ∈ [[N]],矩阵 Σ[ij]^L 和 Σ[ij]^U 是 ℳ[N]^+(ℝ) 中的固定约束条件。任务是确定已知资产配置下,给定资产收益协方差矩阵估计的不确定性,最大可能的投资组合风险。该问题可以表示为以下的 SDP [229]:

 max Tr(w ⊤Σw ) , Σ∈ℳ+N(ℝ) ({ L subject to Tr(− EijΣ) ≤ − Σ ij, for all (i,j) ∈ [[N ]]× [[N ]], ( Tr(EijΣ ) ≤ ΣU , ij

其中我们表示 (E[ij])[αβ] := δ[iα]δ[jβ]。最大风险分析问题可以用相同的形式表达,只是使用不同的风险度量,如 VaR 或预期短缺。

13.4.3 稳健投资组合构建

稳健投资组合构建问题旨在找到一种资产配置方法,使得建议的资产配置权重在估计误差最小化方面表现最优。该问题在 [194] 中通过蒙特卡罗模拟方法得以解决,从而确定了对于给定投资组合中输入协方差矩阵的小变化,最稳健的资产配置方法。

在最一般的情况下,它可以被表述为最小-最大问题

min max w ⊤Σw, w∈𝒲 Σ∈𝒮

其中

𝒮 := {Σ ∈ℳ[N]^+(ℝ) : Σ [ij]^L ≤ Σ [ij] ≤ Σ[ij]^U, for all i,j ∈ [[N]]},
𝒲 := { N ⊤ ⊤ } w ∈ ℝ : 1 w = 1, μ w ≥ Rmin,

其中 w 是权重向量,μ 是预期资产收益向量,Σ 是资产收益的协方差矩阵。

以下定理(最早由冯·诺依曼于 1928 年证明 [297]) 确立了最小最大和最大最小优化问题的等价性 [288]:

定理 11(最小最大定理). 𝒳 ⊂ℝ^n 𝒴 ⊂ℝ^m 是紧致的 凸集。如果函数 f : 𝒳 ×𝒴 →ℝ 对于固定的**yx* 为变量是连续的且凹的,并且对于固定的x,以**y 为变量是连续的且凸的,则*

min max f (x, y) = max minf (x, y). y∈𝒴 x∈𝒳 x∈ 𝒳 y∈𝒴

因此,一般来说,最小-最大鲁棒投资组合构建问题(在 w 中是凸的,在 Σ 中是凹的)等价于最大-最小问题,并且可以表达为上述约束下的一个 SDP 形式,涵盖所有变量[229]。

13.4.4 量子半定规划

量子半定规划(QSDP)背后的关键思想是基于这样一个观察:一个归一化的正半定矩阵可以自然地表示为量子态。在量子计算机上,量子态的操作有时比经典矩阵操作在计算上更为廉价。这一思想促使了针对 SDPs 的量子算法的发展[42]。

考虑 SDP (13.4.1) 并设 𝜀 > 0 为一个小值。如果对于所有输入 g ∈ ℝ 和 ζ ∈ (0, 1),该算法能以成功概率 1 −ζ 找到一个向量 y ∈ ℝ^(M+1) 和一个实数 z,使得对于密度矩阵

 ( ) ∑M ρ = ---e(xp--−(---j=1yjAj-+-y0C--)), Tr exp − ∑M y A + y C j=1 j j 0

我们得到 是一个 𝜀-可行解,其目标值至少为 g𝜀,即

( { Tr(z ρAj) ≤ bj + 𝜀, 对所有 j ∈ [[M ]], ( Tr(z ρC) ≥ g − 𝜀,

或者得出结论,即使我们设定 𝜀 = 0,也不存在这样的 z 和 y。

Brandão 和 Svore 在 Arora-Kale 框架[14]下实现了一个通用的稀疏矩阵 QSDP 求解器[42]。他们观察到,密度矩阵ρ 在 (13.4.4) 中实际上是一个对数(N)-量子比特的吉布斯状态,并且可以高效地在量子计算机上准备为量子态。

读者应已熟悉吉布斯态(吉布斯分布)形式

 − βℋ ρ = -e------, Tr(e− βℋ)

其中 ℋ 是问题哈密顿量,Tr(exp(−βℋ)) 是配分函数。吉布斯(玻尔兹曼)采样和吉布斯(玻尔兹曼)分布在第五章讨论过(在 (5.4.1) 和 (5.4.1) 中)。配分函数的形式在 (13.4.4) 中不应令人困惑。回顾 (10.1),由于哈密顿量是一个厄米算符,其谱分解产生的表示是

 ∑ ℋ = Ei |ψi⟩⟨ψi|, i

该密度矩阵给出了吉布斯态的以下表达式:

 e−βℋ 1 ∑ ρ = -----= -- e−βEi |ψi⟩⟨ψi|, Z Z i

其中配分函数 Z

 ( ) ∑ Z = Tr e− βℋ = e− βEi. i

QSDP 相较于任何经典方法,在求解 SDP 问题上提供了平方根无条件加速,无论是在 N 还是 M 维度上[42]。

量子半定规划是另一个可以通过量子加速实现的例子,因为在量子计算机上对量子态进行的运算,比在经典计算机上进行相应的矩阵运算要计算开销小得多。

我们希望以一瞥超越 NISQ 计算机能力的视角来结束本章(以及本书!)。最后一节介绍了几种重要的算法,这些算法有一天将成为许多量子计算应用的主要构建模块。

13.5 超越 NISQ

本节开始介绍许多重要量子算法的核心部分——量子傅里叶变换(QFT),然后转向其旗舰应用——量子相位估计(QPE),最后讨论如何通过量子蒙特卡洛(QMC)和量子线性求解器(QLS)算法实现量子加速的可能性。

13.5.1 量子傅里叶变换

在经典设置中,离散傅里叶变换将向量 x := (x[0],…,x[2^n−1]) ∈ℂ(2n) 映射到向量 y := (y[0],…,y[2^n−1]) ∈ℂ(2n),其分量为

 n 1 2∑−1 ( 2πijk) n yk = √-n- exp -2n--- xj, 对每个 k = 0,...,2 − 1. 2 j=0

类似地,量子傅里叶变换是线性映射

 1 2∑n−1 ( 2πikj ) |k⟩ ↦− → √-n- exp --n--- |j⟩ , 2 j=0 2

和运算符

 2n−1 ( ) ℱ := √1---∑ exp 2πikj- |j⟩⟨k| q 2n 2n k,j=0

表示傅里叶变换矩阵,它是单位矩阵,因为 qℱqℱ^† = ℐ。在一个 n 比特系统中,基态为 (|0⟩,…,|2n − 1⟩),对于给定的态 |j⟩,我们使用二进制表示

j := j-⋅⋅⋅j-, 1 n

其中 (j[1],…,j[n]) ∈{0,1}^n,使得 |j⟩ = |j1⋅⋅⋅jn⟩ = |j1⟩|jn⟩。同样,符号 0.j[1]j[2]…j[n] 表示二进制小数 ∑ [i=1]n2(−i)j[i]。基础代数(参见 [223,第 5.1 节] 了解详细信息)得出

 --1- ( 2πi0.jn ) ( 2πi0.jn−1jn ) qℱ |j⟩ = √2n- |0⟩+ e |1⟩ ⊗ |0 ⟩+ e |1⟩ ⊗ ⋅⋅⋅ ( ------ ) ⋅⋅⋅⊗ |0⟩ + e2πi0.j1...jn |1⟩ .

13.5.2 量子相位估计

QPE 的目标是估计给定单位算符 𝒰 的未知相位 φ ∈ 0,1),该算符具有特征向量 ![|u⟩ 和特征值 exp(2πiφ)。考虑一个大小为 m 的寄存器,并定义 { ---------} b∗ := sup j = 2m 0.j1 ⋅⋅⋅jm . j≤2m φ

因此,使用 b^∗ = b[1]⋅⋅⋅b[m],我们得到 2(−m)*b*∗ = 0.b[1]⋅⋅⋅b[m]是φ的最佳m-位下界近似。QPE 过程使用两个寄存器,第一个包含m个量子比特,初始状态为|0⟩。选择m依赖于对φ的估计精度的位数,以及希望成功进行相位估计过程的概率。

QPE 允许我们对任何厄米算符实施测量。请注意,我们总是测量单个量子比特。如果我们想要测量更复杂的可观察量,可以使用实现冯·诺依曼测量方案的 QPE [212]。该例程在一个寄存器中准备厄米算符的特征状态,并在第二个寄存器中存储相应的特征值。

经过 SWAP 变换后,量子相位电路[223,第 5.2 节]给出了输出

 1 ( 2πi0.φm ) ( 2πi0.φm−-1φm- ) |ψ⟩ = √-m-- |0⟩+ e |1⟩ ⊗ |0⟩+ e |1⟩ ⊗ ⋅⋅⋅ 2 ( ------- ) ⋅⋅⋅⊗ |0⟩+ e2πi0.φ1...φm |1⟩ ,

它与状态 m |2 φ⟩ = |φ1φ2 ...φm⟩的 QFT 完全相等,如(13.5.1)所示,因此|ψ ⟩ = qℱ|2m φ⟩。由于 QFT 是一个单位变换,我们可以逆向操作以恢复 m |2 φ⟩。下面的算法 10 提供了 QPE 过程的伪代码,感兴趣的读者可以参考[223,第 5.2 章]以获取详细的解释。

--------------------------------------------------------------------- -算法---10:-量子-相位-估计--------------------------- 输入:• 单位矩阵(门)U,其中 U |u⟩ = e2πiφ |u⟩; • m 个辅助量子位初始化为|0 ⟩。 ⊗m 1: 准备初始状态,其中|0⟩为 m 量子比特辅助寄存器,|u⟩为 n 量子比特特征状态寄存器。 2: 使用 Hadamard 门对辅助寄存器进行操作,将其映射到 2m− 1 √-1-- ∑ |j⟩ |u ⟩ 2m j=0。 3: 使用控制 Uj 门将其映射到 2m∑− 1 2m∑ −1 √-1-- |j⟩Uj |u⟩ = √1-- |j⟩e2πijφ |u ⟩ 2m j=0 2m j=0。 4: 使用逆量子傅里叶变换(QFT)计算|φ^⟩ |u⟩,其中φ^是φ的 m 量子比特近似值。 5: 测量得到φ^。 结果:相位估计^φ。 ---------------------------------------------------------------------

13.5.3 蒙特卡罗加速

利用量子相位估计提供的加速,Montanaro [216] 设计了一种蒙特卡罗方案,相比经典方法提供量子加速。

经典蒙特卡罗

蒙特卡洛技术代表了一系列模拟随机过程统计的广泛方法。我们推荐感兴趣的读者参考出色的专著 [111],以获得完整的描述和分析。考虑一个一维随机变量 X 和一个函数 ϕ : ℝ → [0,1],使得 𝔭 := 𝔼[ϕ(X)] 和 σ² := 𝕍[ϕ(X)] 都是良好定义的。根据中心极限定理,给定一组独立同分布的随机变量 (X[1],…,X[N]),它们的分布与 X 相同,则

√ --^𝔭N-−-𝔭- N σ

N 趋于无穷时,收敛到具有单位方差的中心高斯分布 𝒩(0,1),其中 𝔭[N] := 1- N ∑ [i=1]^NX[i] 是经验均值。这意味着,对于任意 𝜀 > 0,我们可以估计

 ( √ --) (||^ || ) 𝜀--N- ℙ 𝔭N − 𝔭 ≤ 𝜀 = ℙ |𝒩 (0,1)| ≤ σ ,

因此,对于任意 z > 0 和 δ ∈ (0,1),为了得到形式为 ℙ(| | ) |^𝔭N − 𝔭| ≤ z = 1 − δ 的估计,我们需要 N = 𝒪(1∕𝜀²) 个样本。

量子蒙特卡洛

现在考虑一个形式为 𝒜 的算子

 ⊗n ∑ 𝒜 |0⟩ = αx |ψx⟩ |x⟩, x∈{0,1}k

对于某个 kn,其中每个 |ψx⟩ 是一个具有 nk 量子位的量子态,|x⟩ 是一个具有 k 量子位的量子态,α[x] ∈ℂ 是某个幅度,其含义将在下文明确。我们假设 {|ψx⟩}[x∈{0,1}^k] 形成一个正交家族,实际上是“垃圾量子位”,即例如用作受控量子位来根据数据构建解向量 |x⟩。给定编码数据 |x⟩,进一步假设存在算子 𝒲:

 ( ∘ -------- ∘ ---- ) 𝒲 |x⟩ |0⟩ = |x⟩ 1− ϕ (x) |0⟩ + ϕ(x) |1⟩ .

例如,可以通过使用以下引理来实现这一点。

引理 9(条件旋转。定理 3.5 在 [184])) 给定一个量子态 |ψa ⟩,编码 a ∈ [−1,−1] 在**q 量子位中,存在一个量子电路执行单位映射 |ψ ⟩ a|0⟩↦−→|ψ ⟩ a(a|0⟩ + √ ------ 1− a2 |1⟩).

现在考虑算子 ℳ:

 ( ) ( ) ℳ := ℐn− k ⊗ 𝒲 𝒜 ⊗ ℐ ,

其中 ℐ^(n−k) 表示作用在 nk 量子位上的单位算子,因此

|ψ⟩ := ℳ|0⟩^(⊗(n+1))
= (ℐ^(n−k) ⊗𝒲)( ) ∑ ( αx |ψx⟩ |x⟩) x∈{0,1}k|0⟩
= ∑ [x∈{0,1}k]*α*[x]![(](https://github.com/OpenDocCN/freelearn-quant-zh/raw/master/docs/qml-opti-fin/img/file1339.jpg)ℐ(n−k) ⊗𝒲)|ψx ⟩|x⟩|0⟩
= ∑ [x∈{0,1}^k]α[x]|ψx⟩|x⟩(∘ -------- ∘ ---- ) 1− ϕ(x) |0⟩ + ϕ(x) |1⟩
=: |ΨB ⟩|0⟩ + |ΨG ⟩|1⟩,

其中 |Ψ ⟩ B,

 ∑ ∘ -------- |ΨB ⟩ := αx 1− ϕ (x ) |ψx⟩ |x⟩, x∈ {0,1}k

代表“坏”状态,并且 |ΨG ⟩,

 ∑ ∘ ---- |ΨG ⟩ := αx ϕ(x) |ψx⟩ |x⟩, x∈{0,1}k

代表“好”状态。

现在考虑投影算符 𝒫 := ℐ^n|1⟩⟨1| 并测量最后一个量子比特 |ψ⟩处于状态 |1⟩的概率,即

ψ|𝒫^†𝒫|ψ ⟩ = ⟨ψ|𝒫|ψ⟩
= (⟨0|⟨Ψ[B]| + ⟨1|⟨Ψ[G]|)𝒫(|Ψ ⟩ B|0⟩ + |Ψ ⟩ G|1⟩)
= (⟨0|⟨Ψ[B]| + ⟨1|⟨Ψ[G]|)(|ΨB ⟩|1⟩ ⟨1|0⟩ + |ΨG ⟩|1⟩ ⟨1|1⟩)
= (⟨0|⟨Ψ[B]| + ⟨1|⟨Ψ[G]|)|ΨG ⟩ |1⟩
= ⟨0|⟨ΨB |ΨG ⟩|1⟩ + ⟨1|⟨ΨG |ΨG ⟩ |1⟩
= ⟨ΨB |ΨG ⟩ ⟨0|1⟩ + ⟨ΨG |ΨG ⟩ ⟨1|1⟩ = |Ψ[G]|².

现在,由于{|ψx⟩}[x]这一家族是正交的,从 (13.5.3) 可以很容易地看出

|Ψ[G]|² = ⟨ΨG |ΨG ⟩
= ( ) ∑ ∘ ---- ( α∗x ϕ(x)⟨x|⟨ψx|) x∈{0,1}k( ) ∑ ∘ ---- ( αy ϕ (y) |ψy ⟩ |y⟩) y∈{0,1}k
= ∑ [x,y∈{0,1}k]*α*[x]α [y]∘ ---- ϕ (x )∘ ---- ϕ (y )⟨x|⟨ψx|ψy⟩|y⟩
= ∑ [x∈{0,1}^k]|α[x]|²ϕ(x),

这正好对应于期望值 𝔼[ϕ(X)],其中随机变量 X 在标签为 {0,1}^k 的集合上离散化,每个 |α[x]|² 对应于 X 处于 x 的离散概率。

为了得到我们需要的期望,我们因此只需运行对应于ℳ的电路,测量计算基中的输出,并确定观察到状态的概率|1⟩

QMC 加速

QMC 的实际加速来自于对振幅 估计定理和幂法则的微妙应用,下面我们将进行介绍。

定理 12(振幅估计。定理 12 见[43])。假设我们可以访问一个量子幺正操作符 𝒰 ,使得 𝒰|0⟩ = √----- 1 − 𝔭|ΨB ⟩|0⟩+√ -- 𝔭|ΨG ⟩|1⟩,对于某些状态|ΨB ⟩|ΨG ⟩。然后,对于任意* N ∈ℕ,振幅估计算法输出估计值 𝔭 *,使得

 ∘ -------- | | 𝔭(1 − 𝔭) π2 |^𝔭 − 𝔭| ≤ 2π----N-----+ N2-

以至少 8∕π²的概率。这需要恰好**N 次迭代。

引理 10(幂法则。引理 6.1 见[150])。 𝔭 为要估计的量, 𝒰 为一个算法,输出 𝔭 ,使得 ||^ || 𝔭 − 𝔭𝜀 ,除非 以小于 1∕2的概率。然后,对于任意* δ ∈ (0,1),只需 重复 𝒰 大约 𝒪(log(1∕δ)) 次,并取中位数,以获得 || || ^𝔭 − 𝔭𝜀 ,以至少 1 − *δ**的概率。

根据(13.5.1),振幅估定理结合幂法则显示,为了获得经验均值的估计

 † 2 ⟨ψ|𝒫 𝒫 |ψ ⟩ = |ΨG |

以至少 1 − δ的概率(对于任意δ ∈ (0,1)),即,

ℙ(||^𝔭− 𝔭|| ≤ 𝜀) ≥ 1− δ,

只需将操作符ℳ和𝒫应用大约𝒪(N log(1∕δ))次,其中

 -------- ∘ 𝔭(1 − 𝔭) 𝜀 = 2π----------, N

这样,对于任意固定的δ ∈ (0,1),计算成本的阶数为𝒪(1∕𝜀),相比经典蒙特卡洛方法实现了二次加速。

13.5.4 量子线性求解器

Harrow、Hassidim 和 Lloyd [126]设计了一种量子算法来求解线性系统,超越了经典计算时间。线性系统在应用中无处不在,许多定量金融的方面依赖于能够求解这样的(低维或高维)系统。我们在下面强调两个在金融中具有基础性重要性的关键示例:求解偏微分方程(PDE)和投资组合优化。

理论方面

问题可以表述为:给定矩阵 A ∈ℳN 和向量 b ∈ℂ^N,找到向量 x ∈ℂ^N,使得

Ax = b.

为了使算法有效,矩阵 A 需要是厄米矩阵。如果 A 不是这样,我们仍然可以考虑扩展系统

( ) ( ) ( ) (0N,N A ) (0N,1 ) = ( b ) , A † 0N,N x 0N,1

类似于 7.6 节中的哈密顿嵌入。我们从现在开始假设 A 确实是厄米的。算法的第一步是假设向量 b 可以被编码成量子态|b⟩,然后将(13.5.4)重写为

A |x⟩ = |b⟩,

现在我们寻找的解不再是ℂ^N 的元素,而是一个量子态。

由于 A 是厄米的,它承认谱分解(见 1.1.5 节)

 N− 1 ∑ A = λj |ϕj⟩⟨ϕj|, j=0

其中λ[0],…,λ[N−1]是其(不一定是不同的)严格正的特征值,对应的特征态为|ϕ0⟩,…,*|ϕN −1⟩,我们立即得到其逆的表示为

 N−1 A −1 = ∑ 1--|ϕ ⟩ ⟨ϕ |. j=0 λj j j

我们还可以将|b ⟩分解为基态 (|ϕ ⟩ j)[j=0,…,N−1],如下所示:

 N−1 |b⟩ = ∑ b |ϕ ⟩ , j=0 i j

因此,(13.5.4)的解为

 N− 1 |x⟩ = A −1 |b⟩ = ∑ bj-|ϕ ⟩. j=0 λj j

因此,QLS 算法的目标是构造这样的态,我们在下面总结了算法 11。请注意,由于 A 是厄米的,因此对于任何t ∈ℝ,U := exp(iAt)是幺正的,其分解为

 N∑− 1 U = eiλjt |ϕj⟩⟨ϕj|. j=0

总体而言,QLS 算法需要n[l] + n[b] + 1 个量子比特,其中n[l]是用于编码(λ[j])[j=0,…,N−1]的n[l]位二进制表示的量子比特数,n[b]是用于将 b 转换为|b ⟩的量子比特数(也是用于写出解态的量子比特数)。

在计算时间方面,Harrow、Hassidim 和 Lloyd 证明,假设 A 是稀疏的且条件数为κ,则所述运行时间的阶为 poly(log(N)),与经典的𝒪(N√-- κ)运行时间相比,提供了指数级的加速。

--------------------------------------------------------------------- -算法---11:-HHL--量子--线性--求解器-------------------------- 输入:厄米矩阵 A 和 nl + nb + 1 个量子比特,初始化为 ⊗nl ⊗nb |0⟩ |0⟩ |0⟩。 1: 使用 n 个量子比特将数据 b 加载到 |b⟩ 中(其中 N = 2nb)。 b 2: 应用量子相位估计(QPE),U := exp(iAt),之后寄存器的量子态为 N∑ −1 bj |λj⟩n |ϕj⟩n |0⟩ . j=0 l b 3: 通过 |λj⟩n 控制的辅助量子比特 |0⟩ 旋转,得到 l N∑− 1 ( ∘ ------2 ) bj |λj⟩ |ϕj⟩ 1 − C--|0⟩+ C-|1⟩ , j=0 nl nb λ2j λj 对某个归一化常数 C(|C | < minj λj)。 4: 应用逆量子相位估计,得到 N −1 ( ∘ ------- ) ∑ b |0⟩ |ϕ ⟩ 1− C2- |0⟩ + C--|1⟩ . j nl j nb λ2j λj j=0 5: 在计算基上测量辅助量子比特。如果结果为 |1⟩,则寄存器处于测量后的状态 N∑− 1 C bi |0⟩n |ϕj⟩ , j=0 λi l nb 该状态与解对应,直到归一化因子。 结果:解 |x⟩: N −1 −1 ∑ bj- |x⟩ = A |b ⟩ = λj |ϕj⟩。 j=0 ---------------------------------------------------------------------

求解偏微分方程(PDEs)

一个重要的例子是有限差分法用于求解偏微分方程;标准工具可以参考 [269],并且在金融领域的具体应用可见于 [89]。

例如,考虑布莱克-斯科尔斯抛物型偏微分方程:

 σ2- 2 2 ∂tVt + rS ∂SVt + 2 S ∂SSVt = rVt,

在边界条件 V [T] (S) 下(例如,对于到期时间 T > 0 和执行价格 K > 0 的欧式看涨期权,V [T] (S) = (ST − K )[+] := max(ST − K, 0))。在尝试求解之前,通常先进行简化。令 τ := Tt,并定义 gτ := V t,则 [t]V t = −[τ]gτ,因此

 2 − ∂ g + rS ∂ g + σ-S2∂2 g = rg , τ τ S τ 2 SS τ τ

在边界条件 g0 下。现在引入 fτ := e^(rτ)gτ,从而

 2 − ∂τfτ + rS ∂Sfτ + σ-S2∂2SSfτ = 0, 2

在边界条件 f0 下。变换 x := log(S) 和映射 ψτ := fτ,经过简化后,

 ( ) σ2- σ2-2 − ∂τψτ + r − 2 ∂xψτ + 2 ∂xxψ τ = 0,

在边界条件 ψ0 下。最后,通过设定 ϕ[τ] 通过 ψτ =: e^(αx+βτ)ϕτ,

 ( 2) ( 2 )2 α := − 12- r − σ-- 和 β := −-12- r − σ-- , σ 2 2σ 2

表明方程 (13.5.4) 变为热方程

 σ2-2 ∂τϕτ(x) = 2 ∂xxϕτ(x),

对于所有 x ∈ℝ,在(狄利克雷)边界条件下,ϕ0 = e^(−αx)ψ0。

我们现在使用显式方案对该 PDE 进行离散化,其中时间导数[τ]通过前向差分法评估,而空间导数[xx]使用中心差分法进行近似(隐式方案或更一般的𝜃-方案遵循类似逻辑)。我们考虑(13.5.4),其中τ > 0,x位于某个区间[x[L],x[U]] ∈ℝ内,具有(Dirichlet)边界条件ϕ(0,x) = f(x)(到期时的收益),ϕ(τ,x[L]) = fL,和ϕ(τ,x[U]) = fU。

我们首先构造近似方案的时空网格。对于两个整数mn,我们考虑一个均匀网格,即将空间轴分成m个区间,将时间轴分成n个区间,记𝒱 := {0,1,…,n}和𝒲 := {0,1,…,m}。这意味着网格上的每个点的坐标为([T] ,x[L] + [x]),其中i ∈𝒱,j ∈𝒲,且

 T x − x δT :=-- 和 δx :=-U-----L. n m

在每个节点上,我们令ϕ[i,j] := ϕ([T] ,x[L] + [x])表示函数u的值。特别注意,边界条件意味着

ϕ0,j = f (xL + jδx), ϕi,0 = fL(iδT), ϕi,m = fU (iδT).

更准确地说,我们考虑以下近似。

[τ]ϕ(τ,x) = ϕ(τ-+-δT,x)-−-ϕ(τ,x) δT + 𝒪(δ ) T,
[xx]ϕ(τ,x) = ϕ(τ,x + δx)− 2ϕ (τ,x) + ϕ(τ,x− δx) -----------------2---------------- δx + 𝒪( ) δ2x.

忽略δ[T]和δ[x]²中的项时,节点([T] ,x[L] + [x])上的热方程变为

ϕ − ϕ σ2ϕ − 2ϕ + ϕ ( ) -i+1,j----i,j + 𝒪 (δT ) = ---i,j+1-----i2,j----i,j−1+ 𝒪 δx2 , δT 2 δx

我们可以将其重写为

 δ σ2 ( δ ) δ σ2 ϕi+1,j = -T2---ϕi,j+1 + 1− -T2σ2 ϕi,j + -T2---ϕi,j−1, δx 2 δx δx 2

对于所有 i = 0,…,n− 1,j = 1,…,m− 1,重写为矩阵形式时,定义每个i = 0,…,n,[i] ∈ℝ^(m−1),B[i] ∈ℝ^(m−1) 和矩阵 A ∈ℳm−1 为

[i] := (ϕ ,...,ϕ ) i,1 i,m−1^⊤,
B[i] := (ϕi,0,0,...,0,ϕi,m)^⊤,
A := T[m−1]( 2 2) 1 − ασ2, ασ-, ασ-- 2 2,

其中

α := δT- δ2x

其中 Tm−1 表示维度为(m− 1) × (m− 1)的三对角矩阵。

递推式(13.5.4)因此变为

 2 i+1= Ai + α-σ-Bi, 对于每个 i = 0,...,n − 1, 2

具有时间边界条件

0 = (ϕ0,1,...,ϕ0,m− 1)⊤ = (f (xL + δx),...,f(xL + (m − 1)δx))⊤.

忽略边界项 B[i],递推式(13.5.4)因此完全符合形式(13.5.4),因此可以使用 HHL 算法来处理。

这是调查 HHL 类型算法在量化金融中应用的显而易见的第一步,进一步的发展已经在[104, 108, 188, 310]中提出,无论是否考虑金融应用。

应用于投资组合优化

QLS 在金融中的第二个直接应用是投资组合优化。事实上,标准的 Markowitz 类型问题(如第 3.3 节中的形式)很容易被表述为线性问题(至少在权重属于{0,1}时),约束条件仅通过拉格朗日乘子增加维度。我们在此不会深入细节,因为这是一个相当新颖的开发,具有巨大的潜力,但迄今为止结果有限,我们建议读者参考[306, 187]以了解有前景的实现和细节。

总结

在本章中,我们介绍了几种有前景的新型量子算法。首先,我们了解了量子核,可以替代混合量子经典协议中的经典核。

接下来,我们介绍了贝叶斯量子电路模型,它将贝叶斯神经网络的概念扩展到参数化量子电路。BQC 是一种有前景的生成模型,其表达能力大于 QCBM/MPQC(在第九章和第十二章中介绍)。

然后我们研究了量子 SDP 及其超越经典 SDP 的潜力。这是一个活跃的研究课题。

最后,我们介绍了几种重要的量子算法,这些算法依赖于具备超越当前可用 NISQ 计算机能力的量子计算硬件的存在。然而,这些算法的存在及其实现二次甚至指数级加速的潜力,提供了推动量子计算机快速发展的强大动力。

本章完成了本书的内容。展望未来,我们看到了量子计算的光明前景。在更新的量子计算发展路线图[145]中,IBM 概述了一个激动人心的愿景,目标是构建量子中心的超级计算机。后者将集成量子处理器、经典处理器、量子通信网络和经典网络。预期的近期交付物包括 433 量子比特的Osprey处理器(预计于 2022 年发布)和 1,121 量子比特的Condor处理器(预计于 2023 年发布)。下一步将是开发将处理器连接成模块化系统的方法,能够在没有物理限制的情况下进行扩展。

模块化的多芯片扩展技术同样是 Rigetti 所设想的。Rigetti 预计将在 2023 年推出下一代单芯片 84 量子比特量子计算机,并于 2023 年晚些时候推出 336 量子比特多芯片处理器。预计 336 量子比特多芯片处理器将结合 84 量子比特处理器的预期改进与 Rigetti Aspen-M 机器的模块化、多芯片扩展技术。这些机器预计将在速度、规模和保真度等关键维度上提供更强的性能[246]。

我们还预计在捕获离子领域看到显著进展。IonQ 宣布了一些重大突破,这些突破可能会对量子算法的设计和在捕获离子量子计算硬件上的运行方式产生重大影响。例如,这包括一种新的n量子比特门,像n量子比特 Toffoli 门,当且仅当所有其他量子比特处于特定状态时,才翻转一个选定的量子比特。与标准的双量子比特量子计算门不同,n量子比特 Toffoli 门一次作用于多个量子比特,从而实现更高效的操作[146]。

量子退火技术正日益强大。在最近的白皮书中[39],D-Wave 推出了新的Zephyr图,相比其前代产品ChimeraPegasus,具有更好的连接性。计划在 2023-2024 年推出基于Zephyr的 7,000 量子比特芯片[93]。早期基于 500+量子比特的小规模原型系统的基准测试已展示出更紧凑的嵌入、较低的错误率、改进的解决方案质量,以及更高的找到最优解的概率[210]。

但归根结底,用户需要在各种用例中尝试和测试不同的硬件和软件解决方案。我们鼓励读者尝试并将量子计算方法应用到自己感兴趣的领域,发现新的量子算法和应用。这是一次激动人心的旅程,也是参与实现量子优势、造福更广泛社会的集体努力的绝佳机会。

第十四章:参考文献

[1] A. Abbas, D. Sutter, C. Zoufal, A. Lucchi, A. Figalli 和 S. Woerner。量子神经网络的强大能力。自然 计算科学1,2021 年。

[2] D.M. Abrams, N. Didier, B.R. Johnson, M.P. da Silva 和 C.A. Ryan。实施 XY 相互作用族并校准单脉冲。自然电子学3,2020 年。

[3] D.H. Ackley, G.E. Hinton 和 T.J. Sejnowski。Boltzmann 机器的学习算法。认知科学9(1),1985 年。

[4] S. Adachi 和 M. Henderson。将量子退火应用于深度神经网络的训练。arXiv:1510.06356,2015 年。

[5] G. Agliardi 和 E. Prati。量子生成对抗网络的最优调谐,用于多变量分布加载。量子 报告4(1),2022 年。

[6] A. Agresti。分类数据分析。Wiley,第 3 版,2013 年。

[7] D. Aharonov, W. van Dam, J. Kempe, Z. Landau, S. Lloyd 和 O. Regev。绝热量子计算等价于标准量子计算。SIAM 评论50(4),2008 年。

[8] D. Aharonov 和 L. Zhou。哈密顿量稀疏化与间隙模拟。arXiv:1804.11084,2018 年。

[9] O. Akbilgic, H. Bozdogan 和 M.E. Balaban。伊斯坦布尔证券交易所数据集。UCI 机器学习库。archive.ics.uci.edu/ml。加利福尼亚大学欧文分校,信息与计算机科学学院,2013 年。

[10] O. Akbilgic, H. Bozdogan 和 M.E. Balaban。一个新型的混合 RBF 神经网络模型作为预测器。统计与计算24(3),2013 年。

[11] M. Amin 和 M. Steininger。使用超导量子比特进行绝热量子计算。美国专利 US7135701B2,2006 年。

[12] K.P. Anagnostopoulos 和 G. Mamanis。一个具有三个目标和离散变量的投资组合优化模型。计算机与运筹研究37(7),2010 年。

[13] M. Arjovsky, S. Chintala 和 L. Bottou。Wasserstein 生成对抗网络。国际机器学习会议,2017 年。

[14] S. Arora 和 S. Kale。一个组合的原始-对偶方法用于半正定规划。ACM 期刊63(2),2016 年。

[15] S. Arunachalam, V. Gheorghiu, T. Jochym-O’Connor, M. Mosca 和 P.V. Srinivasan。关于桶状量子 RAM 的鲁棒性。新物理学杂志17(12),2015 年。

[16] F. Arute, K. Arya, R. Babbush, D. Bacon, J.C. Bardin, R. Barends, R. Biswas, S. Boixo, F.G.S.L. Brandao, D.A. Buell, B. Burkett, Y. Chen, Z. Chen, B. Chiaro, R. Collins, W. Courtney, A. Dunsworth, E. Farhi, B. Foxen, A. Fowler, C. Gidney, M. Giustina, R. Graff, K. Guerin, S. Habegger, M.P. Harrigan, M.J. Hartmann, A. Ho, M. Hoffmann, T. Huang, T.S. Humble, S.V. Isakov, E. Jeffrey, Z. Jiang, D. Kafri, K. Kechedzhi, J. Kelly, P.V. Klimov, S. Knysh, A. Korotkov, F. Kostritsa, D. Landhuis, M. Lindmark, E. Lucero, D. Lyakh, S. Mandrà, J.R. McClean, M. McEwen, A. Megrant, X. Mi, K. Michielsen, M. Mohseni, J. Mutus, O. Naaman, M. Neeley, C. Neill, M.Y. Niu, E. Ostby, A. Petukhov, J.C. Platt, C. Quintana, E.G. Rieffel, P. Roushan, N.C. Rubin, D. Sank, K.J. Satzinger, V. Smelyanskiy, K.J. Sung, M.D. Trevithick, A. Vainsencher, B. Villalonga, T. White, Z.J. Yao, P. Yeh, A. Zalcman, H. Neven 和 J.M. Martinis. 使用可编程超导处理器实现量子霸权。自然574,2019 年。

[17] S.A. Assefa, D. Dervovic, M. Mahfouz, R.E. Tillman, P. Reddy 和 M. Veloso. 在金融领域生成合成数据:机会、挑战与陷阱。首届 ACM 国际人工智能与金融会议论文集,2020 年。

[18] A. Assouel, A. Jacquier 和 A. Kondratyev. 用于分布的量子生成对抗网络。量子机器智能4(2),2022 年。

[19] J.E. Avron 和 A. Elgart. 无需能隙条件的绝热定理。数学物理通讯203(445),1999 年。

[20] J.E. Avron, R. Seiler 和 L.G. Yaffe. 绝热定理及其在量子霍尔效应中的应用。数学物理通讯110(1),1987 年。

[21] A. Back 和 W. Keith. 用于金融资产预测的贝叶斯神经网络。数学学位项目,瑞典皇家理工学院,工程科学学院,2019 年。

[22] P. Baldi 和 R. Vershynin. 前馈神经网络的容量。神经网络116,2019 年。

[23] V. Bapst, L. Foini, F. Krzakala, G. Semerjian 和 F. Zamponi. 应用于随机优化问题的量子绝热算法:量子自旋玻璃视角。物理学报告523(127),2013 年。

[24] F. Barahona. 伊辛自旋玻璃模型的计算复杂性问题。物理学 A 期刊15(10),1982 年。

[25] B. Barak, A. Moitra, R. O’Donnell, P. Raghavendra, O. Regev, D. Steurer, L. Trevisan, A. Vijayaraghavan, D. Witmer 和 J. Wright. 在约束满足问题的有限度数随机分配上的优化。近似、随机化与组合优化,算法与技术(APPROX/RANDOM 2015),莱布尼茨国际信息学会议论文集40,2015 年。

[26] P. Barkoutsos, G. Nannicini, A. Robert, I. Tavernelli 和 S. Woerner. 使用 CVaR 改进变分量子优化。Quantum4,2020 年。

[27] A.G. Baydin, B.A. Pearlmutter, A.A. Radul 和 J.M. Siskind. 机器学习中的自动微分:一项调查。《机器学习研究期刊》18,2018 年。

[28] M. Benedetti, D. Garcia-Pintos, O. Perdomo, V. Leyton-Ortega, Y. Nam 和 A. Perdomo-Ortiz. 一种生成建模方法用于基准测试和训练浅层量子电路。《量子信息》5(45),2019 年。

[29] M. Benedetti, E. Lloyd, S. Sack 和 M. Fiorentini. 参数化量子电路作为机器学习模型。《量子科学与技术》4(4),2019 年。

[30] M. Benedetti, B. Coyle, M. Fiorentini, M. Lubasch 和 M. Rosenkranz. 使用量子计算机的变分推理。《物理评论应用》16(044057),2021 年。

[31] J. Berkson. 逻辑函数在生物测定中的应用。《美国统计学会期刊》39(227),1944 年。

[32] C. Bernhardt. 面向每个人的量子计算。MIT 出版社,2019 年。

[33] M.V. Berry. 伴随绝热变化的量子相因子。《伦敦皇家学会 A 类学报》392(45),1964 年。

[34] D. Berry, G. Ahokas, R. Cleve 和 B.C. Barry. 用于模拟稀疏哈密顿量的高效量子算法。《数学物理通讯》270(2),2007 年。

[35] J.D. Biamonte 和 P.J. Love. 可实现的哈密顿量用于通用绝热量子计算机。《物理评论 A》78(1),2008 年。

[36] A. Billionnet 和 B. Jaumard. 一种最小化二次伪布尔函数的分解方法。《运筹学快报》8(3),1989 年。

[37] C. Bishop. 模式识别与机器学习。Springer,2006 年。

[38] S. Boixo, V.N. Smelyanskiy, A. Shabani, S. V. Isakov, M. Dykman, V.S. Denchev, M.H. Amin, A.Y. Smirnov, M. Mohseni 和 H. Neven. 可编程量子退火器中的多量子比特隧穿计算。《自然通讯》7(10327),2016 年。

[39] K. Boothby, A.D. King 和 J. Raymond. D-Wave 量子处理器的 Zephyr 拓扑结构。D-Wave 技术报告,2021 年。

[40] V. Bornemann. 奇异扰动机械系统的时间均匀化。《数学讲义》1687,Springer,1998 年。

[41] M. Born 和 V. Fock. 绝热定理的证明。《物理学杂志》51(3),1928 年。

[42] F.G.S.L. Brandão 和 K.M. Svore. 半正定规划的量子加速。第 58 届计算机科学基础年会,IEEE,2017 年。

[43] G. Brassard, P. Hoyer, M. Mosca 和 A. Tapp. 量子幅度放大与估计。《当代数学》305,2002 年。

[44] S. Bravyi, A. Kliesch, R. Koenig 和 E. Tang. 对变分量子优化的障碍:来自对称性保护的挑战。《物理评论快报》125(260505),2020 年。

[45] S. Bravyi, D.P. DiVincenzo, R.I. Oliveira 和 B.M. Terhal. 斯托卡斯蒂克局部哈密顿量问题的复杂性。《量子信息与计算》8(5),2008 年。

[46] C.D. Bruzewicz, J. Chiaverini, R. McConnell 和 J.M. Sage. 捕获离子量子计算:进展与挑战。应用 物理评论6(2),2019 年。

[47] J.-L. Brylinski 和 R. Brylinski. 通用量子门。量子计算的数学。Chapman and Hall/CRC,2002 年。

[48] H. Bühler, B. Horvath, T. Lyons, I. Perez Arribaz 和 B. Wood. 小数据环境下的金融时间序列数据驱动市场模拟器。arXiv:2006.14498,2020 年。

[49] H. Bühler, B. Horvath, T. Lyons, I. Perez Arribaz 和 B. Wood. 利用签名生成金融市场。风险34(6),2021 年。

[50] H. Buhrman, R. Cleve, J. Watrous 和 R. de Wolf. 量子指纹识别。物理评论快报87(167902),2001 年。

[51] E. Campbell, A. Khurana 和 A. Montanaro. 将量子算法应用于约束满足问题。量子3,2019 年。

[52] Y. Cao, X. Liu, J. Zhai 和 S. Hua. 基于贝叶斯网络的企业破产预测双阶段模型。国际金融与经济学杂志27(1),2022 年。

[53] M.A. Carreira-Perpiñán 和 G.E. Hinton. 关于对比散度学习。AISTATS,2005 年。

[54] M. Cerezo, A. Sone, T. Volkoff, L. Cincio 和 P.J. Coles. 浅层参数化量子电路中的代价函数依赖荒原平台问题。自然通讯12,2021 年。

[55] S. Chakrabarti, H. Yiming, T. Li, S. Feizi 和 X. Wu, Xiaodi. 量子 Wasserstein 生成对抗网络。神经信息处理系统进展32,2019 年。

[56] R. Chandra 和 Y. He. 用于股票价格预测的贝叶斯神经网络——在 COVID-19 大流行前后的研究。PLoS ONE16(7),2021 年。

[57] D.T. Chang. 贝叶斯神经网络:要点。arXiv:2106.13594,2021 年。

[58] S.Y.-C. Chen, T.-C. Wei, C. Zhang, H. Yu 和 S. Yoo. 用于高能物理数据分析的量子卷积神经网络。物理评论研究4(1),2022 年。

[59] S.Y.-C. Chen, S. Yoo 和 Y.-L.L. Fang. 量子长短期记忆。IEEE 国际声学、语音与信号处理会议,2022 年。

[60] S. Cheng, J. Chen 和 L. Wang. 从信息视角看概率建模:玻尔兹曼机与博恩机。20(583),2018 年。

[61] A.M. Childs, E. Farhi 和 J. Preskill. 绝热量子计算的稳健性。物理评论 A65,2001 年。

[62] K. Cho, A. Ilin 和 T. Raiko. 改进的高斯-伯努利限制玻尔兹曼机学习。第 20 届国际人工神经网络会议论文集,2011 年。

[63] V. Choi. 绝热量子计算中的小图嵌入:I. 参数设置问题。量子信息处理7(5),2008 年。

[64] V. Choi. 绝热量子计算中的小图嵌入:II. 小图通用图设计。量子信息处理10(3),2011 年。

[65] C. Ciliberto, M. Herbster, A.D. Ialongo, M. Pontil, A. Rocchetto, S. Severini 和 L. Wossnig. 量子机器学习:一个经典视角。皇家学会 A 辑会议录474(2209),2018 年。

[66] L. Cincio, Y. Subaşi, A.T. Sornborger 和 P.J. Coles. 学习量子算法用于态重叠。新物理学杂志20(11),2018 年。

[67] J.I. Cirac, R. Blatt, A.S. Parkins 和 P. Zoller. 通过观察离子阱中的量子跃迁来制备 Fock 态。物理评论 快报70(6-8),1993 年。

[68] J.I. Cirac 和 P. Zoller. 使用冷却离子进行量子计算。物理评论快报74(20),1995 年。

[69] I. Cong, S. Choi 和 M.D. Lukin. 量子卷积神经网络。自然物理学15(12),2019 年。

[70] C. Cortes 和 V. Vapnik. 支持向量网络。机器学习20(3),1995 年。

[71] L. Coslovich, R. Pesenti 和 W. Ukovich. 大规模集合划分问题:一些现实世界实例隐藏着有益的结构。经济与技术发展12(1),2006 年。

[72] B. Coyle, M. Henderson, J. Chan Jin Le, N. Kumar, M. Paini 和 E. Kashefi. 金融中的量子与经典生成建模。量子科学与技术6(2),2021 年。

[73] B. Coyle, D. Mills, V. Danos 和 E. Kashefi. Born 优越性:量子优势与 Ising Born 机的训练。量子 信息6(1),2020 年。

[74] A. Crespi, R. Ramponi, R. Osellame, L. Sansoni, I. Bongioanni, F. Sciarrino, G. Vallone 和 P. Mataloni. 用于偏振量子比特的集成光子量子门。自然通讯1570,2011 年。

[75] G. Cybenko. 由 Sigmoidal 函数的叠加近似。控制、信号与系统的数学2,1989 年。

[76] E.D. Dahl. 使用 D-Wave 编程:图着色问题。D-Wave 白皮书,2013 年。

[77] P.-L. Dallaire-Demers 和 N. Killoran. 量子生成对抗网络。物理评论 A98(1),2018 年。

[78] G.B. Dantzig 和 J.H. Ramser. 卡车调度问题。管理科学6(1),1959 年。

[79] S. Darolles 和 C. Gouriéroux. 有条件拟合的夏普性能与对冲基金评级的应用。银行与金融杂志34(3),2010 年。

[80] A. Dawar. 量子计算。 www.cl.cam.ac.uk/teaching/1819/QuantComp/notes18.pdf

[81] B.S. Dees, L. Stanković, A.G. Constantinides 和 D.P. Mandic. 投资组合切割:多样化的图论框架。国际声学、语音与信号处理会议,2020 年。

[82] V. DeMiguel, L. Garlappi 和 R. Uppal. 最优与天真多样化:1∕N投资组合策略有多低效?金融研究评论22(5),2009 年。

[83] V.S. Denchev, S. Boixo, S.V. Isakov, N. Ding, R. Babbush, V. Smelyanskiy, J. Martinis 和 H. Neven. 有限范围隧穿的计算价值是什么? 物理评论 X6(3),2016 年。

[84] D.-L. Deng, X. Li 和 S.D. Sarma. 机器学习拓扑态. 物理评论 B96(195145),2017 年。

[85] D.-L. Deng, X. Li 和 S.D. Sarma. 神经网络状态中的量子纠缠. 物理评论 X7(021021),2017 年。

[86] P.A.M. Dirac. 《量子力学原理》. 牛津大学出版社,1930 年。

[87] D.P. DiVincenzo. 量子计算的物理实现. 物理学进展48(9–11),2000 年。

[88] Y. Du, M.-H. Hsieh, T. Liu 和 D. Tao. 参数化量子电路的表达能力. 物理评论研究2(033125),2020 年。

[89] D.J. Duffy. 金融工程中的有限差分法:偏微分方程方法. John Wiley & Sons, 2013 年。

[90] D-Wave Systems. 实用量子计算. D-Wave 技术概述,2020 年。

[91] D-Wave Systems. D-Wave QPU 架构:拓扑结构. docs.dwavesys.com/docs/latest/c_gs_4.html,2021 年。

[92] D-Wave Systems. Advantage 性能更新. www.dwavesys.com/solutions-and-products/systems,2021 年。

[93] D-Wave Systems. 领先一步:D-Wave 交付下一代 Advantage2 退火量子计算机原型. www.dwavesys.com/company/newsroom/press-release,2022 年。

[94] G.K. Dziugaite 和 D.M. Roy. 计算具有远超训练数据的深度(随机)神经网络的非空泛化边界. arXiv:1703.11008,2017 年。

[95] F. Eckerli 和 J. Osterrieder. 金融中的生成对抗网络:概述. arXiv:2106.06364,2021 年。

[96] E. Farhi, J. Goldstone 和 S. Gutmann. 一种量子近似优化算法. arXiv:1411.4028,2014 年。

[97] E. Farhi, J. Goldstone, S. Gutmann, J. Lapan, A. Lundgren 和 D. Preda. 应用于 NP 完全问题随机实例的量子绝热演化算法. 科学292(5516),2001 年。

[98] E. Farhi, J. Goldstone, S. Gutmann 和 M. Sipser. 通过绝热演化进行量子计算. arXiv:0001106,2000 年。

[99] E. Farhi 和 A.W. Harrow. 通过量子近似优化算法实现量子霸权. arXiv:1602.07674,2016 年。

[100] E. Farhi 和 H. Neven. 基于近期处理器的量子神经网络分类. arXiv:1802.06002,2018 年。

[101] R. Feynman, R. Leighton 和 M. Sands. 经典背景下的薛定谔方程:关于超导性的研讨会。《费曼物理学讲义》,终极版,2006 年。

[102] A. Fischer 和 C. Igel. 限制玻尔兹曼机简介。模式识别、图像分析、计算机视觉与应用进展。计算机科学讲义系列,7441,Springer,2012 年。

[103] A. Fischer 和 C. Igel. 训练限制玻尔兹曼机:简介。模式识别47(1),2014 年。

[104] F. Fontanela, A. Jacquier 和 M. Oumgari. 一种用于金融中线性偏微分方程的量子算法。SIAM 金融数学杂志12(4),2021 年。

[105] V. Fortuin. 贝叶斯深度学习中的先验:综述。国际统计评论,2022 年。

[106] M. Frank. 广义可逆计算的基础。国际可逆计算会议,2017 年。

[107] Y. Freund 和 R.E. Schapire. 在线学习的决策理论推广及其在提升中的应用。计算机与系统科学杂志55(1),1997 年。

[108] P. García-Molina, J. Rodríguez-Mediavilla 和 J.J. García-Ripoll. 在量子计算机中求解偏微分方程。arXiv:2104.02668,2021 年。

[109] A. Gilyén, S. Lloyd 和 E. Tang. 量子启发的低秩随机回归,维度依赖呈对数关系。arXiv:1811.04909,2018 年。

[110] V. Giovannetti, S. Lloyd 和 L. Maccone. 量子随机访问存储器。物理评论快报100(16),2008 年。

[111] P. Glasserman. 《金融工程中的蒙特卡洛方法》。随机建模与应用概率,53,Springer,2003 年。

[112] M.X. Goemans. 组合优化中的半正定规划。数学规划79,1997 年。

[113] I. Goodfellow, Y. Bengio 和 A. Courville. 《深度学习》。MIT 出版社,2016 年。

[114] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville 和 Y. Bengio. 生成对抗网络。NIPS 会议论文集,2014 年。

[115] H. Gouk. 通过强制李普希茨连续性对神经网络进行正则化。机器学习110(2),2021 年。

[116] E. Grant, T.S. Humble 和 B. Stump. 量子退火控制的基准测试与投资组合优化。物理评论应用15(1),2021 年。

[117] L.K. Grover. 一种快速的量子机械算法用于数据库搜索。第 28 届年会 ACM 计算理论研讨会论文集。ACM,1996 年。

[118] L.K. Grover 和 T. Rudolph. 创建与高效可积概率分布相对应的叠加态。arXiv:0208112,2002 年。

[119] M. Grundmann. 降维量子设备。凝聚态物理百科全书,Elsevier,2005 年。

[120] G.G. Guerreschi. 使用分治法和量子算法解决二次无约束二进制优化问题。arXiv:2101.07813,2021。

[121] I. Gulrajani, F. Ahmed, M. Arjovsky, V. Dumoulin 和 A.C. Courville. 改进 Wasserstein GANs 的训练。Advances in neural information processing systems, 30, 2017。

[122] S. Hadfield, Z. Wang, B. O’Gorman, E.G. Rieffel, D. Venturelli 和 R. Biswas. 从量子近似优化算法到量子交替算符假设。Algorithms, 12(2), 2019。

[123] B.C. Hall. 数学家用量子理论。Graduate Texts in Mathematics, 267, Springer, 2013。

[124] R. Hamerly, T. Inagaki, P.L. McMahon, D. Venturelli, A. Marandi, E. Ng, C. Langrock, K. Inaba, T. Honjo, K. Enbutsu, T.Umeki, R. Kasahara, S. Utsunomiya, S. Kako, K. Kawarabayashi, R.L. Byer, M.M. Fejer, H. Mabuchi, D. Englund, E. Rieffel, H. Takesue 和 Y. Yamamoto. 量子退火器与相干伊辛机性能差异的实验研究。Science Advances, 5(5), 2019。

[125] J.M. Hammersley 和 P. Clifford. 有限图和格上的马尔可夫场。未出版,1971。

[126] A.W. Harrow, A. Hassidim 和 S. Lloyd. 线性方程组的量子算法。Physical Review Letters, 103(150502), 2009。

[127] R. Hassan, B. Cohanim, O. de Weck 和 G. Venter. 粒子群优化与遗传算法的比较。第 46 届 AIAA/ASME/ASCE/AHS/ASC 结构、结构动力学与材料会议,2005。

[128] M.B. Hastings. 经典与量子有界深度近似算法。Quantum Information & Computation, 19(13-14), 2019。

[129] V. Havlíček, A.D. Córcoles, K. Temme, A.W. Harrow, A. Kandala, J.M. Chow 和 J.M. Gambetta. 使用量子增强特征空间的监督学习。Nature, 567, 2019。

[130] J. He 和 L. Kang. 遗传算法的收敛速率研究。Theoretical Computer Science, 229, 1999。

[131] L.-P. Henry, S. Thabet, C. Dalyac 和 L. Henriet. 量子进化核:在具有可编程量子比特阵列的图上进行机器学习。Physical Review A, 104(3), 2021。

[132] A.D. Hill, M.J. Hodson, N. Didier 和 M.J. Reagor. 任意双控量子相位门的实现。arXiv:2108.01652,2021。

[133] G. Hinton. 通过最小化对比散度训练专家产品。Neural Computation, 14(8), 2002。

[134] G. Hinton. 训练限制玻尔兹曼机的实用指南。神经网络:技巧与窍门。计算机科学讲义,7700,Springer,2012。

[135] G. Hinton 和 R. Salakhutdinov. 使用神经网络减少数据的维度。Science, 313, 2006。

[136] T.K. Ho. 随机决策森林。第三届国际文档分析与识别会议论文集,1995。

[137] C.A.R. Hoare. 算法 64:快速排序。ACM 通讯4(7),1961 年。

[138] M. Hodson, B. Ruck, H. Ong, D. Garvin 和 S. Dulman. 使用量子交替算子变分法进行的投资组合再平衡实验。arXiv:1911.05296,2019 年。

[139] Z. Holmes, K. Sharma, M. Cerezo 和 P.J. Coles. 将变分表达能力与梯度幅度和荒原平台连接起来。PRX Quantum3(1),2022 年。

[140] F.-Y. Hong, Y. Xiang, Z.-Y. Zhu, L.-Z. Jiang 和 L.-N. Wu. 稳健的量子随机存取存储器。物理评论 A86(1),2012 年。

[141] K. Hornik, M. Stinchcombe 和 H. White. 使用多层前馈网络对未知映射及其导数的通用逼近。神经网络3(5),1990 年。

[142] T. Hur, L. Kim 和 D.K. Park. 用于经典数据分类的量子卷积神经网络。量子机器 智能4(1),2022 年。

[143] H.Y. Huang, M. Broughton, M. Mohseni, R. Babbush, S. Boixo, H. Neven 和 J.R. McClean. 量子机器学习中的数据力量。自然通讯12(2631),2021 年。

[144] W. Huggins, P. Patel, K.B. Whaley 和 E.M. Stoudenmire. 面向量子机器学习的张量网络。量子 科学与技术4(2),2019 年。

[145] IBM 量子路线图:扩展 IBM 量子路线图,以预测量子中心超级计算的未来。research.ibm.com/blog/ibm-quantum-roadmap-2025,2022 年。

[146] IonQ:杜克大学与 IonQ 共同开发新型量子计算门,仅在 IonQ 和杜克系统上可用。investors.ionq.com/news/news-details/2022/Duke-University-and-IonQ-Develop-New-Quantum-Computing-Gate-Only-Possible-on-IonQ-and-Duke-Systems/default.aspx,2022 年。

[147] E. Ising. 铁磁性理论的贡献。物理学杂志31(1),1925 年。

[148] B. Jackson, J.D. Scargle, D. Barnes, S. Arabhi, A. Alt, P. Gioumousis, E. Gwin, P. Sangtrakulcharoen, L. Tan 和 T.T. Tsai. 一种最优数据区间划分算法。IEEE 信号处理快报12(2),2005 年。

[149] S. Jansen, R. Seiler 和 M.-B. Ruskai. 绝热近似的界限及其在量子计算中的应用。数学物理杂志48(102111),2007 年。

[150] M.R. Jerrum, L.G. Valiant 和 V. Vazirani. 从均匀分布中随机生成组合结构。理论计算机科学43,1986 年。

[151] M. Johnson, M.H.S. Amin, S. Gildert, T. Lanting, F. Hamze, N. Dickson, R. Harris, A.J. Berkley, J. Johansson, P. Bunyk, E.M. Chapple, C. Enderud, J.P. Hilton, K. Karimi, E. Ladizinsky, N. Ladizinsky, T. Oh, I. Perminov, C. Rich, M.C. Thom, E. Tolkacheva, C.J.S. Truncik, S. Uchaikin, J. Wang, B. Wilson 和 G. Rose. 使用制造自旋的量子退火. 自然, 473(7346), 2011.

[152] T. Kadowaki 和 H. Nishimori. 横向伊辛模型中的量子退火. 物理评论 E, 58(5), 1998.

[153] A. Kandala, A. Mezzacapo, K. Temme, M. Takita, M. Brink, J.M. Chow 和 J.M. Gambetta. 面向小分子和量子磁体的硬件高效变分量子本征求解器. 自然, 549, 2017.

[154] H. Karimi 和 G. Rosenberg. 通过样本持久性提升量子退火器性能. 量子信息处理, 16(7), 2017.

[155] R. Karp. 组合问题的可约性. 收录于 计算复杂性. Plenum 出版社, 1972.

[156] T. Kato. 关于量子力学的绝热定理. 日本物理学会杂志, 5(6), 1950.

[157] P. Kaye, R. Laflamme, Raymond 和 M. Mosca. 量子计算导论. 牛津大学出版社, 2007.

[158] H. Kellerer, R. Mansini 和 M.G. Speranza. 具有固定成本和最小交易批次的投资组合选择. 运筹学年刊, 99(1-4), 2000.

[159] H. Kellerer 和 U. Pferschy. 背包问题. Springer 出版社, 2004.

[160] I. Kerenidis, J. Landman 和 A. Prakash. 深度卷积神经网络的量子算法. arXiv:1911.01117, 2019.

[161] D. Khachatryan. 变分量子本征求解器. github.com/DavitKhach/quantum-algorithms-tutorials, 2020.

[162] A. Khoshaman, W. Vinci, B. Denis, E. Andriyash, H. Sadeghi 和 M.H. Amin. 量子变分自编码器. 量子科学与 技术, 4(1), 2019.

[163] M. Kim, K. Kim, J. Hwang, E.-G. Moon 和 J. Ahn. 解决最大独立集问题的 Rydberg 量子线. 自然 物理学, 18, 2022.

[164] M. Kjaergaard, M.E. Schwartz, J. Braumüller, P. Krantz, J. I-Jan Wang, S. Gustavsson 和 W.D. Oliver. 超导量子比特:当前的研究进展. 凝聚态物理学年评, 11, 2020.

[165] E. Knill, R. Laflamme 和 G.J. Milburn. 基于线性光学的高效量子计算方案. 自然, 409, 2001.

[166] D. Knuth. 计算机程序设计艺术,第 3 卷 / 排序与查找. Addison-Wesley, 第二版, 1998.

[167] D. Koller 和 N. Friedman. 概率图模型. MIT 出版社, 2009.

[168] I. Kolotouros 和 P. Wallden. 改进变分量子优化的演化目标函数. 物理评论研究, 4(2), 2022.

[169] A. Kondratyev. 使用人工神经网络的曲线动态. 风险, 31(6), 2018.

[170] A. Kondratyev. 使用遗传算法对量子电路 Born 机进行不可微分学习. Wilmott, 2021(114), 2021.

[171] A. Kondratyev. 量子机器学习. 在量子洞察大会上的演讲. SSRN:3865344, 2021.

[172] A. Kondratyev 和 G. Giorgidze. 优化 MVA 的进化算法. 风险, 30(12), 2017.

[173] A. Kondratyev 和 C. Schwarz. 市场生成器. 风险, 33(2), 2020.

[174] A. Kondratyev, C. Schwarz 和 B. Horvath. 数据匿名化工具. 风险, 33(8), 2020.

[175] A. Kondratyev 和 D. Venturelli. 超越马科维茨的量子退火. 风险, 32(6), 2019.

[176] A. Koshiyama, N. Firoozye 和 P. Treleaven. 用于金融交易策略微调和组合的生成对抗网络. 定量金融, 21(5), 2021.

[177] P. Krantz, M. Kjaergaard, F. Yan, T. P. Orlando, S. Gustavsson 和 W.D. Oliver. 超导量子比特的量子工程师指南. 应用物理评论, 6(2), 2019.

[178] A. Krizhevsky. 从小图像中学习多个特征层次. 多伦多大学, 技术报告, 2009.

[179] S. Kshatriya 和 P.K. Prasanna. 基于遗传算法的投资组合优化,考虑全球股票市场中的高阶矩. 风险期刊, 20(4), 2018.

[180] D. Kudrow, K. Bier, Z. Deng, D. Franklin, Y. Tomita, K.R. Brown 和 F.T. Chong. 量子旋转:量子计算机静态与动态机器码生成的案例研究. 计算机架构国际研讨会, 2013.

[181] L. Lamata, U. Alvarez-Rodriguez, J.D. Martín-Guerrero, M. Sanz 和 E. Solano. 通过量子加法器与遗传算法的量子自编码器. 量子科学与技术, 4(1), 2018.

[182] L.D. Landau 和 E.M. Lifshitz. 量子力学. 非相对论理论. Pergamon Press, 1965.

[183] R. Landauer. 计算过程中的不可逆性与热量生成. IBM 研究与发展期刊, 5(3), 1961.

[184] J. Landman. 用于无监督机器学习和神经网络的量子算法. arXiv:2111.03598, 2021.

[185] C. Li. 《梯度提升算法入门》. 东北大学计算机与信息科学学院 – 教程. www.chengli.io/tutorials/gradient_boosting.pdf

[186] R.Y. Li, R. Di Felice, R. Rohs 和 D.A. Lidar. 量子退火与经典机器学习在简化计算生物学问题中的应用. 量子信息, 4(14), 2018.

[187] Q. Li, H. Wu, W. Qian, X. Li, Q. Zhu 和 S. Yang. 基于量子 HHL 算法的投资组合优化. 人工智能与安全国际会议, 2022.

[188] N. Linden, A. Montanaro 和 C. Shao. 求解热方程的量子算法与经典算法比较. 数学物理通讯, 2022.

[189] J.-G. Liu 和 L. Wang. 量子电路博恩机的可微学习。Physical Review A, 98(062324), 2018。

[190] L. Liu, S. Yang 和 D. Wang. 在动态环境中使用复合粒子的粒子群优化。IEEE Transations on Systems, Man, and Cybernetics, Part B: Cybernetics, 40(6), 2010。

[191] S. Lloyd. 通用量子模拟器。Science, 273(5278), 1996。

[192] S. Lloyd 和 C. Weedbrook. 量子生成对抗学习。Physical Review Letters, 121(4), 2018。

[193] M. López de Prado. 金融机器学习的进展。Wiley, 2018。

[194] M. López de Prado. 高效前沿的稳健估计量。 SSRN:3469961, 2019。

[195] R. Loredo. 使用 Python 和 IBM Quantum Experience 学习量子计算。Packt, 2020。

[196] J. Lu 和 S. Yi. 用于投资组合分配多样化的自编码条件生成对抗网络。 arXiv:2207.05701, 2022。

[197] A. Lucas. 多个 NP 问题的伊辛公式化。Frontiers in Physics, 2(5), 2014。

[198] X.-Z. Luo, J.-G. Liu, P. Zhang 和 L. Wang. Yao.jl:用于量子算法设计的可扩展、高效框架。Quantum, 4, 2020。

[199] M. Magris, M. Shabani 和 A. Iosifidis. 用于预测限价订单簿市场中中价动态的贝叶斯双线性神经网络。 arXiv:2203.03613, 2022。

[200] F. Mallet, F.R. Ong, A. Palacios-Laloy, F. Nguyen, P. Bertet, D. Vion 和 D. Esteve. 在电路量子电动力学中进行单次量子比特读取。Nature Physics, 5, 2009。

[201] S. Mandrà 和 H.G. Katzgraber. 迈向量子加速检测的一个误导性步骤。Quantum Science and Technology, 3(4), 2018。

[202] H. Markowitz. 投资组合选择。Journal of Finance, 7(1), 1952。

[203] J. Marshall, D. Venturelli, I.Hen 和 E.G. Rieffel. 暂停的力量:推动对实验量子退火器中热化的理解。Physical Review Applied, 11(044083), 2019。

[204] J.M. Martinis. 超导相位量子比特。Quantum Information Processing, 8, 2009。

[205] M. Marzec. 投资组合优化:量子计算中的应用。高频交易与金融建模手册。John Wiley & Sons, 2016。

[206] K.-P. Marzlin 和 B.C. Sanders. 绝热定理应用中的不一致性。Physical Review Letters, 93(160408), 2004。

[207] J.R. McClean, S. Boixo, V.N. Smelyanskiy, R. Babbush 和 H. Neven. 量子神经网络训练景观中的贫瘠平台。Nature Communications, 9(4812), 2018。

[208] D. McClure 和 J. Gambetta. 量子计算中心开设。 www.ibm.com/blogs/research/2019/09/quantum-computation-center, 2019。

[209] C. McGeoch. 绝热量子计算与量子退火:理论与实践。量子计算讲座合集,Morgan & Claypool,2014 年。

[210] C. McGeoch, P. Farre 和 K. Boothby. D-Wave Advantage2 原型。D-Wave 技术报告,2022 年。

[211] C. McGeoch 和 C. Wang. 组合优化问题的绝热量子系统实验评估。ACM 国际计算前沿会议论文集,CF,2013 年。

[212] P.A. Mello. 量子力学中冯·诺依曼测量模型。会议论文集,1575(1),美国物理学会,2014 年。

[213] K. Mitarai, M. Negoro, M. Kitagawa 和 K. Fujii. 量子电路学习。Physical Review A98(032309),2018 年。

[214] M. Mitchell. 遗传算法简介。MIT 出版社,1998 年。

[215] N. Moll, P. Barkoutsos, L.S. Bishop, J.M. Chow, A. Cross, D.J. Egger, S. Filipp, A. Fuhrer, J.M. Gambetta, M. Ganzhorn, A. Kandala, A. Mezzacapo, P. Müller, W. Riess, G. Salis, J. Smolin, I. Tavernelli 和 K. Temme. 在近期量子设备上使用变分算法进行量子优化。Quantum Science and Technology3(030503),2018 年。

[216] A. Montanaro. 蒙特卡罗方法的量子加速。Proceedings of the Royal Society A471(2181),2015 年。

[217] M. Morini. 使用高斯耦合来进行风险管理时的另一种模型风险。SSRN:1520670,2009 年。

[218] A. Mott, J. Job, J.R. Vlimant, D. Lidar 和 M. Spiropulu. 利用量子退火解决希格斯优化问题以进行机器学习。Nature550,2017 年。

[219] W.C. Myrvold. 热力学定律与统计力学的关系。预印本。philsci-archive.pitt.edu/id/eprint/19361,2021 年。

[220] H. Naomichi 和 M. Suzuki. 寻找更高阶的指数乘积公式。量子退火与其他优化方法。Springer,2005 年。

[221] J. Nemirovsky 和 Y. Sagi. 快速的通用双量子比特门用于光学镊子中的中性费米子原子。Physical Review Research3(013113),2021 年。

[222] N.H. Nguyen, E.C. Behrman 和 J.E. Steck. 带噪声和去相干的量子学习:一个强健的量子神经网络。Quantum Machine Intelligence2(1),2020 年。

[223] M.A. Nielsen 和 I.S. Chuang. 量子计算与量子信息。剑桥大学出版社,第十周年版,2010 年。

[224] S.M. Nikolskii. 多变量函数的逼近与嵌入定理。Springer,1975 年。

[225] J.L. O’Brien. 光学量子计算。Science318(5856),2007 年。

[226] B. Øksendal. 随机微分方程. Springer,第五版,2000 年。

[227] G. Ortiz, J.E. Gubernatis, E. Knill 和 R. Laflamme. 费米子模拟的量子算法。Physical Review A64(022319),2001 年。

[228] R. Orús, S. Mugel 和 E. Lizaso. 金融领域的量子计算:概述与前景。物理评论, 4, 2019.

[229] M. Paini. 量子金融:通向商业应用之路。伦敦量子计算聚会演讲。Quantum Finance, 2018.

[230] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot 和 É. Duchesnay. Scikit-learn: Python 中的机器学习。机器学习研究杂志, 12, 2011.

[231] A. Peruzzo, J. McClean, P. Shadbolt, M.-H. Yung, X.-Q. Zhou, P. J. Love, A. Aspuru-Guzik 和 J.L. O’Brien. 光子量子处理器上的变分特征值求解器。自然通讯, 5213, 2014.

[232] E. Peters, J. Caldeira, A. Ho, S. Leichenauer, M. Mohseni, H. Neven, P. Spentzouris, D. Strain 和 G.N. Perdue. 在噪声量子处理器上进行高维数据的机器学习。量子信息, 7(1), 2021.

[233] R.C. Pfaffenberger 和 J.H. Patterson. 商业与经济的统计方法。Irwin, 第 3 版, 1987.

[234] F. Phillipson 和 H.S. Bhatia. 使用 D-Wave 量子退火器的投资组合优化。在:M. Paszynski, D. Kranzlmüller, V.V. Krzhizhanovskaya, J.J. Dongarra 和 P.M.A Sloot(编辑). 计算科学 – ICCS 2021。Lecture Notes in Computer Science, 12747,Springer, 2021.

[235] B. Pokharel, Z.G. Izquierdo, P.A. Lott, E. Strbac, K. Osiewalski, E. Papathanasiou, A. Kondratyev, D. Venturelli 和 E. Rieffel. D-Wave 量子退火器在解决困难调度问题中的代际比较。arXiv:2112.00727, 2021.

[236] R. Poli. 粒子群优化应用文献的分析。人工进化与应用杂志, 2008.

[237] J. Preskill. NISQ 时代及未来的量子计算。Quantum, 2, 2018.

[238] Qiskit: 开源量子计算框架。qiskit.org, 2019.

[239] Qiskit: 电路库 – RZ 门。qiskit.org/documentation/stubs/qiskit.circuit.library.RZGate.html, 2022.

[240] Qiskit: 电路库 – RZX 门。qiskit.org/documentation/stubs/qiskit.circuit.library.RZXGate.html, 2022.

[241] J.R. Quinlan. 澳大利亚信用审批数据集。UCI 机器学习资料库。archive.ics.uci.edu/ml。加州大学欧文分校,信息与计算机科学学院,1987.

[242] J.R. Quinlan. 简化决策树。国际人机研究杂志, 27(3), 1987.

[243] S. Raschka 和 V. Mirjalili. Python 机器学习. Packt, 第 3 版, 2019.

[244] S.E. Rasmussen 和 N.T. Zinner. 高保真受控-iSWAP 门的简单实现与非厄米门的量子电路指数化. 物理评论研究, 2(033097), 2020.

[245] P. Rebentrost 和 S. Lloyd. 量子计算金融:投资组合优化的量子算法. arXiv:1811.03975, 2018.

[246] Rigetti 量子路线图:Rigetti Computing 发布 2022 年第一季度财报并提供业务更新. investors.rigetti.com/node/7371/pdf, 2022.

[247] J.J. Rissanen. 费舍尔信息与随机复杂度. IEEE 信息理论期刊, 42(1), 1996.

[248] A. Robert, P.K. Barkoutsos, S. Woerner 和 I. Tavernelli. 面向蛋白质折叠的资源高效量子算法. 量子 信息, 7(38), 2021.

[249] R. Robinett. 量子力学:经典结果、现代系统和可视化实例. 牛津大学出版社,第 2 版, 2006.

[250] T.F. Rønnow, Z. Wang, J. Job, S. Boixo, S.V. Isakov, D. Wecker, J.M. Martinis, D.A. Lidar 和 M. Troyer. 定义与检测量子加速. 科学, 345(6195), 2014.

[251] G. Rosenberg, P. Haghnegahdar, P. Goddard, P. Carr, K. Wu 和 M. López De Prado. 使用量子退火机解决最优交易轨迹问题. IEEE 信号处理选择专题期刊, 10(6), 2016.

[252] R. Salakhutdinov, A. Mnih 和 G. Hinton. 协同过滤的限制玻尔兹曼机. 第 24 届国际机器学习会议论文集, 2007.

[253] G.E. Santoro, R. Martonak, E. Tosatti 和 R. Car. 伊辛自旋玻璃的量子退火理论. 科学, 295(2427), 2002.

[254] V. Schmitt. 四量子比特超导处理器的设计、制造与测试. 博士论文, 皮埃尔·居里大学,物理学,2015.

[255] A. Schrijver. 整数与线性规划理论. Wiley, 1998.

[256] M. Schuld, A. Bocharov, K. Svore 和 N. Wiebe. 面向电路的量子分类器. 物理评论 A, 101(3), 2020.

[257] M. Schuld, V. Bergholm, C. Gogolin, J. Izaac 和 N. Killoran. 在量子硬件上评估解析梯度. 物理评论 A, 99(3), 2019.

[258] F. Schwabl. 量子力学. Springer, 第 4 版, 2007.

[259] A. Selby. D-Wave:关于与经典计算机的比较的评论, 2013.

[260] S. Sethi. 最优控制理论. 管理科学与经济学应用. Springer, 2019.

[261] A. Sethia, R. Patel 和 P. Raut. 使用生成模型进行数据增强以检测信用卡欺诈. 第 4 届国际计算通信与自动化会议, 2018.

[262] A.D. Shapiro. 王车对王兵棋盘数据集。UCI 机器学习库。archive.ics.uci.edu/ml。加利福尼亚大学尔湾分校,信息与计算机科学学院,1987 年。

[263] A.D. Shapiro. 专家系统中的结构化归纳。 Addison-Wesley 出版社,1987 年。

[264] R.R. Sharapov 和 A.V. Lapshin. 遗传算法的收敛性。模式识别与图像分析16(3),2006 年。

[265] P.W. Shor. 多项式时间的质因数分解和量子计算机上的离散对数算法。SIAM 计算机学报26(5),1997 年。

[266] S. Sim, P.D. Johnson 和 A. Aspuru-Guzik. 参数化量子电路在混合量子经典算法中的可表达性和纠缠能力。先进量子技术2(12),2019 年。

[267] B. Simon. holonomy,量子绝热定理和贝里相位。物理评论快报51(2167),1983 年。

[268] H. Situ, Z. He, Y. Wang, L. Li 和 S. Zheng. 用于生成离散分布的量子生成对抗网络。信息科学538,2020 年。

[269] G.D. Smith. 偏微分方程的数值解法:有限差分方法。牛津大学出版社,1985 年。

[270] P. Smolensky. 动态系统中的信息处理:和谐理论的基础。《并行分布式处理:认知微观结构探索》,1:基础。麻省理工学院出版社,1986 年。

[271] K. Sörensen. 金融市场中的聚类:一种网络理论方法。科技大学硕士论文,瑞典斯德哥尔摩,2014 年。

[272] M. Stechły. 变分量子特征解算器的解释。www.mustythoughts.com/variational-quantum-eigensolver-explained,2020 年。

[273] M. Steffen, W. van Dam, T. Hogg, G. Breyta 和 I. Chuang. 渐近量子优化算法的实验实现。物理评论快报90(6),2003 年。

[274] S.A. Stein, B. Baheri, D. Chen, Y. Mao, Q. Guan, A. Li, B. Fang 和 S. Xu. QuGAN:通过量子态的生成对抗网络。arXiv:2010.09036,2020 年。

[275] F.W. Strauch, P.R. Johnson, A.J. Dragt, C.J. Lobb, J.R. Anderson 和 F.C. Wellstood. 用于耦合超导相位量子比特的量子逻辑门。物理评论快报91(167005),2003 年。

[276] M. Suchara. 量子算法及其应用。CQE-Protiviti 设计思维工作坊,2021 年。

[277] Y. Sung, L. Ding, J. Braumüller, A. Vepsäläinen, B. Kannan, M. Kjaergaard, A. Greene, G.O. Samach, C. McNally, D. Kim, A. Melville, B.M. Niedzielski, M.E. Schwartz, J.L. Yoder, T.P. Orlando, S. Gustavsson 和 W.D. Oliver. 实现高保真度的 CZ 和无 ZZ 的 iSWAP 门,并配有可调耦合器。物理评论 X11(021058),2021 年。

[278] R.S. Sutor. 与量子比特共舞:量子计算如何工作以及它如何改变世界。Packt 出版社,2019 年。

[279] M. Suzuki. 有序指数的广义分解理论。日本学会会报69(B),1993 年。

[280] G.W. Taylor, G.E. Hinton 和 S.T. Roweis. 两种分布式状态模型用于生成高维时间序列。机器学习研究杂志12(28),2011 年。

[281] M. Tegmark. Life 3.0. 在人工智能时代做一个人。Allen Lane,Penguin Random House,2017 年。

[282] J.L. Ticknor. 一种用于股市预测的贝叶斯正则化人工神经网络。专家系统与应用40(14),2013 年。

[283] L. Tomawski, I. Mrózb 和 Z. Kukułac. 从汤姆逊公式到共振等效图。波兰物理学报 A139(3),2021 年。

[284] T. Toffoli. 可逆计算。自动机、语言与编程国际研讨会。ICALP 1980: 自动机、语言与编程,1980 年。

[285] T.T. Tran, M. Do, E.G. Rieffel, J. Frank, Z. Wang, B. O’Gorman, D. Venturelli 和 J.C. Beck. 一种混合量子-经典方法来解决调度问题。第九届组合搜索年会,2016 年。

[286] H.F. Trotter. 半群算子的乘积。美国数学学会会报10(4),1959 年。

[287] C.A. Trugenberger. 概率量子记忆。物理评论快报87(067901),2001 年。

[288] H. Tuy. 重新审视极小化定理。越南数学学报29(3),2004 年。

[289] F. Vaezi, S.J. Sadjadi 和 A. Makui. 基于不确定性下背包问题的投资组合选择模型。PLoS ONE14(5),2019 年。

[290] J. van Apeldoorn 和 A. Gilyén. 量子半定规划求解的改进与应用。 arXiv:1804.05058,2018 年。

[291] W. van Dam, M. Mosca 和 U. Vazirani. 绝热量子计算的计算能力有多强?计算机科学基础研讨会论文集,2001 年。

[292] L. Vandenberghe 和 S. Boyd. 半定规划。SIAM 评论38(1),1996 年。

[293] V. Vapnik 和 A. Chervonenkis. 事件相对频率向其概率的均匀收敛性。概率论及其应用16(2),1971 年。

[294] D. Ventura 和 T. Martinez. 量子联想记忆。信息科学124(1),2000 年。

[295] D. Venturelli, D.J.J. Marchand 和 G. Rojo. 基于量子退火的作业车间调度实现。 arXiv:1506.08479,2015 年。

[296] D. Venturelli 和 A. Kondratyev. 反向量子退火方法解决投资组合优化问题。量子机器 智能1(3),2019 年。

[297] J. von Neumann. 关于博弈论的理论。数学年刊100: 295-320,1928 年。

[298] X. Wang, Y. Du, Y. Luo 和 D. Tao. 理解 NISQ 时代量子核的力量。量子5,2021 年。

[299] S. Wang, E. Fontana, M. Cerezo, K. Sharma, A. Sone, L. Cincio 和 P.J. Coles. 变分量子算法中的噪声诱导荒原平台。Nature Communications12(1),2021 年。

[300] S. Wei, ShiJie, Y. Chen, Z. Zhou 和 G. Long. 基于 NISQ 设备的量子卷积神经网络。AAPPS Bulletin32(1),2022 年。

[301] M. Wiese, B. Wood, A. Pachoud, R. Korn, H. Buehler, P. Murray 和 L. Bai. 多资产现货和期权市场仿真。arXiv:2112.06823,2021 年。

[302] M. Wiese, R. Knobloch, R. Korn 和 P. Kretschmer. Quant GANs:金融时间序列的深度生成。Quantitative Finance20(9),2020 年。

[303] J.W.J. Williams. 算法 232——堆排序。ACM 通信7(6),1964 年。

[304] J. Wurtz 和 P.J. Love. 反绝热性与量子近似优化算法。Quantum6,2022 年。

[305] N. Xu, J. Zhu, D. Lu, X. Zhou, X. Peng 和 J. Du. 在偶极耦合核磁共振系统上进行 143 的量子因式分解。Physical Review Letters108(13),2012 年。

[306] R. Yalovetzky, P. Minssen, D. Herman 和 M. Pistoia. NISQ-HHL:面向近期量子硬件的投资组合优化。arXiv:2110.15958,2021 年。

[307] I.C. Yeh 和 C.H. Lien. 信用卡客户违约数据集。UCI 机器学习库。archive.ics.uci.edu/ml。加利福尼亚大学欧文分校,信息与计算机科学学院,2009 年。

[308] I.C. Yeh 和 C.H. Lien. 数据挖掘技术对信用卡客户违约概率预测准确度的比较。Expert Systems with Applications36(2),2009 年。

[309] K. Yosida. 泛函分析。Springer,1965 年。

[310] T. Zhao, C. Sun, A. Cohen, J. Stokes 和 S. Veerapaneni. 量子启发式变分算法在偏微分方程中的应用:用于金融衍生品定价。arXiv:2207.10838,2022 年。

[311] X. Zhou, S. Li 和 Y. Feng. 基于模拟退火和启发式搜索的量子电路变换。IEEE 计算机辅助集成电路与系统设计学报39(12),2020 年。

[312] E. Zhu, S. Johri, D. Bacon, M. Esencan, J. Kim, M. Muir, Mark N. Murgai, J. Nguyen, N. Pisenti, A. Schouela, K. Sosnova 和 K. Wright. 生成量子学习联合概率分布函数。美国物理学会公报,2022 年。

[313] D. Zhu, N.M. Linke, M. Benedetti, K.A. Landsman, N.H. Nguyen, C.H. Alderete, A. Perdomo-Ortiz, N. Korda, A. Garfoot, C. Brecque, L. Egan, O. Perdomo 和 C. Monroe. 在混合量子计算机上训练量子电路。Science Advances5(10),2019 年。

[314] C. Zoufal, A. Lucchi 和 S. Woerner. 用于学习和加载随机分布的量子生成对抗网络。Quantum Information5(103),2019 年。

加入我们书籍的 Discord 空间

加入我们的 Discord 社区,与志同道合的人一起学习,和超过 2000 名成员共同进步,访问链接:packt.link/quantum

图片


  1. M −1−m ↩︎

posted @ 2025-01-21 21:17  绝不原创的飞龙  阅读(394)  评论(0)    收藏  举报