大语言模型系列综述-全-

大语言模型系列综述（全）

| arXiv e-print 仓库

来源：arxiv.org/html/2407.16216

跳到主要内容

我们感激地感谢来自

Simons 基金会、会员机构和所有贡献者。捐赠

'2407.16216' 没有 HTML 文件

源文件没有 HTML 格式。

这可能是由于源文件不是 HTML、LaTeX 或转换失败所致。

如果您是作者，请了解如何帮助进行论文的 HTML 转换。

《基于 LLM 的 AI 聊天机器人完整调查》

来源：arxiv.org/html/2406.16937

\UseTblrLibrary

booktabs, caption

《基于 LLM 的 AI 聊天机器人完整调查》

Sumit Kumar Dam, Choong Seon Hong, Yu Qiao,

和张超宁、Sumit Kumar Dam、洪忠善、乔宇及张超宁在韩国京畿道龙仁市 17104 的庆熙大学计算机学院工作（电子邮件：skd160205@khu.ac.kr；cshong@khu.ac.kr；qiaoyu@khu.ac.kr；chaoningzhang1990@gmail.com）。(Sumit Kumar Dam 和洪忠善对这项工作贡献相同。)(通讯作者：张超宁。)

摘要

过去几十年见证了数据的激增，这为数据需求巨大的学*型 AI 技术奠定了基础。对话代理，通常称为 AI 聊天机器人，严重依赖这些数据来训练大型语言模型（LLMs）并生成新的内容（知识）以响应用户的提示。随着 OpenAI 的 ChatGPT 的出现，基于 LLM 的聊天机器人在 AI 社区中树立了新的标准。本文全面调查了 LLM 基于聊天机器人的发展与应用。我们首先总结了基础聊天机器人的发展，然后是 LLM 的演变，再提供了目前在用和开发阶段的基于 LLM 的聊天机器人的概述。我们将 AI 聊天机器人视为生成新知识的工具，探索它们在各个行业中的多样化应用。随后，我们讨论了开放性挑战，考虑到用于训练 LLM 的数据以及生成知识的误用可能引发的多个问题。最后，我们探讨了未来展望，以提高它们在众多应用中的效率和可靠性。通过探讨关键的里程碑和基于 LLM 的聊天机器人的现状，我们的调查邀请读者深入这个领域，反思下一代将如何重塑对话 AI。

索引词：

大型语言模型，聊天机器人，知识，数据，ChatGPT

I 引言

最近几年数据的指数增长改变了数字信息的世界。在 2023 年，全球创建、捕获、复制和消耗的数据总量达到了约 120 兹字节，预计到 2024 年将达到 147 兹字节，并有望在 2025 年超过 180 兹字节 [1]。图 1 说明了

图 1：数据量随时间的增长 [1]。

从 2010 年到 2023 年数据量的增加，以及 2024 年和 2025 年的预测值。这种数据生态系统的快速扩展为人工智能（AI）开创性创新铺*了道路，导致了多个机器学*模型的开发。其中，大型语言模型（LLMs）由于其卓越的理解、生成和操控人类语言的能力 [2]，已成为一个突出的子集 [3]。

图 2：Google 搜索兴趣随时间变化 [4]。

表 I：聊天机器人文献总结

{tblr}

width = colspec = —Q[c,m,0.0663]—Q[c,m,0.05427]—Q[c,m,0.05427]—Q[c,m,0.1064]—Q[c,m,0.1064]—Q[c,m,0.0555]—Q[c,m,0.0555]—Q[c,m,0.0555]—Q[j,m,0.2272]—, row1 = font=, c, row1-16 = font=, hlines, cell12 = c=2, cell22 = c=1halign=c,valign=m, cell23 = c=1halign=c,valign=m, cell14 = c=2, cell24 = c=1halign=c,valign=m, cell25 = c=1halign=c,valign=m, cell16 = c=3, cell26 = c=1halign=c,valign=m, cell27 = c=1halign=c,valign=m, cell28 = c=1halign=c,valign=m, cell11 = r=2halign=c,valign=m, cell19 = r=2halign=c,valign=m, 参考文献 & \SetCell[c=2]c 覆盖的聊天机器人 \SetCell[c=2]c 应用范围 \SetCell[c=3]c 讨论的挑战备注

单一多重单学科多学科技术伦理误用

[5] - - ✔ ✔ • 将讨论限制在 ChatGPT 上，没有提及其他聊天机器人如 BARD、Bing Chat 等。

• 忽视了技术问题。

[6] - - ✔ ✔ • 未涉及技术问题。

• 探讨了用户体验下的伦理问题和误用案例，结果内容欠缺。

[7] - - ✔ • 对技术问题和误用案例的讨论不足，缺乏深度和细节。

[8] - - ✔ ✔ ✔ • 缺乏对关键问题的结构化分类，导致读者难以找到具体信息。

[9] - - • 仅考虑了 ChatGPT 的初始版本（v3.5）。

• 缺乏对教育问题的分类和深度讨论。

[10] - - • 缺乏对各个领域应用和挑战的分类。

[11] - - ✔ ✔ ✔ • 过于依赖叙述内容，缺乏分析深度。

• 缺乏足够的视觉辅助（例如图形、图表、条形图等），使数据解读变得复杂，减少了读者的参与感。

[12] - - ✔ ✔ ✔ • 包含了来自 43 位专家的重叠见解，导致文档杂乱且过长。

[13] - - ✔ ✔ ✔ • 缺乏对应用和挑战的细粒度分类。

[14] - - • 缺乏对关键问题的讨论。

我们的调查 - - ✔ ✔ ✔ • 涵盖了 ChatGPT 之外的广泛聊天机器人，包括 BARD、Bing Chat、Claude 等。

• 提供了应用和挑战的详细分类，每个分类都分为不同的子类别。

* ✔（完全讨论）；（部分讨论）；（未讨论）； - （不适用）；

* （单一聊天机器人或单学科）；（两个聊天机器人或两个学科）；

* （三个聊天机器人或三个学科）；（超过三个聊天机器人或超过三个学科）。

在 AI 驱动的聊天机器人时代 [15、16、17]，大语言模型（LLM）在推动聊天功能和促进类似人类的互动方面发挥了重要作用 [2、7]。数据的大幅增长和计算知识的进步提升了基于 LLM 的聊天机器人的功能，使其在各个领域越来越受欢迎并被广泛采用。它们以前所未有的上下文相关性和准确性理解和回应人类语言，加上处理大量信息流的能力，使其在教育 [18、19、20]、研究 [21、22、23]、医疗 [24、25、8] 及其他多个领域 [26、27、28] 中成为不可或缺的工具。鉴于基于 LLM 的聊天机器人的巨大潜力和令人鼓舞的前景，它们的使用增加和优化需求带来了许多挑战，这些挑战需要进行深入的研究和评估。随着基于 LLM 的聊天机器人领域迅速扩展，这些需求变得更加明显，导致了学者、专业人士和新手面临的研究文献的数量庞大。因此，我们的工作提供了一个及时且全面的基于 LLM 的聊天机器人的调查，以应对这些不断发展的需求。

在 LLM 和基于 LLM 的聊天机器人出现之前，对话式 AI 面临着若干挑战。早期的聊天机器人具有有限的上下文理解能力和领域特异性，常常提供不准确的回答。缺乏复杂的语言理解限制了它们以类似人类的方式互动的能力，导致了机械和支离破碎的用户体验。跨行业的可扩展性也是一个问题，因为处理大量信息流并实时响应具有挑战性。LLM 的出现彻底改变了聊天机器人，开启了 AI 驱动互动的新纪元。2023 年 3 月，OpenAI 发布了其最新的奇迹 GPT-4（也称为 ChatGPT Plus [29]），继 ChatGPT 3.5 在 2022 年 11 月首次亮相后的轰动效应 [30，31]。图2展示了 ChatGPT（以蓝色标出）自初次发布以来人气的指数增长，突显了其在 5G（以黄色标出）、物联网（以绿色标出）和区块链（以红色标出）等广泛技术中的主导地位。其创新能力迎来了前所未有的人气激增，标志着 AI 驱动通信的新篇章。在相关发展中，谷歌于 2 月 6 日宣布了其首个基于 LLM 的聊天机器人 BARD [32]，并于 3 月 21 日提供了早期访问 [33]。此外，还有许多其他基于 LLM 的聊天机器人正在开发中。鉴于这些技术的深远影响，本调查旨在提供基于 LLM 的聊天机器人的精炼、最新概述，包括其发展、行业应用、主要挑战和提高其有效性及可靠性的策略。我们的目标是将这些不同的研究整合成一个组织良好的综述，以促进对基于 LLM 的聊天机器人的深入理解，并为未来的研究提供指导。

I-A 现有的调查、综述和案例研究

一些文章已经回顾了基于 LLM 的聊天机器人的广泛应用，突显了它们的重大影响以及它们在各个领域所带来的复杂挑战。在这里，我们讨论了一些这些文章，并展示了我们的调查如何扩展和不同于它们。

[5] 探讨了 AI 和聊天机器人在学术领域中的应用及其对研究和教育的伦理影响。它调查了这些技术对教育评估诚信的影响及其变革学术研究的潜力。此外，它建议了有效的解决方案，以缓解这些工具在教育和研究领域中的伦理挑战和可能的误用。[6] 对 ChatGPT 如何提升在线学*进行了案例研究。研究结果表明，学生们偏爱这些工具用于教育活动，认为其提供了更加互动和引人入胜的学*环*。Koubaa 等人 [7] 对 ChatGPT 的技术创新进行了详细的回顾。接着，他们在调查中开发了一个独特的分类法用于研究分类，并探索了 ChatGPT 在各个领域的应用。此外，他们还突出了显著的挑战和未来的研究方向。[8] 提供了对 ChatGPT 在医疗保健领域的系统评审，重点关注教育、研究和实践。作者概述了 ChatGPT 在科学写作和个性化学*中的潜力。该评审批判性地分析了其好处，同时承认了诸如伦理和准确性问题等显著担忧。另一篇综述文章 [9] 评估了 ChatGPT 对教育的影响，指出其在经济学、编程、法律、医学教育和数学等学科中的表现差异。论文强调了这一工具的潜力和挑战，如准确性问题和剽窃，建议更新评估方法和教育政策以实现负责任的使用。在 [10] 中，作者通过虚拟和面对面的反馈进行了一项探索性调查，分析了 ChatGPT 在教育、医疗保健和研究中的影响。调查展示了 ChatGPT 如何改善个性化学*、临床任务和研究效率。他们还讨论了主要的伦理和实际问题，建议在有力的伦理准则指导下谨慎部署 AI 以应对这些挑战。在类似的背景下，[11] 提供了对 ChatGPT 的全面分析，重点关注其演变、多样化的应用和关键挑战。与[10] 采用直接反馈的调查不同，[11] 汇总了现有研究的发现，以评估 ChatGPT 的影响和挑战，提供了一个更为概括的视角，而没有进行初级数据收集。进一步探讨，[12] 和 [13] 深入研究了 ChatGPT 的更广泛的跨学科应用。[12] 汇集了多个学科的见解，以评估其在营销、教育和医疗保健等领域的影响，而 [13] 引入了 ChatGPT 研究的分类法，详细描述了其在医疗保健、金融和环*科学等领域的应用。此外，这两篇论文还讨论了有关伦理考虑和实际部署的基本挑战。另一篇最近的文章 [14] 使用单案例研究方法评估了 ChatGPT 和 Bing Chat 在化学教育中的有效性。研究分析了这两个工具与模拟学生之间的广泛互动，以改善创造力、问题解决和个性化学*。研究结果显示，这两个聊天机器人作为有价值的“思考伙伴”发挥了作用。然而，ChatGPT 在提供更全面和上下文准确的响应方面明显优于 Bing Chat。

与现有工作不同，我们的调查扩展了对具体聊天机器人的典型关注，例如 ChatGPT，涵盖了包括 BARD、Bing Chat 和 Claude 在内的广泛模型。此外，我们探讨了多个领域的应用，并讨论了各种挑战，每个挑战都在几个子类别中详细说明。表 I 总结了讨论文章的发现，便于比较理解它们的贡献。

图 3：调查大纲。

I-B 我们的贡献

我们的调查旨在回答以下问题：

•

聊天机器人是如何从简单的自动化系统演变为我们今天看到的 LLM 基础变体的？LLM 的哪些基础进展自预 LLM 时代以来重新定义了聊天机器人的能力？
•

LLM（大型语言模型）基础的聊天机器人在不同领域中的关键应用是什么？它们如何影响这些领域中的操作动态和用户互动？
•

LLM 基础聊天机器人的广泛使用带来了哪些挑战？这些挑战如何影响它们的性能和可靠性？
•

对于 LLM 基础聊天机器人而言，哪些技术改进是至关重要的？实施伦理准则将如何确保其负责任的使用？

针对这些问题，我们提供了聊天机器人历史的全面概述。此外，我们讨论了 LLM 的基础，重点介绍了基于变换器的自注意力机制以及 GPT 模型中的创新特性，如上下文学*和思维链（CoT）提示。接着，我们提供了 LLM 基础聊天机器人的详细分类，按照其功能和在教育、研究和医疗等领域的应用进行组织。我们还承认它们在软件工程和金融领域日益增长的重要性。接下来，我们从技术方面探讨了开放挑战，包括从知识时效性到幻觉的问题，以及数据透明性、偏见、隐私风险和不公*等伦理考量。然后，我们从误用的角度进行总结，重点关注学术误用、过度依赖和错误信息传播等问题。最后，我们讨论了 LLM 基础聊天机器人的未来展望，从技术改进如模型优化到遵守伦理准则以及在各个领域推广负责任的使用。我们的贡献总结如下：

•

与大多数集中于特定聊天机器人或其有限方面的文章不同，我们的调查涵盖了各种 LLM 基础模型，包括 ChatGPT、BARD、Bing Chat 以及其他许多模型。
•

虽然大多数文章集中于应用于一个或多个领域的单一聊天机器人，且没有详细分类，我们的调查扩展到各种应用领域的广泛聊天机器人。我们提供了详细的应用分类，结构化地深入探讨了不同聊天机器人在教育、研究、医疗保健、软件工程和金融等行业中的表现。
•

我们讨论了从技术、伦理和滥用角度的几个开放挑战。此外，我们围绕知识和数据这两个 LLM 的核心支柱展开讨论。这种方法展示了聊天机器人与大量训练数据互动以及随后生成新内容（知识）之间的动态互动。

调查的其余部分组织如下：第II节涵盖了聊天机器人的基础年、LLM 的崛起以及基于 LLM 的聊天机器人的概述。第III节突出显示了这些聊天机器人在教育、研究和医疗保健中的应用。还包括软件工程和金融等其他应用。第IV节深入探讨了这些聊天机器人固有的挑战，而第V节则探索了该领域的未来前景。最后，第VI节总结了调查的关键发现和总体贡献。我们的调查大纲如图3所示。

II 概述

在本节中，我们深入探讨了聊天机器人的演变，从其起源到现代时代。图中的维恩图4展示了早期聊天机器人、LLM 的发展以及代表该技术前沿的基于 LLM 的聊天机器人之间的关系。我们首先回顾聊天机器人的前 LLM 时代，以了解该领域的早期发展。接下来，我们介绍了大型语言模型（LLMs），解释它们对聊天机器人技术的变革性影响。最后，我们概述了基于 LLM 的聊天机器人，突出了行业中的领军者以及当前在开发中的机器人。

图 4：前 LLM 聊天机器人遇见 LLMs。

II-A 前 LLM 时代的聊天机器人

图 5: 早期的聊天机器人。

聊天机器人起源于 1950 年的一个简单想法：“机器能思考吗？”这个被称为图灵测试的想法由艾伦·图灵提出[34, 35]。测试中，一名人类参与者与一个看不见的个体进行文字对话，尝试预测这个个体是机器还是另一个人类。这成为了聊天机器人的基础。多年来，聊天机器人发生了很多变化，如今它们使用复杂的高级计算机程序，称为大型语言模型（LLMs），以更加复杂的方式与我们互动。现在，在这一小节中，我们首先讨论大型语言模型到来之前的聊天机器人时代。

1960–1980: 早期基础。这个时期出现了几个聊天机器人。其中之一是 1966 年在 MIT 开发的 ELIZA。它模拟了一个罗杰斯式心理治疗师，通过关键字识别和模式匹配进行功能操作，但它并不理解输入的含义[36]。尽管其功能原始且知识库有限，ELIZA 因其能让用户相信其具有人类特质，甚至形成情感联系而受到关注，这也引发了一些伦理问题[37]。另一个早期的聊天机器人 PARRY，创建于 1972 年，被设计用来模拟一个有偏执型精神分裂症的人[38]。它甚至可以与 ELIZA 聊天，并被视为向前迈出的一步，因为它能够展示更受控的结构和情感反应[39, 40]。

1981–2009 年：进展与主流整合。在此期间，聊天机器人变得更加先进。1984 年，Racter 作为一种人工智能程序出现，能够生成英文散文并模仿聊天机器人的对话行为[41]。与此同时，另一个人工智能项目 Jabberwacky 于 1988 年启动。它旨在以友好的方式模拟休闲的人类对话[42]。它通过与人类的互动不断发展，从对话中存储关键短语以增强其知识库，然后利用来自动态扩展数据库的上下文感知算法选择相关回复[43, 44]。1990 年代带来了进一步的创新，Creative Labs 的 Dr. Sbaitso 是为 MS-DOS 计算机设计的聊天机器人。它配合当时的多个声卡，提供了一个简单的交互界面，具有蓝色背景和白色文本。然而，它在早期文本转语音技术的利用方面具有创新性，通过语音合成和声卡实现了这一点[45]。然后，在 1995 年，美国科学家 Richard S. Wallace 创建了 A.L.I.C.E.（人工语言互联网计算实体），也被称为 Alicebot 或简单地叫 Alice。它通过利用大幅扩展的知识库和采用人工智能标记语言（AIML）建立聊天指南，为聊天机器人技术带来了新能力[46]。ELIZA 是 Alice 开发的灵感来源。Alice 首次亮相时因其能力获得了极大的赞誉，并在 2000 年代三次获得 Loebner 奖[47]。然而，由于某些限制，它未能通过图灵测试[48]。在此基础上，2001 年见证了另一项重大进展，当时 ActiveBuddy 在 AIM *台上推出了 SmarterChild。这是最早帮助用户处理日常任务如天气更新和股票价格查询的聊天机器人之一[49]。继续发展聊天机器人，2008 年英国人工智能科学家 Rollo Carpenter 推出了 Cleverbot。它是 1988 年聊天机器人 Jabberwacky 的继任者。Cleverbot 独特的策略是从人类输入中学*，而不是依赖预编程的回应，这使它相对于其他聊天机器人具有独特的优势。此外，Cleverbot 在 2011 年 Techniche 节的正式图灵测试中表现出色，获得了 59.3%的类人评分，考虑到人类参与者的评分略高于 63.3%，这是一个值得注意的结果[50]。

2010–2016: 智能语音助手的时代。2011 年，IBM 推出了 Watson，这是一种对话 AI，在《危险边缘》竞赛节目中两次获胜。继成功之后，Watson 在医疗行业找到了很多应用[51, 52]。然后，在 2014 年，微软推出了 XiaoICE [53]。这个基于情感计算框架的聊天机器人能够处理智力和情感方面的查询。微软同一团队还创建了另一个聊天机器人，名为 Tay。Tay 于 2016 年首次出现在 Twitter 上。然而，在推出不久后，Tay 开始发布攻击性推文，迫使微软在发布后仅十六小时内关闭了它。在此期间，聊天机器人的集成通过即时消息应用和各种*台上的语音和搜索代理变得更加突出[54, 55]。苹果公司于 2010 年率先进行了这一集成，推出了 Siri，这款 iOS 应用到 2011 年成为 iOS 系统的一部分。作为个人助手，Siri 可以通过语音命令执行一系列任务，例如打电话、设置提醒和收集信息[56]。随后，在 2012 年，谷歌推出了 Google Now，将语音输入转化为搜索结果。然后微软于 2014 年推出了 Windows *台上的 Cortana，利用 Bing 处理用户查询。同年，亚马逊发布了 Alexa 和 Echo 扬声器。随后在 2016 年，谷歌进一步推进了领域，推出了 Google Assistant，后者后来被集成到 Google Home 扬声器和 Pixel 智能手机中。尽管这些语音助手提供了快速的互联网连接响应，但它们在多语言支持、隐私和安全方面存在一些问题[57]。

表 II: LLMs 概述

	数据集	参数	上下文窗口
GPT-1

| BooksCorpus |

| (4.5GB) |

1.17 亿	512 个 token
BERT

| BooksCorpus，|

| 英语维基百科 |

| (大小: 无) |

| BERT-Base: 1.1 亿 |

| BERT-Large: 3.4 亿 |

512 个 token
GPT-2

| Webtext |

| (40GB) |

15 亿	1024 个 token
GPT-3

| Common Crawl |

| (45TB) |

1750 亿	2048 个 token
GPT-3.5	无
PaLM

| 网页，书籍，新闻，|

| 社交媒体对话，|

| 维基百科，Github |

| (大小: 无) |

| 5400 亿 |

| 较小版本：|

| 800 万和 620 亿 |

无
LLaMA

| Common Crawl，C4，|

| 书籍，Github，维基百科 |

| ArXiv，Stack Exchange |

| (大小: 不适用) |

| 6.7, 13, 32.5, |

| 和 65.2 亿 |

2048 tokens
GPT-4
PaLM 2

| 20 编程, |

| 语言, 超过 100 种 |

| 口语语言, 数学 |

| 和科学文本 |

| (大小: 不适用) |

340 亿	8000 tokens
LLaMA 2

| 公开数据混合 |

| 可用的在线资源 |

| (大小: 不适用) |

| 7, 13, 和 |

| 70 亿 |

4096 tokens

图 5 提供了至今提到的所有聊天机器人的完整时间线。现在，尽管这些进展贯穿了几十年，但新的聊天机器人时代始于 2020 年，随着 LLMs 的崛起 [58, 59]。通过在大量预训练变换器上的广泛训练，LLMs 使聊天机器人能够提供更详细和细致的回应。接下来的部分将讨论这些 LLMs 以及基于这种技术构建的流行 AI 驱动聊天机器人。

II-B 大型语言模型（LLMs）

LLMs 的出现彻底改变了自然语言处理领域，特别是聊天机器人的发展和功能。在这里，我们讨论 LLMs 的世界，提供它们的架构、工作原理、在聊天机器人中的应用、优点和局限性的概述。

基于 LLM 的聊天机器人，如 ChatGPT 和 BARD，最近在媒体[60, 61, 62]、政策制定者[63, 64, 65]和各领域学者[11, 8, 66, 67]中获得了广泛赞誉。LLM，通常称为变换器语言模型，经过大量文本数据训练，包含数十亿个参数。第一个引起人们注意的 LLM 是 OpenAI 的 GPT[68]，即生成预训练变换器，发布于 2018 年。自那时以来，我们见证了更大、更复杂的语言模型的发展，包括 GPT-2[69]、GPT-3[3]、GPT-3.5[70]以及最新的 GPT-4[29]，以及其他模型如 BERT[71]、PaLM[72]和 LLaMA[73]。表格II概述了这些 LLM，而图6展示了它们的发展时间线。目前，编码器-解码器、因果解码器和前缀解码器是构建 LLM 的三种基本变换器架构类型。

香草变换器模型，由 Vaswani 等人[74]在其论文《Attention is All You Need》中提出，建立在编码器-解码器架构之上。编码器生成输入数据的抽象表示，并通过一系列具有多头自注意力机制的层，关注输入序列的不同部分。

图 6：LLM 的时间线。

解码器然后自回归地生成输出序列，使用这些表示上的交叉注意力（见图7）。GPT 系列模型[3, 75]使用自回归或因果解码器架构，并配备单向注意力掩码，这样每个输入令牌在处理时只考虑之前出现的元素和自身（见图8）。这使得处理更像自然对话的流动。输入和输出令牌在这一框架中经历类似的处理。非因果或前缀解码器架构[76]对前缀令牌执行双向注意力，即考虑前后令牌。在自回归预测输出令牌时使用相同的编码参数集，它执行单向注意力[77, 78]。

LLM 的工作原理包括一系列步骤。过程始于词嵌入，即将单词表示为高维空间中的向量。在这里，相似的单词被聚集在特定的组或类别中。这种单词的聚类使模型能够理解其含义，从而帮助 LLM 做出准确的预测。模型在大量文本语料库（如新闻文章或书籍）上进行训练，在训练过程中，它学*预测单词在特定上下文中出现的可能性。位置编码进一步增加了对序列中单词顺序的理解，这对于翻译、摘要和问答等任务至关重要。接下来是这些模型的核心，即 Transformer 架构。它由自注意力机制组成

图 7：Transformer 模型架构[74]。

图 8：GPT 系列中的 Transformer 模型架构[68]。

它通过为单词分配不同的权重来帮助理解文本依赖关系。这是通过计算实现的：

	$Attention(Q,K,V)=softmax(\frac{QK^{T}}{\sqrt{d_{k}}})V=AV,$		(1)

其中矩阵 Q（查询）、K（键）和 V（值）分别代表当前元素、其他元素和需要聚合的信息。查询和键矩阵之间的相似度通过点积操作计算。然后通过 $\frac{1}{\sqrt{d_{k}}}$ 进行缩放，以防止梯度消失问题，随后使用 SoftMax 激活函数进行归一化，生成注意力矩阵 A。通过对 A 和 V 进行矩阵乘法得到更新后的表示。这种加权值的聚合形成了一个新的表示，捕捉了文本中的固有关联。算法 1 描述了自注意力机制的逐步过程。最后，模型使用自回归方法生成与给定提示相关的文本，其中模型一次生成一个单词来构建输出序列。通过人类反馈的强化学*（RLHF）的整合进一步增强了 LLMs 从人类互动中学*的能力，不断优化其性能。

算法 1 自注意力机制

0: 矩阵 $Q$（查询）、$K$（键）、$V$（值）0: 矩阵 $Z$（更新后的表示）1: 计算查询与键的点积：$D\leftarrow QK^{T}$2: 缩放点积：$D\leftarrow D/\sqrt{d_{k}}$3: 应用 SoftMax 归一化：$A\leftarrow\text{SoftMax}(D)$4: 计算值的加权和：$Z\leftarrow AV$5: 返回 $Z$

在 GPT-3 [3] 中引入的上下文学*（ICL）功能使 LLMs 能够在对话上下文中理解和回应新信息，而无需额外的训练。LLMs 可以遵循输入文本的指令，并尽可能地产生符合这些指令的输出。通过指令调整（一个微调过程），LLMs 在多任务数据集的混合上进一步训练，每个数据集都附带自然语言指令，这增强了模型在类似指令描述的不熟悉任务上的泛化能力 [79, 80, 81]。与小型语言模型不同，LLMs 可以通过使用一种称为链式思维（CoT）提示的策略来处理涉及多个推理步骤的复杂任务 [82]。这一策略帮助 LLMs 概述达到最终解决方案所需的中间步骤。换句话说，与其一步到位地从问题跳到解决方案，CoT 提示将任务分解成多个部分，LLMs 可以依次解决，从而得到最终解决方案。

尽管大型语言模型（LLMs）能够有效生成连贯的文本，但它们缺乏语义理解。这是因为它们并不真正理解内容。它们只是根据从训练数据中学到的知识预测后续的文本。LLMs 还可以处理和生成多语言文本，只要有足够的多语言训练数据。然而，不同语言的熟练程度因数据的质量和数量而异。此外，还有其他一些局限性。例如，它们偶尔会产生幻觉 [29, 83, 84]，即响应中包含事实错误，或在某些情况下可能被认为是有风险的。在生成具有复杂结构约束的文本时，LLMs 展现了在局部规划方面的卓越能力。也就是说，它们可以有效地处理紧邻句子之间的互动。然而，它们可能在全球规划或维持长篇文本的连贯性和相关性方面存在困难 [85]。

总之，LLMs 通过提供强大的理解和生成类似人类文本的能力，已经改变了自然语言处理的格局。尽管取得了显著进展，但仍存在一些局限性。为了确保它们在各个领域的伦理和适当应用，我们必须在前进的过程中不断改进它们。

II-C 基于 LLM 的聊天机器人

高级聊天机器人的发展得益于 LLMs。如今市场上提供了各种各样的聊天机器人，其中 ChatGPT 处于领先地位。在这里，我们讨论了目前使用的聊天机器人以及那些正在开发中的聊天机器人。

ChatGPT。2022 年 11 月，我们见证了 ChatGPT 的出现，这是一款由 OpenAI 开发的 AI 聊天机器人 [86]。它属于更大的生成预训练变换器（GPT）家族，具体来说是 GPT-3.5 的微调版本 [31]。ChatGPT 利用大量互联网文本数据进行训练，能够对众多提示和询问生成类似人类的回复。在相对较短的时间内，ChatGPT 因其在多个主题上提供连贯且令人信服的真实响应而获得广泛赞誉。在 ChatGPT 取得前所未有的成功之后，OpenAI 于去年 3 月 14 日发布了 GPT-4 [87]。GPT-4 是 GPT 系列的第四个也是最新的版本，同时也是 ChatGPT Plus 的基础架构。

BARD。自发布以来，ChatGPT 对搜索引擎产生了巨大的影响，以至于 Google 针对其出现宣布了“代码红色”[31]。鉴于 ChatGPT 的潜力，Google 推出了 BARD，这是一个面向公众的 LLM 合作生成 AI 用户界面。BARD 于去年 2 月 6 日推出，并于 3 月 21 日向公众开放[33]。它使用了 LaMDA（对话应用的语言模型）的优化变体，经过广泛公开资源的预训练。在发布时，ChatGPT 和 BARD 之间的主要区别之一是，ChatGPT 的回应无法使用最新信息，因为其知识局限于 2021 年的数据，而 BARD 则利用了更多的最新信息[88]。然而，自去年 9 月以来，ChatGPT 也获得了搜索最新内容的能力[89]，并通过更新的知识库增强了包括 2023 年 4 月的信息[90]。不过，Google 还进一步解决了准确性、偏见和漏洞等领域的持续研究和改进问题。值得注意的是，截至 2024 年 2 月 8 日，Google 已将 BARD 更名为‘Gemini’[91]。本调查主要引用了 2023 年的出版物，当时该*台被普遍认知为 BARD。因此，本文件中提到的所有 BARD 均指现在称为 Gemini 的聊天机器人。

Bing Chat。去年 2 月 7 日，紧接着 Google 宣布 BARD，微软推出了 Bing Chat[92]。它是由 GPT-4 驱动的搜索引擎功能，让用户可以与 AI 聊天机器人互动，而不是手动输入搜索查询。在发布时，Bing Chat 相较于 ChatGPT 等竞争对手具有显著优势，因为它提供了实时互联网访问和引用支持的回应，使用户能够验证信息的真实性[93, 94]。值得注意的是，Bing Chat 还通过提供用户可选择的回应风格如‘更多创意’，‘更多*衡’，或‘更精准’，根据用户的查询提供定制化的互动[95]。

Claude。Anthropic 的 Claude 第一次迭代，版本 1.0，于去年 3 月 14 日发布，同时推出了简化版 Claude Instant 1.1 [96]。随后在 7 月 11 日发布了更高级的 Claude 2，并在 8 月 9 日推出了 Claude Instant 的第二次迭代，版本 1.2 [97]。然后，Claude 2.1 于 11 月 21 日发布 [97]。尽管 Claude Instant 比其他两个模型稍快且更轻便，但 Claude 2 以其全面的推理能力和更安全的响应而脱颖而出。这是通过由 Anthropic 研究人员开发的宪法人工智能（constitutional AI）细化过程实现的 [98]。然而，Claude 2 的知识库包含的数据截至 2022 年，且无法连接互联网。因此，它缺乏此后时期的实时数据 [86]。Claude 2 的另一个关键特点是其 100,000 个标记的广泛上下文窗口，大约 75,000 个词，这使得用户能够对大型文档进行深入分析 [98, 99, 100]。

Ernie Bot。百度的 Ernie（通过知识整合增强表示）首次于去年 3 月 16 日发布 [101]。它也被称为文心一言（语言与思想合一）。Ernie 通过大量的数据进行训练，包括数万亿的网页，数十亿的语音数据，搜索数据，图像数据，以及包含 5500 亿事实的知识图谱，这是一个令人印象深刻的成就 [102]。尽管在早期测试中出现了一些幻觉和基础数学错误的问题，Ernie 已显示出阅读各种中文方言文本的能力 [103]。百度计划将 Ernie 集成到其众多产品中，包括自动驾驶汽车和其主要搜索引擎 [102]。百度的战略可能并不旨在与 ChatGPT 直接竞争，而是为了在 ChatGPT 当前不可用的国内市场建立主导地位 [104]。

图 9：基于 LLM 的聊天机器人时间线。

除了这五种之外，还有其他多个聊天机器人也在开发中，像 DeepMind 的 Sparrow [105] 和 xAI 的 Grok [106, 107] 等有前景的候选者。图 9 展示了所有这些聊天机器人的视觉时间轴。Meta 也有一个名为 BlenderBot 的聊天机器人 [31]。然而，用户发现与 BlenderBot 的互动有些乏味，这可能是因为开发者对其输出的严格限制，限制了聊天机器人的创造力，降低了用户满意度 [108]。尽管如此，随着我们见证这一快速进展，持续研究、跨学科合作和伦理规范的开发实践变得至关重要。在创新与伦理考虑之间取得*衡，将是确保这些工具负责任利用的关键。

III 应用

与传统的聊天机器人仅限于基本对话框架不同，基于大语言模型（LLM）的聊天机器人已成为生成知识的新方式。由于这种新角色，它们已成为各个领域的重要组成部分，重新塑造了行业如何运作以及与客户互动。在教育、研究和医疗等领域，这些聊天机器人提供了极大的效率、准确性和个性化参与。现在，在这一部分，我们将深入探讨基于 LLM 的聊天机器人的多种应用，突显它们在不同领域的深远影响。

III-A 教育

基于 LLM 的聊天机器人在教育领域带来了显著的提升。在这里，我们总结了这些智能系统如何为教育卓越和改善学*成果提供独特的机会。

学*。基于 LLM 的聊天机器人在 K-12、本科和研究生阶段都有巨大的潜力，在这些教育层次中可以发挥各种支持性作用，增强这些教育层次的学*体验。例如，[109]的一项研究探讨了 ChatGPT 和必应聊天在 STEM 教育中的有前景的途径。该研究表明，这些聊天机器人作为“用于思考的对象”可以改变 STEM 教育，鼓励积极参与，并培养用户友好的环*。随后，另一项研究[110]调查了三种 SOTA LLMs，ChatGPT、必应聊天和 BARD，在满足越南学生教育需求方面的表现。该研究使用越南国家高中毕业考试（VNHSGE）数据集[111]对学生在九个科目的学术成绩进行了比较分析。尽管所有的聊天机器人表现相当，但必应聊天在大多数科目上都表现更有优势。它在数学、英语、物理、历史和公民教育方面取得了显著的成绩，准确率分别为 60%、92.4%、66%、88.5%和 85.5%。BARD 在化学、生物和地理等科目中表现也相当不错，准确率分别为 73%、69.5%和 82%。相比之下，ChatGPT 只在文学方面表现出色，准确率为 68%，但在其他科目上得分较低。除此之外，GPT-4 的元提示功能允许在对话过程中进行角色定制，比如选择“苏格拉底导师模式”来增强学生的批判性思维和问题解决能力[112]。类似的方法也可以在 ChatGPT Turbo 中看到，其功能包括“数学导师”、“创意写作教练”、“数据分析”等，为用户提供定制化的学*体验[113]。

学术写作。2020 年国家科学基金会科学与工程指标强调了国际学者在美国博士后项目中的重要贡献，近 49%的博士后来自海外。在数学和工程领域，国际学生获得 60%的博士学位 [114]。因此，有效的学术写作对研究出版物的质量和成功至关重要。然而，对于许多国际博士后和学生来说，掌握学术写作仍然是一个巨大的挑战。对此，ChatGPT 通过修正标点、拼写和语法错误显著提升了用户体验，这进而提高了内容质量和个人写作技能 [31]。此外，ChatGPT 还帮助用户发展独特的写作风格。例如，它提供风格建议，提高内容深度，并为读者打造引人入胜的最终产品 [115]。

教学。基于大型语言模型的聊天机器人也可以作为教师的助手。[6] 中指出，ChatGPT 可以成为教师的有价值工具，通过提供结构化的大纲帮助他们制定课程。[9] 的研究确定了 ChatGPT 在两个主要类别中的五个关键角色：协助教学准备（如创建课程材料、提供建议和进行语言翻译）和帮助评估（例如制定评估任务和评分学术表现）。表III 说明了 ChatGPT 在支持教师教学任务方面的实用性。另一个研究 [116] 表明，ChatGPT 有效地创建了一个统计学课程的本科大纲，只需稍作调整，这进一步证明了其有用性和精确性。继这一趋势之后，知名在线教育*台可汗学院目前正在探索将如 GPT-4 等人工智能工具集成到其“Khanmingo”项目中，以改善电子学* [117]，而 Duolingo 已经在使用 GPT-4 来增强语言学*中的角色扮演互动 [118]。

表 III：人工智能在教育支持中的能力

{tblr}

width = colspec = —Q[c,m,0.14]—Q[c,m,0.19]—Q[c,m,0.42]—, row1 = font=, c, row1-6 = font=, hlines, cell21 = r=3halign=c,valign=m, cell51 = r=2halign=c,valign=m, Aspect & Function Representative Quote

协助教学准备创建课程材料 ‘我们要求 ChatGPT 为 DialogFlow 集成格式化对话，它成功地提供了所需的格式’ [119]。

提供建议 ‘在得知有学*困难的学*者时，ChatGPT 推荐了适当的学*资源’ [120]。

提供语言翻译 ‘ChatGPT 能够将教育内容翻译成不同的语言’ [18]。

帮助评估制定评估任务 ‘ChatGPT 的一个显著应用在于其生成课堂使用的实际练*和测试的能力’ [121]。

评分学术表现 ‘ChatGPT 可以评估学生的论文，这使得教师能够将更多的注意力放在其他职责上’ [121]。

除了我们迄今讨论的内容外，基于 LLM 的聊天机器人还通过许多其他创新方法改变教育。例如，它们提供语法练*、互动讨论、即时反馈，并协助翻译，从而提高语言流利度和理解能力。它们还可以帮助学生提高阅读技能。 [122] 展示了 LLM 如何协助复杂文本的总结和对单词及短语的解释，以便学生理解即使是微妙的含义。此外，这些聊天机器人与语音转文本和文本转语音工具的集成有可能使视力障碍学*者受益 [122]。总之，基于 LLM 的聊天机器人代表了教育发展中的一个重要里程碑，提供了多样化和创新的解决方案，增强了学*体验，满足了个体需求，并为更具活力的学*环*铺*了道路。

III-B 研究

以下讨论探讨了基于 LLM 的聊天机器人如何为学术研究开辟新途径，涵盖了从文献综述和释义到先进的数据分析技术和增强的创意生成过程。

文献综述和改写。全面的文献综述对研究人员来说可能是一个耗时且费力的任务。例如，AI 驱动的 Semantic Scholar 搜索引擎已索引了惊人的2 亿篇学术出版物。在这样浩瀚的信息海洋中，找到相关的研究论文并提取关键见解可能像是在大海捞针。ChatGPT 通过在给定主题上寻找相关文献，简化了对大量论文的探索 [123]。此外，类似于 SciSpace Copilot，ChatGPT 还可以用多种语言解释科学文献和数学，这有助于更好地理解研究文章 [123]。此外，作为一个多功能的语言模型，ChatGPT 在各种自然语言处理任务中扩展了其实用性。例如，在最近的一项研究 [124] 中，ChatGPT 在改写与“医疗保健中的数字双胞胎”相关的摘要方面显示出有希望的结果。然而，其在文献综述中的应用仍处于初级阶段。虽然 ChatGPT 的文献综述能力正在发展，但其提高研究人员效率和专注于核心研究的潜力备受期待。另一篇最近的论文 [21] 探讨了使用 Google BARD 生成文献综述。作者从 Google Scholar 中收集了近年来（2021–2023）发表的十篇 Metaverse 文章，并使用 BARD 改写它们的摘要。随后，作者询问 Google BARD，“什么是 Metaverse？”所有文本随后都通过 iThenticate 抄袭检查器进行了审查。虽然结果令人鼓舞，但作者观察到改写的文本显示出12%的抄袭匹配率，这比 BARD 在回应 Metaverse 查询时观察到的1%的抄袭匹配率要高得多。尽管如此，这项实验突显了基于 LLM 的聊天机器人潜力，表明它们在学术研究中的重要性日益增加。

数据分析。准备和组织科学数据以供分析的过程可能是一个耗时的任务，通常需要几个月的时间。此外，研究人员还需要掌握如 Python 或 R 等编程技能。将 ChatGPT 集成到数据处理中的转型变化，提高了研究效率和方法。例如，[22] 中的一项研究显示，ChatGPT 能够高效处理一个包含 100,000 名具有不同年龄和风险档案的医疗工作者的模拟数据集。另一篇最近的文章[125] 证明了基于 LLM 的聊天机器人，如 ChatGPT 3.5 和 4，可以有效地使用 Pandas DataFrame Agent 进行基本数据汇总任务。这些模型可以回答基本的探索性数据分析（EDA）问题，如识别最高*均价格的日期或确定两个变量之间的相关性。然而，它们有时会在生成有意义的上下文时遇到困难，例如产生不合理的重叠时间段。尽管存在这些局限性，ChatGPT 4 在通过提示工程和价值链分析工作流生成有关投资机会、风险和服务的宝贵见解方面显示了显著的潜力。挑战在于用户上传大量数据，如财报电话会议记录和年度报告，导致数据流和延迟问题，通常会引发运行时错误。一种实际的解决方案是将文档分成多个部分，并使用内存缓冲区来汇总响应。此外，通过自定义代理整合来自多个来源的文本和数值数据，可以增强聊天机器人的上下文理解能力，提供更深入的见解。

创意生成。研究的一个基本组成部分是批判性思维和生成创新想法的能力。基于 LLM 的聊天机器人可以通过作为先进的创意生成工具来帮助学生和教师进行研究。[23] 证明了 ChatGPT 在研究中的重要作用，从激发创意生成到提供扩展现有想法的建议。[126] 进一步说明了 ChatGPT 如何从多个角度提供见解，探讨 COVID-19 大流行的后果，分析其对医疗系统、社会经济影响和个人健康实践的多维度效果。这种从不同视角分析问题的能力有助于生成全面且多角度的想法。

在 2022 年之前，人们认为人工智能最适合处理简单任务，创造性工作的领域仍将掌握在人类手中。尽管这些工具并非总是准确，但它们的无偏见方法在研究的各个方面带来了显著的改善，有时在创造力方面甚至超过了普通人。

III-C 医疗保健

在这里，我们总结了基于 LLM 的聊天机器人如何重塑医疗领域，提供先进的支持以解决复杂的医学问题、患者护理和治疗建议。

问答系统。基于大型语言模型（LLM）的聊天机器人一个关键亮点是其庞大的知识库，这在医疗领域的自动问答系统中尤为明显。例如，[127] 显示了 ChatGPT 处理美国医学执照考试（USMLE）第一步和第二步考试问题的能力。研究然后将 ChatGPT 的回答与 InstructGPT 和 GPT-3 的回答进行比较，其中 ChatGPT 的表现*均比 InstructGPT 高出 8.15%，而 GPT-3 的回答则不够一致。ChatGPT 还显示出类似于三年级医学生的及格水*。另一项研究 [128] 评估了 Claude 和 ChatGPT 3.5 在使用 MIMIC-III 临床笔记（来自 TREC CDS 2016 主题 [129]）回答临床问题的能力。研究随后在准确性、一致性、相关性和覆盖面等方面对这些回答进行了比较。Kruskal-Wallis 方差分析 [130] 进一步验证了这些发现。结果表明，Claude 和 ChatGPT 3.5 都能有效回答基于入院记录的临床问题，在各种情况下提供准确、相关和清晰的回答。另一篇近期文章 [131] 调查了 ChatGPT 和 Bing Chat（GPT-4）对房颤（AF）患者和临床医生问题的回应。作者准备了十八个以患者为中心的提示，并咨询了 AF 管理方面的专家，同时准备了另外十八个以临床医生为中心的提示。结果显示，ChatGPT 准确回答了 83.3% 的患者查询。对于以临床医生为基础的提示，ChatGPT 和 Bing Chat 显示文本准确率分别为 33.3% 和 66.6%，参考文献的准确率分别为 55.5% 和 50%。

患者教育。在最近的发展中，GPT-4 和 Med-PaLM 2 在健康评估中表现出了显著的效果，标志着患者护理技术领域的重大进展 [112, 132]。一项研究 [133] 展示了大型语言模型如何提供个性化的患者教育，提高了理解和参与度。一个最近的例子是 Macy，一款 AI 药剂师。它使用 ChatGPT 作为其基础架构，并配备了一个逼真的虚拟形象进行用户互动。Macy 成功地在不到 30 分钟的时间内以实惠的成本提供了关于主要症状、剂量和注意事项的药物指导 [134]。

治疗建议。基于 LLM 的聊天机器人也可以协助提供治疗建议。研究[135]评估了 ChatGPT 与国家综合癌症网络（NCCN）乳腺癌、前列腺癌和肺癌治疗指南的一致性。作者为 26 种癌症诊断开发了四个零样本提示模板，共生成了 104 个没有正确答案示例的提示。四名经过认证的肿瘤科医生使用五种不同标准评估了 ChatGPT 对 NCCN 指南的符合度，得出总分为 520。肿瘤科医生对 61.9%（520 分中的 322 分）的评分达成一致。这些结果表明，约三分之二的 ChatGPT 治疗建议与既定的 NCCN 指南一致，突显了其在医疗指导中的潜在有效性。另一项研究[136]评估了 ChatGPT-3.5、ChatGPT-4 和 Google BARD 在利用 25 个神经退行性疾病案例的总结预测神经病理学诊断的能力。这些总结均来自梅奥诊所脑库临床病理会议。聊天机器人提供了多个诊断和理由，随后与实际诊断进行比较。ChatGPT-3.5、ChatGPT-4 和 Google BARD 的初步诊断准确率分别为 32%、52%和 40%，而正确诊断的比例分别为 76%、84%和 76%。这强调了基于 LLM 的聊天机器人在神经病理学中的潜力。另一项类似的研究[137]评估了 ChatGPT 3.5、Google BARD（实验版）和 Bing Chat（精准版）在回答生理学案例小节中的能力。两名生理学家准备了 77 个案例小节，另外两位专家进行了验证。随后，两名生理学家对聊天机器人的回答进行 0-4 分的评分，反映从基础到高级的学*成果。ChatGPT 的得分最高，为 3.19±0.3，其次是 BARD 的 2.91±0.5 和 Bing 的 2.15±0.6，表明 ChatGPT 在这一背景下表现优越。此外，还有一篇文章[138]评估了 ChatGPT-3.5、ChatGPT-4 和 Google BARD 在回应近视相关问题中的表现。研究涉及 31 个近视相关问题，这些问题被分为六个领域：诊断、临床表现、发病机制、风险因素、治疗与预防以及预后。三名儿科眼科医生对每个聊天机器人的回答进行三点评分（良好、边缘、差），最终分数通过多数共识确定。‘良好’的回答进一步在五点评分中进行深度评估，而‘差’的回答则被要求自我改进并重新评估准确性。ChatGPT-4 显示出更高的准确性，其‘良好’回答的比例为 80.6%，而 ChatGPT-3.5 为 61.3%，Google BARD 为 54.8%。在全面性方面，三款聊天机器人均表现出较高的*均分，其中 Google BARD 得分 4.35，ChatGPT-4 得分 4.23，ChatGPT-3.5 得分 4.11（满分 5）。它们也展现了显著的自我修正能力。ChatGPT-4 中 66.7%、ChatGPT-3.5 中 40%和 Google BARD 中 60%的回答在修正后有所提高。此外，所有聊天机器人在每个领域表现一致，ChatGPT-4 在‘治疗与预防’方面表现出色，获得了 70%的‘良好’评分，明显高于 ChatGPT-3.5 的 40%和 Google BARD 的 45%。

表 IV: 不同领域的基于 LLM 的聊天机器人

{tblr}

width = colspec = —Q[c,m,0.085]—Q[c,m,0.085]—Q[c,m,0.397]—Q[c,m,0.0655]—Q[c,m,0.0655]—Q[c,m,0.0655]—Q[c,m,0.0655]—, row1 = font=, c, row1-31 = font=, hlines, cell21 = r=7halign=c,valign=m, cell91 = r=7halign=c,valign=m, cell161 = r=8halign=c,valign=m, cell241 = r=4halign=c,valign=m, cell281 = r=4halign=c,valign=m, 部门 & 参考文章主要目标 ChatGPT BARD Bing Chat 其他聊天机器人

教育 [109] 转变 STEM 教育 ✔ - ✔ - [110] 满足越南学生的教育需求 ✔ ✔ ✔ - [31] 提升国际学者的学术写作技能 ✔ - - - [115] 协助发展独特且吸引人的写作风格 ✔ - - - [6] 辅助课程设计 ✔ - - - [9] 协助教学准备和评估任务 ✔ - - - [116] 为本科统计课程草拟教学大纲 ✔ - - - 研究 [123] 查找相关文献 ✔ - - - [124] 改写摘要 ✔ - - - [21] 生成文献综述 - ✔ - - [22] 处理模拟数据集 ✔ - - - [125] 协助数据分析任务 ✔ - - - [23] 协助新想法的生成 ✔ - - - [126] 从各个维度分析 COVID-19 的影响 ✔ - - - 医疗 [127] 回答 USMLE 问题 ✔ - - ✔

[128] 回答临床问题 ✔ - - ✔

[131] 解答有关房颤的问题 ✔ - ✔ - [134] 开创智能机器人辅助 ✔ - - - [135] 提供癌症治疗建议 ✔ - - - [136] 预测神经病理诊断 ✔ ✔ - - [137] 解答生理学案例片段 ✔ ✔ ✔ - [138] 解答有关近视的问题 ✔ ✔ - - 杂项应用（软件工程） [139] 提供编程支持 ✔ - - - [140] 修复漏洞并提供清晰解释 ✔ - - - [26] 执行软件工程任务 ✔ ✔ - - [141] 生成用于矩阵乘法的 Java 代码 ✔ ✔ ✔ ✔

杂项应用（金融） [142] 提供金融研究见解 ✔ - - - [143] 分析经济数据并提供投资建议 ✔ - - - [27] 提供投资建议 ✔ ✔ - - [144] 支持分析师进行战略决策 - - ✔ -

总体而言，像 ChatGPT、BARD、Bing Chat 和 Claude 这样的基于 LLM 的聊天机器人在医疗领域的有效性显而易见。从回答复杂的医学问题到提供个性化的患者教育和治疗建议，它们在改善医疗领域和患者互动方面发挥了至关重要的作用。此外，像 GPT-4 这样能够处理多层次提示、图像和文档的技术进步表明，这些聊天机器人很快将能够分析多媒体，这将进一步提升医疗领域。

III-D 杂项应用

超越在教育、研究和医疗中的角色，基于 LLM 的聊天机器人在软件工程和金融等领域也越来越受欢迎。在这里，我们讨论了基于 LLM 的聊天机器人如何在这些行业中提供更有效和可扩展的解决方案，具有无与伦比的效率和定制化。

软件工程。与传统的基于命令的软件开发支持相比，LLM（大语言模型）聊天机器人更注重用户的意图，并且采用对话式的方法[26]。开发者讨论他们的需求或期望结果，而不需要指定实现方法。这一转变使得 LLM 聊天机器人能够处理众多任务，如编写代码、查找和修复错误以及测试软件质量。例如，[139]中的研究探讨了 ChatGPT 如何作为互动教学工具，提供语言选择建议、代码语法指导、最佳实践见解、库或包推荐、替代方法建议、IDE 介绍和编程环*建议。此外，ChatGPT 还可以修复漏洞，并对复杂主题提供清晰解释，确保全面的学*体验[140]。与通过 Google 或 Stack Overflow 及 GeeksforGeeks 等网站寻找编码指导不同，ChatGPT 为学*者提供了直接且常实用的编程问题解决方案。另一篇文章[26]对“搜索与救援”场景进行了案例研究，展示了 BARD 和 ChatGPT 在软件工程任务中的应用。BARD 以提供抽象的、高层次的建议而著称，强调整体概念和策略，如提出理论测试和讨论复杂算法。另一方面，ChatGPT 提供详细、可行的解决方案，专注于具体编码实践和带有实际框架的单元测试。这一区别突显了 BARD 在战略指导方面的优势和 ChatGPT 在提供精确、可实施解决方案方面的能力，强调了它们在软件开发任务中的互补作用[141]。该研究进一步评估了几个基于 LLM 的聊天机器人生成矩阵乘法 Java 代码的能力，特别关注多线程。测试包括 ChatGPT 3.5 和 4、BARD、Bing Chat、YouChat、GitHub Copilot 和 GitLab Duo。其中大多数聊天机器人在第一次尝试时生成了正确的代码，除了 Google BARD 需要人工协助。YouChat 以最快的代码生成时间（446 毫秒）脱颖而出，而 Bing Chat 表现最慢（1899 毫秒）。然而，值得注意的是，GitHub Copilot、Bing Chat 和 YouChat 往往生成简短但不详细的代码。

此外，用户可以要求这些聊天机器人解释一段代码。聊天机器人将解释每个部分，包括变量和命令。它们还可以总结代码的功能，提升代码的清晰度和理解。总之，基于 LLM 的聊天机器人提供了一种变革性的软件工程方法，通过支持基于意图和对话的互动，涵盖了从代码生成到调试、软件测试以及提供教育支持的一系列任务。这一能力不仅提高了生产力，还使软件工程专业知识对各级程序员更加可及。

表 V：聊天机器人挑战：知识和数据观点

{tblr}

width = colspec = —Q[c,m,0.075]—Q[c,m,0.22]—Q[c,m,0.375]—Q[c,m,0.1035]—Q[c,m,0.1035]—, row1 = font=, c, row1-11 = font=, hlines, cell14 = c=2, cell24 = c=1halign=c,valign=m, cell25 = c=1halign=c,valign=m, cell11 = r=2halign=c,valign=m, cell12 = r=2halign=c,valign=m, cell13 = r=2halign=c,valign=m, cell31 = r=3halign=c,valign=m, cell61 = r=4halign=c,valign=m, cell101 =r=3halign=c,valign=m, Perspective & Challenge Discussion Topic \SetCell[c=2]c Viewpoint

知识数据

从技术角度来看知识时效维护最新知识的挑战 - ✔

逻辑推理多步推理问题的表现差距 ✔ -

幻觉生成不正确和不可靠的回应 ✔ -

从伦理角度来看透明度聊天机器人推理过程中的不明确性 ✔ ✔

偏见聊天机器人训练和回应中的数据偏见 ✔ ✔

隐私风险隐私问题和数据保护问题 ✔ ✔

不公* 语言和经济上的不公*性 - ✔

从滥用角度来看学术滥用维护学术诚信的挑战 ✔ -

过度依赖对批判性思维技能的影响 ✔ -

错误信息的传播可能传播误导性信息 ✔ -

财务。基于 LLM 的聊天机器人在金融领域取得了突破。它们将资源与客户需求相匹配的能力提升了服务的有效性，并帮助员工更高效地管理日常工作负载。例如，一项研究[142]探讨了 ChatGPT 在金融行业中的应用。首先，它考察了使用机器学*分析金融数据的潜力及其在金融领域的应用。接下来，提出了“Bananarama 猜想”，该猜想认为 ChatGPT 能够比传统方法提供更好的金融研究见解。另一项研究[143]探讨了 ChatGPT 如何有效分析金融信息，以识别趋势、市场观点和动向。其分析经济数据并提供投资建议的能力对公司和金融家来说是一个福音。[27]进一步评估了 ChatGPT 和 BARD 在金融领域为不同语言和方言提供投资建议的表现，包括英语、非洲裔美国英语（AAVE）和泰卢固语。与 ChatGPT 相比，BARD 通过多个草稿提供了多样化的响应，但未能在每次查询中完善内容。此外，BARD 不理解泰卢固语，显示出多语言的局限性。另一方面，ChatGPT 始终纠正错误并随着时间的推移适应 AAVE，尽管它在泰卢固语的准确性上仍有困难。研究显示，BARD 的个性化率较低（53%），错误率较高（15.38%），而 ChatGPT 的个性化率为 46.15%，错误率为 7.69%，ChatGPT 也面临 15.38%的语法错误率。尽管存在这些问题，它们在分析大量金融数据方面的潜力显而易见，展示了在处理复杂信息方面的显著能力。另一篇文章[144]评估了 Bing Chat 在协助分析师进行投资建议和投资组合推荐中的作用。Bing Chat 分析了 2019 至 2022 年的金融文件，以推荐来自 BIST100 的股票投资组合，选择了六家特定公司。它还指导投资组合构成，建议基于投资组合规模的特定股票数量。总体而言，Bing Chat 提供了有价值的金融见解和建议，支持分析师在战略决策中的作用。

总结来说，这些只是基于 LLM 的聊天机器人在不同领域应用中的一部分。随着技术的发展，这些聊天机器人将变得更加融入我们的生活，重塑我们与技术和彼此之间的互动。此外，由于 AI 技术的进步，聊天机器人的使用不断增长，这回应了消费者偏好的变化和对改进互动技术的需求。补充我们的讨论，表格 IV 提供了在不同部门中用于各种目的的特定聊天机器人的概述。它突出显示了它们的角色，并将它们与各自参考的文章关联起来。寻求对特定聊天机器人实施的进一步了解的读者可以查阅这些文章以获取更多信息。

IV 开放挑战

随着基于 LLM 的聊天机器人的发展，它们在不同领域面临着众多挑战。在这一部分，我们将讨论这些挑战，从技术、伦理和误用的角度提供有见地的概述。表格 V 按照知识或数据的视角对挑战进行了分类，提供了一个结构化的提纲，以便为读者澄清背景。

IV-A 从技术角度来看

在这里，我们探讨了基于 LLM 的聊天机器人在知识时效性、逻辑推理和幻觉方面的技术限制。

知识时效性。保持最新的知识对基于 LLM 的聊天机器人来说是一个显著的挑战，因为它们通常在需要超出最近训练的信息的任务上表现困难。虽然通过定期用新数据更新 LLM 是一个直接的解决方案，但这昂贵且在增量训练过程中存在灾难性遗忘的风险。这使得调整 LLM 的内置知识成为一个复杂的任务 [145, 146]。此外，缺乏多样化的高质量数据源也提出了未来的限制 [147, 148]。

逻辑推理。聊天机器人缺乏理性的人类思维。因此，它们既不能像人类一样思考，也不能像人类一样推理[149, 150]。一项[151]研究评估了使用基础科学和临床科学自我评估计划的 250 个问题，然后将 ChatGPT-3.5、ChatGPT-4 和 Bing Chat 的表现与人类参与者的进行比较。人类的*均准确率为 72.2%。ChatGPT-3.5 得分最低，仅为 58.8%，而 ChatGPT-4 和 Bing Chat 表现出类似的结果，准确率分别为 71.6%和 71.2%。在单步推理问题中，所有三个聊天机器人表现良好，ChatGPT-3.5、ChatGPT-4 和 Bing Chat 的准确率分别为 68.4%、80.0%和 81.0%。然而，它们在多步推理问题中的表现显著下降，其中 ChatGPT-3.5 的得分仅为 40.0%，ChatGPT-4 和 Bing Chat 分别为 64.5%和 60.0%。另一篇最近的论文[152]评估了 BARD 的逻辑推理能力。作者使用 TPTP 问题 PUZ001+1 提出了一个具体问题，并利用 TPTP World 的工具分析了 BARD 的回答。研究结果表明，BARD 的推理是有缺陷的，导致从所提供的数据得出了不正确的结论，这归因于缺乏形式推理能力。然而，该研究还承认，这个测试集中在特定的推理任务上，BARD 可能在其他任务中表现更好。[153]进一步强调了数学中有限的逻辑推理能力，因为 BARD 在越南国家高中毕业考试（VNHSGE）数学测试中表现不佳，仅显示出 38.8%的准确率。

幻觉。基于 LLM 的聊天机器人在生成事实文本时面临一个显著挑战，即幻觉[2, 83]，其中生成的信息要么与现有来源相矛盾（内在幻觉），要么无法通过现有来源确认（外在幻觉）。简单来说，幻觉是聊天机器人自信地给出的回答，但这些回答既不正确也不可靠。例如，[139]强调了 ChatGPT 在被要求为综述论文寻找相关引用时，如何生成完全虚构的出版物。另一项研究[103]通过询问 ChatGPT-3.5、GPT-4、Bing Chat 和 BARD 关于高等教育中被引用最多的 ChatGPT 文章，来比较它们的表现。所有聊天机器人的结果都令人失望。例如，ChatGPT 给出了五个完全不相关的参考文献，时间回溯到 1975 年。GPT-4 有所改进，但 Bing Chat 和 BARD 提供的参考文献完全是虚构的。在医疗保健中使用聊天机器人的担忧还包括幻觉，其中输出看起来可信但实际上是事实不准确的。[135]的研究评估了 ChatGPT 根据 2021 年 NCCN 指南对乳腺癌、前列腺癌和肺癌的推荐。作者准备了四个零样本提示模板，从 26 种癌症诊断中生成 104 个提示，而没有正确回答的示例。然后，三位获得认证的肿瘤学专家使用五个标准对这 104 个提示的回答进行评估，共计 520 个评分。在这些回答中，13 个（12.5%）被识别为幻觉，即它们与任何推荐的治疗不一致。此外，另一项研究[131]表明，尽管 ChatGPT 和 Bing Chat 在回答关于房颤的查询时提供了准确的答案，但一些回答包括虚构的或错误引用的参考文献。与 ChatGPT 相比，Bing Chat 在回答的准确性上表现更高，但不准确参考文献的频率相当。尽管 GPT-4 在减少幻觉方面相比于之前的版本有所改进，但仍需继续研究以进一步减少这一问题。

除了这些，基于 LLM 的聊天机器人还存在一致性问题，常常对相同的输入生成不同的响应[31]。研究人员正在通过提示工程[154]来改进这一问题。还需要注意的是，这些聊天机器人缺乏自我意识、情感或主观体验，尽管它们能够回答问题并生成连贯的文本[155]。关于机器是否真的能拥有自我意识的争论仍在继续，目前尚未建立明确的定义或测量方法。

IV-B 从伦理角度

在本小节中，我们讨论了基于 LLM 的聊天机器人的伦理问题，重点关注透明性、偏见、隐私风险和不公*等关键领域。

透明性。由于从输入查询生成答案的过程复杂，LLM（大型语言模型）常常被描述为黑箱模型。因此，基于 LLM 的聊天机器人缺乏透明性，使得很难理解特定输出或决策背后的推理[156]。例如，在医疗领域，LLM 基于聊天机器人的透明性问题是一个重要关注点，因为健康响应和遗传因素在不同人群中差异很大[157]。此外，训练数据的透明性，可能未经过领域特定的准确性验证，导致了‘垃圾进，垃圾出’的问题。这对于像 GPT-3.5 这样的模型也是成立的，因为它不验证训练数据的准确性[3]。此外，OpenAI 从非营利组织转型为以商业为中心的组织，也引发了关于其在披露技术进展细节方面透明性的担忧。例如，GPT-4 技术报告[29]主要集中于其相较于前代模型的改进性能，但在解释实现这些改进所使用的基础技术方法方面有所不足。

偏见。另一个关于基于 LLM 的聊天机器人问题是偏见。这发生在模型训练时使用了有偏见的数据，这些数据可能代表社会中的种族、性别或社会经济不*等。如[158]所指出，大型预训练模型模仿自然语言时，可能会重复这些偏见。此外，聊天机器人的回答受其接收的输入影响。如果用户经常提出有偏见的问题，模型可能会学*并复制这些问题[159]。此外，当模型被微调以优化特定指标，如准确性或用户参与度时，可能存在算法偏见的风险，即回答可能会与这些目标一致，而不考虑固有的偏见。在医疗治疗中，使用在有偏见数据上训练的聊天机器人可能导致不准确的医疗结果，可能对患者和社区造成伤害。例如，聊天机器人可能由于偏见训练而误诊医疗状况，并推荐错误的治疗方案。一项[160]的研究强调了一个用于皮肤病诊断的 AI 系统，该系统产生了高假阳性率。这个问题导致了不必要的活检程序，并增加了患者的焦虑。另一项研究[161]观察到 Bing Chat 和 Google BARD 存在偏见，倾向于推荐主要是男性的眼科医生。此外，在学术研究中，这些聊天机器人可能产生不准确或有偏见的结果。例如，一个使用有偏见数据训练的聊天机器人可能在社会科学研究中产生错误的发现，从而导致错误的结论，这可能对边缘化群体产生负面影响[5]。此外，[162]发现 ChatGPT 在创作爱尔兰打油诗时表现出政治偏见，偏向自由主义观点。在民主国家的政治选举审查中，ChatGPT 也被发现具有左翼自由主义偏见[163]。

隐私风险。从透明度和偏见问题转向 LLM 基于聊天机器人的另一个重要问题是用户隐私和数据保护。意大利最近在数据泄露后对 ChatGPT 实施了禁令，突显了隐私问题和缺乏年龄验证，这可能会将未成年人暴露于不适当内容之中[164]。这些聊天机器人在训练时使用的大量数据集中通常包括敏感的用户信息，如聊天记录和个人详细信息，这可能会导致隐私问题。此外，聊天机器人可以根据用户的查询生成个性化的输出。例如，如果用户输入了诸如健康或财务数据等机密信息，聊天机器人可能会不小心将这些信息透露给其他人[159]。此外，重要的是要认识到，根据其隐私政策，OpenAI 可能会收集输入中包含的任何个人信息[165]。因此，个人信息的这种误用可能对用户造成有害的后果，尤其是当这些信息落入犯罪分子之手时。

不公*性。训练数据中的偏见可能导致语言模型在学*过程中增加不公*性，常常边缘化较小的群体。由于大多数关于大型语言模型的研究主要服务于英语使用者，因此其他语言的研究存在显著的空白，引入了一层语言上的不公*性。这可能会使以英语为母语的用户在教育过程中受益，而将讲其他语言的用户排除在这些技术进步之外，从而限制他们的获取[122]。此外，获取基于 LLM 的聊天机器人的经济不公*性，如 ChatGPT Plus 的费用，可能会以空前的方式扩大教育差距[122, 31, 166]。

因此，在创建和使用基于 LLM 的聊天机器人时，优先考虑伦理标准至关重要。解决透明度、偏见、隐私风险和不公*性的问题是维护伦理完整性，同时确保用户信任和安全的必要条件。

IV-C 从误用的角度

在这里，我们讨论了基于 LLM 的聊天机器人的实际挑战，重点关注学术误用、过度依赖和错误信息传播等方面，突显其在现实世界中的影响。

学术滥用。基于 LLM 的聊天机器人在学术写作中常被误用，学生和研究人员可能在考试和研究论文中使用生成的内容而没有适当的引用。许多机构已禁用这些工具，理由是它们可能破坏评估标准和教育价值[31, 167]。一项在[168]的研究探讨了对高等教育中抄袭的日益担忧以及使用 ChatGPT 作弊的情况。此外，[101, 103, 169]显示 ChatGPT 可以生成复杂且真实的内容，通常无法被标准的反抄袭软件如 iThenticate 或 Turnitin[170, 171, 172]检测到，这进一步质疑了在线考试的公正性。

过度依赖。另一个日益引起关注的问题是对基于 LLM 的聊天机器人的依赖增加。例如，[21]展示了使用 Google BARD 生成文献综述的情况。虽然 BARD 生成的文本最初含有一些抄袭，但可以通过使用改写工具解决。另一项研究[173]评估了 Bing Chat 在满足越南学生学术需求方面的表现，涵盖了数学、英语、物理、化学、生物、文学、历史、地理和公民教育等多个学科。结果显示，Bing Chat 在大多数学科上优于 ChatGPT，唯独在文学方面 ChatGPT 表现更好。此外，Bing Chat 在越南的可访问性及其在回答中包含超链接和引用的能力进一步强调了其优势。随着这些智能系统的兴起，学生们获得了大量计算能力，这在很大程度上帮助了他们的学术工作[167]。然而，这种依赖和赋能通常会削弱独立思考和批判性思维的能力。

错误信息的传播。如前所述，基于 LLM 的聊天机器人像一个黑箱一样运作，难以解释它们如何处理和做出决策[174, 175]。除非特别要求，否则回应不会被引用或解释，并且任何解释的可靠性都不确定。因此，基于这些 LLM 的聊天机器人一个显著的问题是它们有可能像传播真实信息一样传播错误信息[31, 176, 155]。例如，[177]中的一项研究强调，用户可能会误用 ChatGPT 来虚假地建议医疗诊断，通过提供看似准确和可靠的信息。另一项调查[31]显示，这些聊天机器人可以用来为博客、媒体、报纸或互联网创建大量虚假文章。这些文章可能看起来很真实，但它们可能是假的，根本不存在，这使得区分事实与虚构变得更加困难。此外，微软将 Bing Chat 整合到其搜索引擎中，可能会显著加速互联网假信息的传播。如果没有适当的控制，这种快速传播的信息不实可能对公众信息安全造成损害。此外，一些近期文章[178, 179, 180]探讨了与这些聊天机器人相关的潜在漏洞和威胁，包括各种攻击向量、信息提取以及有害内容的创建。[31]强调，黑客可能利用 ChatGPT 的编程技能开发恶意软件[181]，如病毒或木马，用于网络攻击、数据盗窃或劫持其他计算机系统，这可能对用户造成重大伤害。此外，恶意网络用户可能会用有针对性的提示操控 ChatGPT，生成有害内容来攻击其他用户[176]。

总结来说，尽管基于 LLM 的聊天机器人在多个领域提供了宝贵的优势，但其潜在的误用带来了重大的风险。用户必须确保适当引用以防止学术不端，避免过度依赖这些工具以保持批判性和独立思考能力，并仔细验证所提供信息的准确性。

未来展望

在本节中，我们将探讨基于 LLM 的聊天机器人未来的前景，从提高效率和可持续性的技术改进到指导其负责任使用的伦理考量。

图 10：模型规模与*均 MMLU 分数之间的关联 [182]。

V-A 技术改进

在这里，我们重点关注模型压缩和优化以提高效率，利用绿色 AI 技术应对环*问题，提示工程的进展，以及超越文本的多模态能力的出现。

模型压缩与优化。基于 Transformer 的语言模型随着参数数量的增加表现出更强的能力[183, 184]。例如，在模型超过某些规模阈值时，像上下文学*[3]和思维链（CoT）提示[82]等显著进展变得愈加明显。比如，图 10 展示了在不同规模模型中，Massive Multitask Language Understanding (MMLU) 基准测试的 CoT 提示*均得分[182, 185]。图表显示，随着参数数量从 Flan-T5-XL 的 30 亿增加到 Gemini Ultra 的约 1760 亿，MMLU 得分有了显著上升。然而，尽管这些大型语言模型在自然语言处理方面取得了进展，但根据扩展定律[184]，其巨大的规模，通常超过 1000 亿个参数，仍然带来实际挑战，包括存储、分发和部署的高成本。为了解决这些问题，未来的研究应更多关注模型压缩和优化[184]。这些对在现实世界中使用现代聊天机器人至关重要。实现这一目标有几种方法。基于蒸馏的方法通过使用较大的模型的数据训练一个较小的模型[186, 187, 188]。基于剪枝的方法通过移除冗余权重来减少模型大小[189, 190]，而量化则减少了模型权重的存储大小[191, 192]。然而，这些方法可能需要专用硬件。有兴趣的读者可以参考[193]获取更多细节。

绿色 AI。基于大语言模型（LLM）的聊天机器人日益普及，关注点转向环*问题，因为它们在训练过程中依赖大量计算资源。这些聊天机器人基于大型预训练模型，往往承载着来自多个数据源的固有偏见，使得减轻偏见成为一个具有挑战性的任务，因其开发过程复杂。相比之下，传统聊天机器人的偏见较少，但无法生成流利且多样的自然语言内容。通过知识图谱（KGs）增强 LLM 可能会改善其知识库 [194, 195]。然而，这种整合尚未提供完全透明的推理过程。尽管如此，机器学*模型规模和资源需求的增加使绿色 AI 成为关注焦点 [196, 197]。绿色学*（GL）技术旨在实现更环保的 AI 系统，采用较小、较简单的模型，对于开发具有简化推理过程和减少资源需求的聊天机器人至关重要。它们还可以在各种应用中提供与深度学*（DL）相当的性能 [196]。基于 GL 的聊天机器人可能涉及将 LLM 分为两个模块：一个基于 GL 的模块专注于用户交互，处理自然语言理解和生成相关任务，另一个模块则专注于知识存储、扩展以及通过 KGs 进行推理。这种方法可能为更透明、可扩展且无偏见的聊天机器人铺*道路，有助于开发更公*的 AI 系统。

提示工程。提示工程也变得对有效使用人工智能聊天机器人至关重要，影响从日常任务到复杂数据分析的广泛应用。提示的质量至关重要，因为它决定了人工智能回应的相关性和准确性，体现了输出质量仅与输入质量相当的理念。有效的提示通常包括四个要素。它们是背景设置、具体指令、格式或结构，以及可选示例。背景设置提供背景信息，帮助人工智能理解回应的背景。具体指令明确任务或问题，旨在从语言模型（LLM）中获得相关回应。格式或结构特征决定回应的结构，包括字数、要点或表格和图形等视觉元素。最后，可选示例，从零-shot 到少-shot 提示，进一步提高回应质量。这些示例展示了回应的理想格式或结构。最近的一项研究 [82] 显示，提示可以在语言模型中引发类推理回应。毫无疑问，这将推动提示技术的进一步创新。总之，提示工程的重要性日益增加，从最近的出版物中可以看出，这意味着实现人工通用智能（AGI）可能需要比单纯增加模型规模和数据量更具创造性的方法。未来在这一领域的工作有望探索实现这一目标的新方法。

多模态性。将基于 LLM 的聊天机器人与计算机视觉和机器人技术整合，扩展了这些系统的能力，超越了传统的文本互动。例如，ChatGPT、Claude 和 Bing Chat 可以根据用户输入生成视觉内容的描述，回答有关图像的问题，并处理包括 PDF 和 CSV 在内的文档。另一方面，BARD 在视觉内容解释方面表现出色，但缺乏处理文档的功能。另一个探索领域是转移学*技术的进步，使 ChatGPT 和其他聊天机器人能够有效地从语言和视觉领域中吸收知识。对模型进行大规模数据集的预训练，例如结合文本和图像数据的 Conceptual Captions 数据集 [198]，可以加深聊天机器人对语言与视觉信息之间关系的理解。聊天机器人与计算机视觉技术的前景整合预示着 AI 的新时代。这包括像绘画 [199] 这样的艺术创作、智能车辆操作 [200、201、202]、工业自动化 [203] 以及视觉互动对话系统 [204]。除了计算机视觉，将这些聊天机器人与化学系统整合，使用如 SMILES [205] 等技术，可能会彻底改变对化学成分的解读和互动方式。这种整合也可能简化复杂的化学分析，并提升在药理学和材料科学等领域的研究能力。

总而言之，基于大语言模型（LLM）的聊天机器人的未来在于优化模型效率，整合绿色 AI 以实现环*可持续性，增强提示工程以改善互动动态，以及拥抱超越单纯文本通信的多模态能力。

V-B 伦理指南与负责任使用

在这里，我们讨论了基于 LLM 的聊天机器人在伦理考量和负责任使用方面的关键因素。我们探讨了用户互动的隐私和数据保护，强调语言多样性和权利*等以促进普遍可达性，并讨论了学术和医疗协议以确保教育和医疗中的公*与责任。

隐私和数据保护。训练基于 LLM 的聊天机器人需要大量数据集，通常包含聊天记录和个人详细信息等敏感用户信息。因此，确保用户数据的隐私和安全对于维护对该技术的信任至关重要[7, 206, 207]。此外，在医疗保健领域，在训练过程中对患者数据进行匿名化和保护是必须的，以符合 HIPAA 等隐私法律的规定[208]。研究人员和开发人员必须实施严格的隐私和安全措施，例如加密、数据匿名化和对数据的受控访问。此外，在医疗保健领域使用这些技术时，患者批准、透明度和道德标准同样重要[208]。

语言多样性和*等待遇。尽管像 GPT-4 和 ChatGPT 这样的 AI 工具已经取得了进展，但由于数据集有限，非英语语言仍存在显著的性能差距 [209, 210]。因此，生成型 AI 工具的开发者面临确保这些技术在多种语言和用户需求中都是包容、公*且有效的挑战。因此，未来开发者必须专注于创建能够服务广泛用户的 AI 技术，包括那些处于弱势地位或有残疾的人，通过提供多模态互动选项。此外，还必须避免训练数据中的偏见和不公*，因为像 ChatGPT 这样的聊天机器人可能会因使用偏见数据而无意中支持刻板印象或歧视某些人。另一方面，公*意味着*等对待每一位用户，不允许他们的背景影响他们所获得的服务。因此，开发者必须在训练阶段完成后继续监控聊天机器人，确保任何偏见能够被及时识别和修正。这将确保所有用户*等获取信息和服务，在聊天机器人的开发和使用过程中维持伦理标准和公*性 [7, 211, 12]。未来的工作还应考虑以用户为中心的设计原则，强调社会、情感、认知和教育方面 [212]。借鉴 Duolingo 和 Khan Academy 等*台的灵感，开发者可以利用 ChatGPT 和其他聊天机器人在各个教育层次提供个性化学*体验和实时反馈。这包括利用聊天机器人进行互动临床沟通模块和同伴学*体验，从而增强专业培训的深度和实用性。

学术和医疗协议。一个日益关注的问题是在教育中滥用基于 LLM 的聊天机器人。在教育中使用这些聊天机器人需要谨慎取舍，因为虽然它们提供了宝贵的见解，但不能取代人类独特的创造和批判性思维能力。正如[213, 8, 214]所指出的，禁止这些聊天机器人并不是一个可行的解决方案。相反，应该制定责任、诚信、透明和诚实的规则和法规。多项研究[215, 216, 166]调查了 ChatGPT 在学术写作中的应用，强调了关于作者身份、透明度和偏见的担忧，要求建立道德准则和承诺最佳实践。需要仔细考虑哪些学术技能对研究人员至关重要。学术界应该发起基于 LLM 的聊天机器人在研究中的发展和负责任的使用，遵循全面的道德准则，以确保道德和专业标准得到维护。此外，将批判性思维和问题解决练*融入课程中可以有效地指导学生从早期就发展创造性技能[31]。

在教育领域的 AI 整合这一更广泛的背景下，尽管聊天机器人在从小学到大学的各个层面得到广泛应用，医疗机构仍处于利用这一技术的初级阶段。随着生成性 AI 工具和基于 LLM 的聊天机器人在教育中的作用日益增加，医疗领域的教育者和学生面临着独特的挑战和机遇。管理员必须制定策略，将新技术负责任地融入医疗教育中。这些策略包括为 AI 工具在作业中的使用创建指南，使用文本检测工具如 Originality AI、Turnitin 和 ZeroGPT，以及进行有效和伦理的 AI 使用培训 [217]。另一方面，教育者应拥抱这些技术，并将其融入医疗课程中。这包括更新课程内容，以涵盖 AI 在医学中的作用，例如药物发现，并设计需要更高层次思维的作业。同时，教育者必须避免过度依赖 AI，并鼓励学生批判性地评估 AI 生成的回应 [218]。学生则应意识到 LLMs 的局限性，包括隐私、版权、透明度和偏见问题。他们应以伦理和建设性的方式使用这些工具，提升医疗实践技能，同时在工作中正确引用 LLM 的使用，并确保 AI 的负责任使用 [218, 217]。

尽管新兴的聊天机器人预计会提供更准确和安全的内容，并且具有真实的引用和更少的错误，但在当前和提议的国际监管框架下，可解释性和透明度的充分性仍然不明确 [219, 220]。因此，减少不适当医疗建议的一种策略是将大型语言模型（LLM）的训练限制在受控和验证的医疗文本上。例如，GatorTronGPT 在 82 亿个匿名临床文本的训练下，在回答医疗问题时显示出比以前的模型更高的准确性 [221]。此外，由于医疗研究和文档可能并不总是最新或准确，旨在医疗应用的 LLM 开发者应从一开始就实施质量管理系统。这与当前监管框架中定义的协议以及未来的 AI 安全要求一致。

总结来说，本节概述了基于 LLM 的聊天机器人的负责任使用的伦理考量和实践。我们强调了保护隐私和数据的重要性、确保语言多样性和公*权利的必要性，以及制定学术和医疗协议。这些措施对于聊天机器人技术的伦理进步至关重要，确保它们在不同用户群体中既公*又有益。

VI 结论

在这项综合调查中，我们探讨了基于 LLM 的聊天机器人领域。我们从聊天机器人发展的初期阶段开始，接着探索 LLM，包括它们的底层架构、工作原理和开创性特征，随后概述了现有和新兴的基于 LLM 的聊天机器人。接下来，我们考察了在教育、研究、医疗等各个领域的多种应用。除了它们的潜力外，我们还讨论了它们在技术、伦理和误用方面面临的挑战。最后，我们通过审视技术升级和伦理标准来结束我们的调查，强调它们在提高效率、可持续性和责任承诺方面的进展。随着我们调查的结束，我们希望它能作为一个宝贵的资源，在不断发展的人工智能领域中促进关于通用人工智能和 LLM 角色的讨论和反思。

参考文献

[1] P. Taylor, “2010 年至 2025 年全球创建、捕获、复制和消费的数据/信息量，” 2023，[在线]. 可用: www.statista.com/statistics/871513/worldwide-data-created/。 [访问日期: 2024 年 4 月 24 日]。
[2] W. X. Zhao, K. Zhou, J. Li, T. Tang, X. Wang, Y. Hou, Y. Min, B. Zhang, J. Zhang, Z. Dong 等, “大型语言模型的调查，” arXiv 预印本 arXiv:2303.18223, 2023。
[3] T. Brown, B. Mann, N. Ryder, M. Subbiah, J. D. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell 等, “语言模型是少样本学*者，” 神经信息处理系统进展, vol. 33, pp. 1877–1901, 2020。
[4] Google, “Google 趋势 - 探索，” 2024，[在线]. 可用: trends.google.com/trends/explore?date=2022-11-30%202024-04-25&q=ChatGPT,5G,IoT,Blockchain&hl=en。 [访问日期: 2024 年 4 月 25 日]。
[5] C. Kooli, “教育和研究中的聊天机器人：伦理影响及解决方案的批判性审查，” Sustainability, vol. 15, no. 7, p. 5614, 2023。
[6] A. Tlili, B. Shehata, M. A. Adarkwah, A. Bozkurt, D. T. Hickey, R. Huang, 和 B. Agyemang, “如果魔鬼是我的守护天使：以 ChatGPT 为案例研究聊天机器人在教育中的应用，” Smart Learning Environments, vol. 10, no. 1, p. 15, 2023。
[7] A. Koubaa, W. Boulila, L. Ghouti, A. Alzahem, 和 S. Latif, “探索 ChatGPT 的能力和局限性：对 NLP 变革者的批判性回顾，” 2023 年。
[8] M. Sallam, “ChatGPT 在医疗保健教育、研究和实践中的效用：关于前景和有效关注点的系统综述，” 发表在 医疗保健，第 11 卷，第 6 期，MDPI，2023 年，页码 887。
[9] C. K. Lo, “ChatGPT 对教育的影响是什么？文献的快速综述，” 教育科学，第 13 卷，第 4 期，页码 410，2023 年。
[10] M. Hosseini, C. A. Gao, D. M. Liebovitz, A. M. Carvalho, F. S. Ahmad, Y. Luo, N. MacDonald, K. L. Holmes, 和 A. Kho, “关于在教育、医疗和研究中使用 ChatGPT 的探索性调查，” Plos one，第 18 卷，第 10 期，页码 e0292216，2023 年。
[11] P. P. Ray, “ChatGPT：背景、应用、主要挑战、偏见、伦理、局限性和未来范围的综合评述，” 物联网与网络物理系统，2023 年。
[12] Y. K. Dwivedi, N. Kshetri, L. Hughes, E. L. Slade, A. Jeyaraj, A. K. Kar, A. M. Baabdullah, A. Koohang, V. Raghavan, M. Ahuja 等，“‘如果 ChatGPT 写了它，那又如何？’ 从多学科角度看生成对话 AI 在研究、实践和政策中的机会、挑战和影响，” 国际信息管理期刊，第 71 卷，页码 102642，2023 年。
[13] S. S. Sohail, F. Farhat, Y. Himeur, M. Nadeem, D. Ø. Madsen, Y. Singh, S. Atalla, 和 W. Mansoor, “解码 ChatGPT：现有研究的分类、当前挑战和可能的未来方向，” 国王沙特大学计算机与信息科学期刊，页码 101675，2023 年。
[14] R. P. d. Santos, “利用 ChatGPT 和 Bing Chat 增强化学学*作为思考工具的案例研究，” arXiv 预印本 arXiv:2305.11890，2023 年。
[15] C.-C. Lin, A. Y. Huang, 和 S. J. Yang, “基于人工智能的对话聊天机器人实施方法和挑战综述（1999–2022），” 可持续性，第 15 卷，第 5 期，页码 4012，2023 年。
[16] H. Khosravi, M. R. Shafie, M. Hajiabadi, A. S. Raihan, 和 I. Ahmed, “聊天机器人与 ChatGPT：Web of Science 和 Scopus 数据库中出版物的文献计量分析和系统评审，” arXiv 预印本 arXiv:2304.05436，2023 年。
[17] B. A. Alazzam, M. Alkhatib, 和 K. Shaalan, “人工智能聊天机器人：经典与深度机器学*技术的调查，” 2023 年。
[18] D. Baidoo-Anu 和 L. Owusu Ansah, “生成性人工智能（AI）时代的教育：理解 ChatGPT 在促进教学和学*方面的潜在好处，” 可在 SSRN 4337484 查阅，2023 年。
[19] D. Song, E. Y. Oh, 和 H. Hong, “使用不同态度的学生聊天机器人进行教学模拟对预备教师效能的影响，” 教育技术与社会，第 25 卷，第 3 期，页码 46–59，2022 年。
[20] D. Lee 和 S. Yeo，“开发基于 AI 的聊天机器人以实践数学响应式教学”，计算机与教育，第 191 卷，第 104646 页，2022 年。
[21] Ö. AYDIN，“谷歌 Bard 生成的文献综述：元宇宙”，人工智能期刊，第 7 卷，第 1 期，第 1-14 页，2023 年。
[22] C. Macdonald, D. Adeloye, A. Sheikh 和 I. Rudan，“ChatGPT 能撰写研究文章吗？：人口级疫苗效果分析的一个例子”，全球健康期刊，第 13 卷，2023 年。
[23] K. Girotra, L. Meincke, C. Terwiesch 和 K. T. Ulrich，“点子稀松*常：大语言模型在创新中的创意生成”，SSRN 4526071 可用，2023 年。
[24] S. Ayanouz, B. A. Abdelhakim 和 M. Benhmed，“基于 NLP 和机器学*的智能聊天机器人架构用于医疗援助”，在第三届国际网络、信息系统与安全会议论文集中，2020 年，第 1-6 页。
[25] L. Athota, V. K. Shukla, N. Pandey 和 A. Rana，“基于人工智能的医疗系统聊天机器人”，在2020 年第八届国际可靠性、信息通信技术与优化（趋势与未来方向）（ICRITO）中。 IEEE，2020 年，第 619-622 页。
[26] L. Belzner, T. Gabor 和 M. Wirsing，“大语言模型辅助的软件工程：前景、挑战和案例研究”，在弥合 AI 与现实之间的差距国际会议中。 Springer，2023 年，第 355-374 页。
[27] K. Lakkaraju, S. K. R. Vuruma, V. Pallagani, B. Muppasani 和 B. Srivastava，“大语言模型能成为优秀的财务顾问吗？：个人决策优化结果的初步研究”，arXiv 预印本 arXiv:2307.07422，2023 年。
[28] S. Patel，“十大聊天机器人实际应用案例”，2023，[在线]. 可用：www.revechat.com/blog/chatbots-use-cases/。[访问日期：2024 年 5 月 1 日]。
[29] OpenAI，“GPT-4 技术报告”，2023 年。
[30] A. Bahrini, M. Khamoshifar, H. Abbasimehr, R. J. Riggs, M. Esmaeili, R. M. Majdabadkohne 和 M. Pasehvar，“ChatGPT：应用、机会与威胁”，在2023 年系统与信息工程设计研讨会（SIEDS）中。 IEEE，2023 年，第 274-279 页。
[31] C. Zhang, C. Zhang, C. Li, Y. Qiao, S. Zheng, S. K. Dam, M. Zhang, J. U. Kim, S. T. Kim, J. Choi 等，“生成型 AI 的一小步，AGI 的一大步：对 AIGC 时代 ChatGPT 的全面调查”，arXiv 预印本 arXiv:2304.06488，2023 年。
[32] S. Ortiz，“什么是谷歌 Bard？这是你需要知道的一切”，2023，[在线]. 可用：www.zdnet.com/article/what-is-google-bard-heres-everything-you-need-to-know/。[访问日期：2024 年 4 月 25 日]。
[33] 维基百科，“Bard（聊天机器人）”，2023，[在线]. 可用：en.wikipedia.org/wiki/Bard_(chatbot)。[访问日期：2024 年 4 月 25 日]。
[34] J. Xue, Y.-C. Wang, C. Wei, X. Liu, J. Woo, 和 C.-C. J. Kuo, “聊天机器人中的偏见与公*：概述”，arXiv 预印本 arXiv:2309.08836，2023 年。
[35] A. M. Turing, 计算机器和智能。 Springer，2009 年。
[36] J. Weizenbaum, “Eliza——一个用于研究人类与机器之间自然语言沟通的计算机程序”，ACM 通讯，第 9 卷，第 1 期，页码 36–45，1966 年。
[37] A. Zimmerman, J. Janhonen, 和 E. Beer, “人类/人工智能关系：挑战、缺点及其对人类/人类关系的影响”，人工智能与伦理，页码 1–13，2023 年。
[38] K. M. Colby, S. Weber, 和 F. D. Hilf, “人工偏执”，人工智能，第 2 卷，第 1 期，页码 1–25，1971 年。
[39] K. M. Colby, “建模一个偏执的思维”，行为与脑科学，第 4 卷，第 4 期，页码 515–534，1981 年。
[40] M. T. Zemčík, “聊天机器人的简史”，DEStech 计算机科学与工程学会论文集，第 10 卷，2019 年。
[41] Wikipedia, “Racter”，2023 年，[在线]。可用: en.wikipedia.org/wiki/Racter。 [访问时间：2024 年 5 月 2 日]。
[42] B. A. Shawar 和 E. Atwell, “通过自适应对话导师促进语言学*者自主”，见 第四届语料库语言学会议论文集，第 3 卷，2007 年，页码 186–193。
[43] A. Kerlyl, P. Hall, 和 S. Bull, “将聊天机器人引入教育：面向自然语言协商开放学*者模型”，见 国际创新技术与人工智能应用会议。 Springer，2006 年，页码 179–192。
[44] S. Singh 和 H. K. Thakur, “基于技术的各种人工智能聊天机器人调查”，见 2020 年第 8 届国际可靠性、信息通信技术与优化会议（趋势与未来方向）（ICRITO）。 IEEE，2020 年，页码 1074–1079。
[45] O. Deryugina, “聊天机器人”，科学技术信息处理，第 37 卷，页码 143–147，2010 年。
[46] R. S. Wallace, ALICE 的解剖学。 Springer，2009 年。
[47] L. Bradeško 和 D. Mladenić, “通过洛布纳奖竞赛调查聊天机器人系统”，见 斯洛文尼亚语言技术学会第八届语言技术会议论文集，第 2 卷。 sn，2012 年，页码 34–37。
[48] H.-Y. Shum, X.-d. He, 和 D. Li, “从 Eliza 到小冰：社交聊天机器人的挑战与机遇”，信息技术与电子工程前沿，第 19 卷，页码 10–26，2018 年。
[49] E. Adamopoulou 和 L. Moussiades, “聊天机器人：历史、技术与应用”，机器学*与应用，第 2 卷，页码 100006，2020 年。
[50] Wikipedia, “Cleverbot”，2023 年，[在线]。可用: en.wikipedia.org/wiki/Cleverbot。 [访问时间：2024 年 5 月 9 日]。
[51] Y. Chen, J. E. Argentinis, 和 G. Weber, “IBM Watson：认知计算如何应用于生命科学研究中的大数据挑战”，临床治疗，第 38 卷，第 4 期，页码 688–701，2016 年。
[52] R. High，“认知系统的时代：深入了解 IBM Watson 及其工作原理”，IBM 公司，Redbooks，第 1 卷，第 16 页，2012 年。
[53] L. Zhou, J. Gao, D. Li, 和 H.-Y. Shum，“小冰的设计与实现：一个富有同情心的社交聊天机器人”，计算语言学，第 46 卷，第 1 期，第 53-93 页，2020 年。
[54] M. B. Hoy，“Alexa，Siri，Cortana 和更多：语音助手介绍”，医学参考服务季刊，第 37 卷，第 1 期，第 81-88 页，2018 年。
[55] V. Kepuska 和 G. Bohouta，“下一代虚拟个人助理（微软 Cortana，苹果 Siri，亚马逊 Alexa 和谷歌 Home）”，在2018 IEEE 第 8 届年度计算与通信研讨会与会议（CCWC）。 IEEE，2018 年，第 99-103 页。
[56] J. Aron，“苹果的新语音助手 Siri 有多创新？”2011 年。
[57] T. Bolton, T. Dargahi, S. Belguith, M. S. Al-Rakhami, 和 A. H. Sodhro，“关于虚拟助理的安全性和隐私挑战”，传感器，第 21 卷，第 7 期，第 2312 页，2021 年。
[58] C. Wei, Y.-C. Wang, B. Wang, 和 C.-C. J. Kuo，“语言模型概述：近期发展与展望”，arXiv 预印本 arXiv:2303.05759，2023 年。
[59] C. Zhou, Q. Li, C. Li, J. Yu, Y. Liu, G. Wang, K. Zhang, C. Ji, Q. Yan, L. He 等，“预训练基础模型的全面调查：从 BERT 到 ChatGPT 的历史”，arXiv 预印本 arXiv:2302.09419，2023 年。
[60] K. Antonopoulos，“什么是 ChatGPT，它对记者为何重要？”2023 年，[在线]。可用：institute.aljazeera.net/en/ajr/article/2229。 [访问日期：2024 年 5 月 8 日]。
[61] C. Metz，“谷歌 Bard 可以做什么（以及它不能做什么）”，2023 年，[在线]。可用：www.nytimes.com/2023/03/21/technology/google-bard-guide-test.html。 [访问日期：2024 年 5 月 8 日]。
[62] S. Schechner，“谷歌的 Bard AI 聊天机器人增加更多语言以挑战 ChatGPT”，2023 年，[在线]。可用：www.wsj.com/articles/googles-bard-ai-chatbot-adds-more-languages-to-take-on-chatgpt-a2acfc5b。 [访问日期：2024 年 4 月 25 日]。
[63] D. Bartz，“随着 ChatGPT 的流行激增，美国立法者开始关注”，2023 年，[在线]。可用：www.reuters.com/technology/chatgpts-popularity-explodes-us-lawmakers-take-an-interest-2023-02-13/。 [访问日期：2024 年 4 月 25 日]。
[64] C. David 和 J. Paul，“ChatGPT 和大型语言模型：风险是什么？”2023 年，[在线]。可用：www.ncsc.gov.uk/blog-post/chatgpt-and-large-language-models-whats-the-risk。 [访问日期：2024 年 5 月 8 日]。
[65] T. Lieu, “我是一名编程国会议员。人工智能让我感到恐惧，” 2023, [在线]. 可用: www.nytimes.com/2023/01/23/opinion/ted-lieu-ai-chatgpt-congress.html。 [访问时间: 2024 年 4 月 24 日]。
[66] J. Choi, K. Hickman, A. Monahan, 和 D. Schwarcz, “Chatgpt 进入法学院。明尼苏达法律研究论文第 23-03 号. 2023,” 2023。
[67] F. C. Kitamura, “Chatgpt 正在塑造医疗写作的未来，但仍需人类判断，” p. e230171, 2023。
[68] A. Radford, K. Narasimhan, T. Salimans, I. Sutskever 等, “通过生成预训练改善语言理解，” 2018。
[69] A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, I. Sutskever 等, “语言模型是无监督的多任务学*者，” OpenAI 博客, 卷 1, 第 8 期, p. 9, 2019。
[70] J. Ye, X. Chen, N. Xu, C. Zu, Z. Shao, S. Liu, Y. Cui, Z. Zhou, C. Gong, Y. Shen 等, “对 GPT-3 和 GPT-3.5 系列模型的全面能力分析，” arXiv 预印本 arXiv:2303.10420, 2023。
[71] J. Devlin, M.-W. Chang, K. Lee, 和 K. Toutanova, “Bert: 深度双向 transformers 的预训练用于语言理解，” arXiv 预印本 arXiv:1810.04805, 2018。
[72] A. Chowdhery, S. Narang, J. Devlin, M. Bosma, G. Mishra, A. Roberts, P. Barham, H. W. Chung, C. Sutton, S. Gehrmann 等, “Palm: 通过路径扩展语言建模，” arXiv 预印本 arXiv:2204.02311, 2022。
[73] H. Touvron, T. Lavril, G. Izacard, X. Martinet, M.-A. Lachaux, T. Lacroix, B. Rozière, N. Goyal, E. Hambro, F. Azhar 等, “Llama: 开放和高效的基础语言模型，” arXiv 预印本 arXiv:2302.13971, 2023。
[74] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, 和 I. Polosukhin, “注意力机制就是你所需的一切，” 神经信息处理系统进展, 卷 30, 2017。
[75] T. Wolf, L. Debut, V. Sanh, J. Chaumond, C. Delangue, A. Moi, P. Cistac, T. Rault, R. Louf, M. Funtowicz 等, “Transformers: 最新自然语言处理技术，” 收录于 2020 年自然语言处理经验方法会议论文集: 系统展示, 2020, 页 38–45。
[76] B. Zhang, B. Ghorbani, A. Bapna, Y. Cheng, X. Garcia, J. Shen, 和 O. Firat, “检验语言模型架构在机器翻译中的扩展性和迁移性，” 收录于 国际机器学*会议. PMLR, 2022, 页 26 176–26 192。
[77] P. Liu, W. Yuan, J. Fu, Z. Jiang, H. Hayashi, 和 G. Neubig, “预训练、提示和预测: 自然语言处理中的提示方法系统综述，” ACM 计算机调查, 卷 55, 第 9 期, 页 1–35, 2023。
[78] L. Dong, N. Yang, W. Wang, F. Wei, X. Liu, Y. Wang, J. Gao, M. Zhou, 和 H.-W. Hon, “统一语言模型预训练用于自然语言理解和生成，” 神经信息处理系统进展, 卷 32, 2019。
[79] J. 魏，M. 鲍斯马，V. Y. 赵，K. 古，A. W. 于，B. 莱斯特，N. 杜，A. M. 戴和 Q. V. 勒，“Finetuned 语言模型是零-shot 学*者”，arXiv preprint arXiv:2109.01652，2021。
[80] V. 山，A. 韦布森，C. 拉菲尔，S. H. 巴赫，L. Sutawika，Z. Alyafeai，A. 查芬，A. 施蒂格勒，T. L. Scao，A. 拉贾等，“多任务提示训练实现零-shot 任务泛化”，arXiv preprint arXiv:2110.08207，2021 年。
[81] L. 欧阳，J. 吴，X. 江，D. 阿尔梅达，C. 韦恩莱特，P. 米什金，C. 张，S. 阿加瓦尔，K. 斯拉马，A. 雷等，“用人类反馈训练语言模型遵循指示”，神经信息处理系统进展，vol. 35，pp. 27 730–27 744，2022 年。
[82] J. 魏，X. 王，D. 斯库曼斯，M. 鲍斯马，E. 池，Q. 乐，和 D. 周，“一连串的思考提示引发大语言模型的推理”，arXiv preprint arXiv:2201.11903，2022 年。
[83] Y. 邦，S. 卡海瓦加亚，N. 李，W. 戴，D. 苏，B. 威利，H. 洛文尼亚，Z. 吉，T. 余，W. 钟等，“Chatgpt 在推理，幻觉和交互性上的多任务，多语言，多模态评估”，arXiv preprint arXiv:2302.04023，2023 年。
[84] 吴，S. 何，J. 刘，S. 孙，K. 刘，Q.-L. 韩，和 Y. 唐，“Chatgpt 简介: 历史，现状和潜在未来发展的简要概述”，IEEE/CAA Journal of Automatica Sinica，vol. 10，no. 5，pp. 1122–1136，2023 年。
[85] S. 布贝克，V. 钱德拉塞卡兰，R. 埃尔丹，J. 格尔克，E. 霍尔维兹，E. 卡玛尔，P. 李，Y. T. 李，Y. 李，S. 兰德伯格等，“人工通用智能的火花: GPT-4 的早期实验”，arXiv preprint arXiv:2303.12712，2023 年。
[86] 维基百科，“Chatgpt”，2023 年，[在线]. 可访问：en.wikipedia.org/wiki/ChatGPT。[访问日期：2024 年 5 月 9 日]。
[87] R. 阿里，O. Y. 唐，I. D. 康诺利，J. S. 弗里德利，J. H. 申，P. L. Z. 沙利文，D. Cielo，A. A. Oyelese，C. E. 多伯斯坦，A. E. 特弗恩等，“Chatgpt，GPT-4 和 Google 巴尔德在神经外科口头委员会准备问题库上的表现”，神经外科，pp. 10–1227，2022 年。
[88] A. 赫特莱，“Bard vs. chatgpt: 有什么不同？” 2023，[在线]. 可访问：www.techtarget.com/whatis/feature/Bard-vs-ChatGPT-Whats-the-difference。[访问日期：2024 年 5 月 9 日]。
[89] A. 贾法，“Chatgpt 现在可以浏览互联网以获取更新的信息”，2023，[在线]. 可访问：www.aljazeera.com/news/2023/9/28/chatgpt-can-now-browse-the-internet-for-updated-information。[访问日期：2024 年 5 月 2 日]。
[90] A. 约翰斯，“GPT-4 turbo: OpenAI 宣布 GPT-4 turbo 更快、更便宜”，2023，[在线]. 可访问：blog.securecortex.com/2023/11/gpt-4-turbo-openai-announced-gpt-4.html。[访问日期：2024 年 5 月 8 日]。
[91] PCWorld, “Google Bard AI 正式更名为 Gemini，非正式地变得无关紧要，” 2023, [在线]. 网址：www.pcworld.com/article/2230933/google-bard-ai-is-officially-gemini-unofficially-irrelevant.html. [访问日期：2024 年 5 月 8 日]。
[92] S. Ortiz, “什么是 Bing 聊天？这里是你需要知道的一切，” 2023, [在线]. 网址：www.zdnet.com/article/what-is-the-new-bing-heres-everything-you-need-to-know/. [访问日期：2024 年 4 月 24 日]。
[93] M. Freeman-Mills, “Bing 聊天是什么，如何运作？AI 聊天解释，” 2023, [在线]. 网址：www.pocket-lint.com/what-is-bing-chat-explained/. [访问日期：2024 年 4 月 24 日]。
[94] A. Conway, “Bing 聊天：它是什么，以及如何运作？” 2023, [在线]. 网址：www.xda-developers.com/bing-chat/. [访问日期：2024 年 5 月 2 日]。
[95] Simplilearn, “什么是 Bing 聊天？释放 GPT-4 的强大功能与 Bing 聊天，” 2023, [在线]. 网址：www.simplilearn.com/bing-chat-article. [访问日期：2024 年 5 月 9 日]。
[96] Anthropic, “介绍 Claude，” 2023, [在线]. 网址：www.anthropic.com/news/introducing-claude. [访问日期：2024 年 5 月 2 日]。
[97] J. Gillham, “2023 年第四季度 75+Claude AI 模型统计数据，” 2023, [在线]. 网址：originality.ai/blog/claude-ai-statistics. [访问日期：2024 年 4 月 25 日]。
[98] E. Lozić和 B. Štular, “ChatGPT、Bard、Bing、Claude 2、Aria 与人类专家。AI 聊天机器人在科学写作中的表现如何？（版本 23q3）,” arXiv 预印本 arXiv:2309.08636，2023。
[99] Y. Bai, S. Kadavath, S. Kundu, A. Askell, J. Kernion, A. Jones, A. Chen, A. Goldie, A. Mirhoseini, C. McKinnon 等, “宪法 AI：来自 AI 反馈的无害性，” arXiv 预印本 arXiv:2212.08073，2022。
[100] Y. Bai, A. Jones, K. Ndousse, A. Askell, A. Chen, N. DasSarma, D. Drain, S. Fort, D. Ganguli, T. Henighan 等, “通过人类反馈的强化学*训练一个有帮助且无害的助手，” arXiv 预印本 arXiv:2204.05862，2022。
[101] N. Y. Motlagh, M. Khajavi, A. Sharifi 和 M. Ahmadi, “人工智能对数字教育演变的影响：OpenAI 文本生成工具的比较研究，包括 ChatGPT、Bing 聊天、Bard 和 Ernie，” arXiv 预印本 arXiv:2309.02029，2023。
[102] Z. Yang, “中国科技巨头百度刚刚发布了它对 ChatGPT 的回应，” 2023, [在线]. 网址：www.technologyreview.com/2023/03/16/1069919/baidu-ernie-bot-chatgpt-launch/. [访问日期：2024 年 4 月 25 日]。
[103] J. Rudolph, S. Tan, 和 S. Tan, “聊天机器人大战: Bard、Bing Chat、ChatGPT、Ernie 及其他。新的 AI 金矿热潮及其对高等教育的影响，” Journal of Applied Learning and Teaching，第 6 卷，第 1 期，2023 年。
[104] Z. Huang, “中国首款主要聊天机器人无需像 ChatGPT 那样优秀，” 2023 年，[在线]. 可用链接: www.bloomberg.com/news/newsletters/2023-03-21/baidu-s-ernie-bot-aims-to-be-first-in-chatgpt-free-market-in-china. [访问日期: 2024 年 5 月 1 日]。
[105] J. Rodriguez, “深入了解 Sparrow: DeepMind 的 ChatGPT 替代品的基础，” 2023 年，[在线]. 可用链接: jrodthoughts.medium.com/inside-sparrow-the-foundation-of-deepminds-chatgpt-alternative-854df43569fd. [访问日期: 2024 年 4 月 25 日]。
[106] Wikipedia, “Grok (聊天机器人),” 2023 年，[在线]. 可用链接: en.wikipedia.org/wiki/Grok_(chatbot). [访问日期: 2024 年 5 月 9 日]。
[107] D. Milmo, “埃隆·马斯克推出 Grok，一款具有‘叛逆’特质的 AI 聊天机器人，” 2023 年，[在线]. 可用链接: www.theguardian.com/technology/2023/nov/05/elon-musk-unveils-grok-an-ai-chatbot-with-a-rebellious-streak. [访问日期: 2024 年 4 月 25 日]。
[108] K. Piper, “为什么 Meta 的新 AI 聊天机器人这么糟？” 2023 年，[在线]. 可用链接: www.vox.com/future-perfect/23307252/meta-facebook-bad-ai-chatbot-blenderbot. [访问日期: 2024 年 5 月 1 日]。
[109] M. A. R. Vasconcelos 和 R. P. d. Santos, “通过 ChatGPT 和 Bing Chat 作为思考对象来增强 STEM 学*: 一项案例研究，” arXiv 预印本 arXiv:2305.02202，2023 年。
[110] X.-Q. Dao, “在越南教育中应该使用哪个大型语言模型: ChatGPT、Bing Chat 还是 Bard？” Bing Chat, or Bard，2023 年。
[111] D. Xuan-Quy, L. Ngoc-Bich, V. The-Duy, P. Xuan-Dung, N. Bac-Bien, N. Van-Tien, N. Thi-My-Thanh, 和 N. Hong-Phuoc, “Vnhsge: 越南高中毕业考试数据集用于大型语言模型，” arXiv 预印本 arXiv:2305.12199，2023 年。
[112] A. J. Thirunavukarasu, D. S. J. Ting, K. Elangovan, L. Gutierrez, T. F. Tan, 和 D. S. W. Ting, “医学中的大型语言模型，” Nature medicine，第 29 卷，第 8 期，页码 1930–1940，2023 年。
[113] T. AI, “探索 Chat GPT 的增强功能: Turbo、个性化和图像编辑，” 2024 年，[在线]. 可用链接: www.toolify.ai/ai-news/exploring-the-enhanced-features-of-chat-gpt-turbo-personalization-and-image-editing-1170215. [访问日期: 2024 年 5 月 1 日]。
[114] N. S. Foundation，“美国科学与工程领域的外籍学生和工作人员”，2020 年，[在线]。可用链接： www.nsf.gov/nsb/sei/one-pagers/Foreign-Born.pdf。 [访问日期：2024 年 4 月 25 日]。
[115] S. Kim，“用 Openai Chatgpt 替代 Grammarly Premium”，2023 年，[在线]。可用链接： medium.com/geekculture/replace-grammarly-premium-with-openai-chatgpt-320049179c79。 [访问日期：2024 年 4 月 25 日]。
[116] F. M. Megahed, Y.-J. Chen, J. A. Ferris, S. Knoth 和 L. A. Jones-Farmer，“生成型 AI 模型如 Chatgpt 在 SPC 实践、教育和研究中的（误）用：一项探索性研究”，质量工程，页码 1–29，2023 年。
[117] S. Khan，“利用 GPT-4 使所有学生受益：一种非营利性*等访问方法”，可汗学院，2023 年。
[118] D. Team，“推出 Duolingo Max：由 GPT-4 驱动的学*体验”，检索于 3 月，第 15 卷，2023 年。
[119] O. Topsakal 和 E. Topsakal，“为儿童开发的外语教学软件框架：利用 AR、语音机器人和 Chatgpt（大型语言模型）”，认知系统期刊，第 7 卷，第 2 期，页码 33–38，2022 年。
[120] X. Zhai，“Chatgpt 用于下一代科学学*”，XRDS: Crossroads, The ACM Magazine for Students，第 29 卷，第 3 期，页码 42–46，2023 年。
[121] X. Wang, Z. Gong, G. Wang, J. Jia, Y. Xu, J. Zhao, Q. Fan, S. Wu, W. Hu 和 X. Li，“Chatgpt 在中国国家医学执照考试中的表现”，2023 年。
[122] E. Kasneci, K. Seßler, S. Küchemann, M. Bannert, D. Dementieva, F. Fischer, U. Gasser, G. Groh, S. Günnemann, E. Hüllermeier 等，“Chatgpt 的好处？大型语言模型在教育中的机遇与挑战”，学*与个体差异，第 103 卷，页码 102274，2023 年。
[123] S. Chandha, R. Sucheth 和 T. Ghosal，“背景介绍：人工智能如何重塑我们消费和传递研究的方式”，Upstream，2023 年。
[124] Ö. Aydın 和 E. Karaarslan，“Openai chatgpt 生成的文献综述：医疗保健中的数字双胞胎”，可在 SSRN 4308687 获取，2022 年。
[125] Y. Jiang，“基于 LLM 的金融分析聊天机器人”，2023 年，[在线]。可用链接： www.linkedin.com/pulse/llm-based-financial-analytics-chatbot-yicheng-jiang/。 [访问日期：2024 年 5 月 8 日]。
[126] M.-H. Temsah, A. Jamal 和 J. A. Al-Tawfiq，“关于新冠疫情后超额死亡的 Chatgpt 反思”，2023 年。
[127] A. Gilson, C. W. Safranek, T. Huang, V. Socrates, L. Chi, R. A. Taylor, D. Chartash 等，“Chatgpt 在美国医学执照考试中的表现如何？大型语言模型对医学教育和知识评估的影响”，JMIR 医学教育，第 9 卷，第 1 期，页码 e45312，2023 年。
[128] A. Hamidi 和 K. Roberts, “针对患者特定 EHR 问题的 AI 聊天机器人评估，” arXiv 预印本 arXiv:2306.02549，2023 年。
[129] R. Kirk, S. Simpson Matthew, M. Voorhees Ellen 和 R. Hersh William, “TREC 2016 临床决策支持赛道概述，” 见 第 15 届文本检索会议论文集，2016 年。
[130] W. H. Kruskal 和 W. A. Wallis, “在单一标准方差分析中使用秩次，” 美国统计协会期刊，第 47 卷，第 260 期，第 583–621 页，1952 年。
[131] Z. Azizi, P. Alipour, S. Gomez, C. Broadwin, S. Islam, A. Sarraju, A. Rogers, A. T. Sandhu 和 F. Rodriguez, “评估从基于聊天的人工智能算法中获得的关于房颤的建议：对患者和临床医生的评估，” 循环：心律失常与电生理学，第 e012015 页，2023 年。
[132] H. Nori, N. King, S. M. McKinney, D. Carignan 和 E. Horvitz, “GPT-4 在医学挑战问题上的能力，” arXiv 预印本 arXiv:2303.13375，2023 年。
[133] R. Yang, T. F. Tan, W. Lu, A. J. Thirunavukarasu, D. S. W. Ting 和 N. Liu, “大型语言模型在医疗保健中的发展、应用与挑战，” 健康科学，第 2 卷，第 4 期，第 255–263 页，2023 年。
[134] K. Leung, “Macy the ai pharmacist!” 2023 年，[在线]. 可用： www.linkedin.com/posts/kennethleungty_generativeai-ai-pharmacist-activity-7031533843429949440-pVZb/。 [访问日期：2024 年 4 月 25 日]。
[135] S. Chen, B. H. Kann, M. B. Foote, H. J. Aerts, G. K. Savova, R. H. Mak 和 D. S. Bitterman, “使用人工智能聊天机器人获取癌症治疗信息，” JAMA 肿瘤学，第 9 卷，第 10 期，第 1459–1462 页，2023 年。
[136] S. Koga, N. B. Martin 和 D. W. Dickson, “评估大型语言模型的性能：Chatgpt 和 Google Bard 在神经退行性疾病的临床病理会议中生成鉴别诊断的表现，” 脑病理学，第 e13207 页，2023 年。
[137] A. K. D. Dhanvijay, M. J. Pinjar, N. Dhokane, S. R. Sorte, A. Kumari, H. Mondal 和 A. K. Dhanvijay, “大型语言模型（Chatgpt、Bing 搜索和 Google Bard）在解决生理学案例小样中的表现，” Cureus，第 15 卷，第 8 期，2023 年。
[138] Z. W. Lim, K. Pushpanathan, S. M. E. Yew, Y. Lai, C.-H. Sun, J. S. H. Lam, D. Z. Chen, J. H. L. Goh, M. C. J. Tan, B. Sheng 等，“大型语言模型在近视护理中的性能基准：对 Chatgpt-3.5、Chatgpt-4.0 和 Google Bard 的比较分析，” EBioMedicine，第 95 卷，2023 年。
[139] J. G. Meyer, R. J. Urbanowicz, P. C. Martin, K. O’Connor, R. Li, P.-C. Peng, T. J. Bright, N. Tatonetti, K. J. Won 和 G. Gonzalez-Hernandez 等，“Chatgpt 和大型语言模型在学术界的机会与挑战，” 生物数据挖掘，第 16 卷，第 1 期，第 20 页，2023 年。
[140] N. M. S. Surameery 和 M. Y. Shakor, “使用 ChatGPT 解决编程错误，” 国际信息技术与计算机工程杂志 (IJITC) ISSN: 2455-5290，第 3 卷，第 01 期，第 17–22 页，2023 年。
[141] M. Nejjar, L. Zacharias, F. Stiehle 和 I. Weber, “科学领域的 LLMs：用于代码生成和数据分析，” arXiv 预印本 arXiv:2311.16733，2023 年。
[142] M. Dowling 和 B. Lucey, “ChatGPT 在（金融）研究中的应用：香蕉拉玛猜想，” 金融研究快报，第 53 卷，第 103662 页，2023 年。
[143] S. S. Gill 和 R. Kaur, “ChatGPT：愿景与挑战，” 物联网与网络物理系统，第 3 卷，第 262–271 页，2023 年。
[144] İ. M. Altan 和 M. KILIÇ, “科幻到现实：Bing AI 作为投资顾问，” 经济经营与管理期刊，第 7 卷，第 2 期，第 240–260 页。
[145] D. Dai, L. Dong, Y. Hao, Z. Sui, B. Chang 和 F. Wei, “预训练变换器中的知识神经元，” arXiv 预印本 arXiv:2104.08696，2021 年。
[146] K. Meng, D. Bau, A. Andonian 和 Y. Belinkov, “在 GPT 中定位和编辑事实关联，” 神经信息处理系统进展，第 35 卷，第 17,359–17,372 页，2022 年。
[147] E. M. Bender, T. Gebru, A. McMillan-Major 和 S. Shmitchell, “随机鹦鹉的危险：语言模型能否过大？” 收录于 2021 年 ACM 公*性、问责制和透明度会议论文集，2021 年，第 610–623 页。
[148] P. Villalobos, J. Sevilla, L. Heim, T. Besiroglu, M. Hobbhahn 和 A. Ho, “我们会数据枯竭吗？对机器学*数据集扩展限制的分析，” arXiv 预印本 arXiv:2211.04325，2022 年。
[149] S. Saghafian, “ChatGPT 背后的分析科学：人类、算法，还是人类-算法半人马？” 2023 年。
[150] M. Agarwal, P. Sharma 和 A. Goswami, “分析 ChatGPT、Bard 和 Bing 在医学生理学中生成基于推理的多项选择题的适用性，” Cureus，第 15 卷，第 6 期，2023 年。
[151] L. Z. Cai, A. Shaheen, A. Jin, R. Fukui, S. Y. Jonathan, N. Yannuzzi 和 C. Alabiad, “生成性大语言模型在眼科学 board 风格问题上的表现，” 美国眼科学杂志，2023 年。
[152] G. Sutcliffe, J. McKeown 和 A. Steen, “与 Bard 对话，” 收录于 第 14 届国际逻辑实现研讨会论文集，2023 年。
[153] P. Nguyen, P. Nguyen, P. Bruneau, L. Cao, J. Wang 和 H. Truong, “评估 Google Bard 在越南国家高中毕业考试数学测试中的数学表现，” 2023 年。
[154] S. Wang, H. Scells, B. Koopman 和 G. Zuccon, “ChatGPT 能否编写出有效的布尔查询以进行系统评价文献检索？” arXiv 预印本 arXiv:2302.03495，2023 年。
[155] A. Borji, “ChatGPT 失败的分类档案，” arXiv 预印本 arXiv:2302.03494，2023 年。
[156] C. Rudin，“停止为高风险决策解释黑箱机器学*模型，改用可解释模型，” Nature machine intelligence，第 1 卷，第 5 期，第 206–215 页，2019 年。
[157] A. Rao, J. Kim, M. Kamineni, M. Pang, W. Lie, 和 M. D. Succi，“评估 chatgpt 作为放射决策辅助工具，” medRxiv，第 2023–02 页，2023 年。
[158] P. Schramowski, C. Turan, N. Andersen, C. A. Rothkopf 和 K. Kersting，“大型预训练语言模型包含类似人类的对错偏见，” Nature Machine Intelligence，第 4 卷，第 3 期，第 258–268 页，2022 年。
[159] M. Fraiwan 和 N. Khasawneh，“chatgpt 在教育、营销、软件工程和医疗保健中的应用综述：优点、缺点及研究方向，” arXiv 预印本 arXiv:2305.00237，2023 年。
[160] M. Phillips, H. Marsden, W. Jaffe, R. N. Matin, G. N. Wali, J. Greenhalgh, E. McGrath, R. James, E. Ladoyanni, A. Bewley 等，“评估人工智能算法检测皮肤病变图像中黑色素瘤的准确性，” JAMA network open，第 2 卷，第 10 期，第 e1 913 436–e1 913 436 页，2019 年。
[161] M. C. Oca, L. Meller, K. Wilson, A. O. Parikh, A. McCoy, J. Chang, R. Sudharshan, S. Gupta 和 S. Zhang-Nunes，“AI 聊天机器人眼科医生建议中的偏见和不准确性，” Cureus，第 15 卷，第 9 期，2023 年。
[162] R. W. McGee，“chat gpt 是否对保守派有偏见？一项实证研究，” 实证研究（2023 年 2 月 15 日），2023 年。
[163] J. Hartmann, J. Schwenzow 和 M. Witte，“对话 AI 的政治意识形态：chatgpt 的亲环*、左自由主义取向的汇聚证据，” arXiv 预印本 arXiv:2301.01768，2023 年。
[164] S. McCallum，“chatgpt 因隐私问题在意大利被禁，” BBC News，2023 年。
[165] OpenAI，“隐私政策，” 2023 年 5 月 10 日，[在线]。可用：openai.com/policies/privacy-policy。 [访问时间：2024 年 4 月 25 日]。
[166] M. Liebrenz, R. Schleifer, A. Buadze, D. Bhugra 和 A. Smith，“使用 chatgpt 生成学术内容：医学出版中的伦理挑战，” The Lancet Digital Health，第 5 卷，第 3 期，第 e105–e106 页，2023 年。
[167] A. Shiri，“chatgpt 与学术诚信，” Information Matters，第 3 卷，第 2 期，2023 年。
[168] M. R. King 和 ChatGPT，“关于人工智能、聊天机器人和高等教育中的抄袭的对话，” Cellular and Molecular Bioengineering，第 16 卷，第 1 期，第 1–2 页，2023 年。
[169] M. Khalil 和 E. Er，“chatgpt 会让你被抓住吗？重新思考抄袭检测，” arXiv 预印本 arXiv:2302.04335，2023 年。
[170] T. Susnjak, “Chatgpt：在线考试诚信的终结？” arXiv 预印本 arXiv:2212.09292，2022 年。
[171] K. Wiggers，“Openai 发布检测 AI 生成文本（包括 chatgpt）的工具，” 2023 年 3 月，第 12 期，第 2023 页，2023 年。
[172] H. Gimpel, K. Hall, S. Decker, T. Eymann, L. Lämmermann, A. Mädche, M. Röglinger, C. Ruiner, M. Schoch, M. Schoop 等，“解锁 GPT-4 和 ChatGPT 等生成式 AI 模型及系统在高等教育中的潜力：学生和讲师的指南”，霍恩海姆商业、经济与社会科学讨论论文，技术报告，2023 年。
[173] X.-Q. Dao 和 N.-B. Le，“ChatGPT 很好，但 Bing Chat 对越南学生来说更好”， arXiv 预印本 arXiv:2307.08272，2023 年。
[174] T. F. Tan, A. J. Thirunavukarasu, J. P. Campbell, P. A. Keane, L. R. Pasquale, M. D. Abramoff, J. Kalpathy-Cramer, F. Lum, J. E. Kim, S. L. Baxter 等， “通过 ChatGPT 和其他大型语言模型在眼科学中的生成式人工智能：临床应用与挑战”， Ophthalmology Science，第 3 卷，第 4 期，页码 100394，2023 年。
[175] M. D. Abràmoff, B. Cunningham, B. Patel, M. B. Eydelman, T. Leng, T. Sakamoto, B. Blodi, S. M. Grenon, R. M. Wolf, A. K. Manrai 等，“使用眼科图像的人工智能基础考虑”， Ophthalmology，第 129 卷，第 2 期，页码 e14–e32，2022 年。
[176] T. Y. Zhuo, Y. Huang, C. Chen 和 Z. Xing，“探讨 ChatGPT 的人工智能伦理：诊断分析”， arXiv 预印本 arXiv:2301.12867，2023 年。
[177] A. J. Thirunavukarasu, R. Hassan, S. Mahmood, R. Sanghera, K. Barzangi, M. El Mukashfi 和 S. Shah，“在普通实践中试用大型语言模型（ChatGPT）与应用知识测试：观察研究展示了初级护理中的机会和局限性”， JMIR 医学教育，第 9 卷，第 1 期，页码 e46599，2023 年。
[178] G. Sebastian，“ChatGPT 和其他 AI 聊天机器人中的隐私和数据保护：保护用户信息的策略”， 可在 SSRN 4454761 上获得，2023 年。
[179] M. Al-Hawawreh, A. Aljuhani 和 Y. Jararweh，“ChatGPT 在网络安全中的应用：实际应用、挑战与未来方向”， Cluster Computing，第 26 卷，第 6 期，页码 3421–3436，2023 年。
[180] E. Derner 和 K. Batistič，“超越安全保障：探索 ChatGPT 的安全风险”， arXiv 预印本 arXiv:2305.08005，2023 年。
[181] B. Dash 和 P. Sharma，“ChatGPT 和深度伪造算法是否危害了网络安全行业？一项综述”， 国际工程与应用科学杂志，第 10 卷，第 1 期，2023 年。
[182] P. with Code，“在 MMLU 上的多任务语言理解”，2024 年，[在线]。可用： paperswithcode.com/sota/multi-task-language-understanding-on-mmlu?tag_filter=318。 [访问时间：2024 年 5 月 1 日]。
[183] J. Wei, Y. Tay, R. Bommasani, C. Raffel, B. Zoph, S. Borgeaud, D. Yogatama, M. Bosma, D. Zhou, D. Metzler 等，“大型语言模型的突现能力”， arXiv 预印本 arXiv:2206.07682，2022 年。
[184] J. Kaplan, S. McCandlish, T. Henighan, T. B. Brown, B. Chess, R. Child, S. Gray, A. Radford, J. Wu, 和 D. Amodei，“神经语言模型的扩展规律，” arXiv 预印本 arXiv:2001.08361，2020 年。
[185] D. Hendrycks, C. Burns, S. Basart, A. Zou, M. Mazeika, D. Song, 和 J. Steinhardt，“大规模多任务语言理解的测量，” arXiv 预印本 arXiv:2009.03300，2020 年。
[186] X. Jiao, Y. Yin, L. Shang, X. Jiang, X. Chen, L. Li, F. Wang, 和 Q. Liu，“TinyBERT：为自然语言理解提炼 BERT，” arXiv 预印本 arXiv:1909.10351，2019 年。
[187] G. Hinton, O. Vinyals, 和 J. Dean，“在神经网络中提炼知识，” arXiv 预印本 arXiv:1503.02531，2015 年。
[188] Z. Sun, H. Yu, X. Song, R. Liu, Y. Yang, 和 D. Zhou，“MobileBERT：一种适用于资源受限设备的紧凑型任务无关 BERT，” arXiv 预印本 arXiv:2004.02984，2020 年。
[189] M. A. Gordon, K. Duh, 和 N. Andrews，“压缩 BERT：研究权重修剪对迁移学*的影响，” arXiv 预印本 arXiv:2002.08307，2020 年。
[190] T. Chen, J. Frankle, S. Chang, S. Liu, Y. Zhang, Z. Wang, 和 M. Carbin，“针对预训练 BERT 网络的彩票票假设，” 神经信息处理系统进展，第 33 卷，页码 15 834–15 846，2020 年。
[191] S. Shen, Z. Dong, J. Ye, L. Ma, Z. Yao, A. Gholami, M. W. Mahoney, 和 K. Keutzer，“Q-BERT：基于 Hessian 的 BERT 超低精度量化，” 收录于 AAAI 人工智能会议论文集，第 34 卷，第 05 期，2020 年，页码 8815–8821。
[192] H. Bai, W. Zhang, L. Hou, L. Shang, J. Jin, X. Jiang, Q. Liu, M. Lyu, 和 I. King，“BinaryBERT：推动 BERT 量化的极限，” arXiv 预印本 arXiv:2012.15701，2020 年。
[193] Y. Cheng, D. Wang, P. Zhou, 和 T. Zhang，“深度神经网络模型压缩与加速的综述，” arXiv 预印本 arXiv:1710.09282，2017 年。
[194] S. Pan, L. Luo, Y. Wang, C. Chen, J. Wang, 和 X. Wu，“统一大型语言模型和知识图谱：一个路线图，” arXiv 预印本 arXiv:2306.08302，2023 年。
[195] J. Sun, C. Xu, L. Tang, S. Wang, C. Lin, Y. Gong, H.-Y. Shum, 和 J. Guo，“Think-on-Graph：大型语言模型与知识图谱的深度与负责任的推理，” arXiv 预印本 arXiv:2307.07697，2023 年。
[196] C.-C. J. Kuo 和 A. M. Madni，“绿色学*：简介、示例与展望，” 视觉通信与图像表征期刊，第 90 卷，文章编号 103685，2023 年。
[197] R. Schwartz, J. Dodge, N. A. Smith, 和 O. Etzioni，“绿色人工智能，” 计算机协会通讯，第 63 卷，第 12 期，页码 54–63，2020 年。
[198] P. Sharma, N. Ding, S. Goodman, 和 R. Soricut，“概念化标题：一个清理过的、超义词化的图像替代文本数据集用于自动图像描述，” 收录于 第 56 届计算语言学协会年会（第 1 卷：长篇论文），2018 年，页码 2556–2565。
[199] C. 郭，Y. 卢，Y. 斗，和 F.-Y. 王，“ChatGPT 能否促进艺术创作：*行艺术对想象力智能的需求”，IEEE/CAA 自动化学报，第 10 卷，第 4 期，pp. 835–838，2023 年。
[200] H. 杜，S. 滕，H. 陈，J. 马，X. 王，C. 购，B. 李，S. 马，Q. 苗，X. 纳等，“与 ChatGPT 谈论智能车辆：IEEE TIV 视角”，IEEE 智能车辆学报，2023 年。
[201] Y. 高，W. 汤，E. Q. 吴，W. 陈，G. 朱，和 F.-Y. 王，“与 ChatGPT 谈论智能驾驶的互动引擎”，IEEE 智能车辆学报，2023 年。
[202] J. 张，J. 普，J. 薛，M. 杨，X. 许，X. 王，和 F.-Y. 王，“Hivegpt：人机增强的智能车辆与生成预训练变换器”，IEEE 智能车辆学报，2023 年。
[203] F.-Y. 王，J. 杨，X. 王，J. 李，和 Q.-L. 韩，“与 ChatGPT 谈论工业 5.0：智能产业的学*与决策”，IEEE/CAA 自动化学报，第 10 卷，第 4 期，pp. 831–834，2023 年。
[204] F.-Y. 王，J. 李，R. 秦，J. 朱，H. 莫，和 B. 胡，“ChatGPT 在计算社会系统中的应用：从对话应用到以人为本的操作系统”，IEEE 计算社会系统学报，第 10 卷，第 2 期，pp. 414–425，2023 年。
[205] D. 韦宁格，“SMILES，一种化学语言和信息系统。1. 方法学和编码规则介绍”，化学信息与计算科学学报，第 28 卷，第 1 期，pp. 31–36，1988 年。
[206] H. 哈尔库斯，K. 法瓦兹，K. G. 辛，和 K. 阿贝尔，“$\{$PriBots$\}$：与聊天机器人进行对话隐私保护”，在第十二届可用隐私与安全研讨会（SOUPS 2016），2016 年。
[207] M. 哈萨尔，J. 诺瓦科娃，K. 阿赫迈德·萨盖尔，H. 阿卜杜拉，V. 斯纳谢尔，和 L. 奥吉拉，“聊天机器人：安全性、隐私、数据保护和社会方面”，并发计算：实践与经验，第 33 卷，第 19 期，第 e6426 页，2021 年。
[208] B. 梅斯科和 E. J. 托波尔，“对医疗保健领域大语言模型（或生成 AI）的监管监督的必要性”，npj 数字医学，第 6 卷，第 1 期，第 120 页，2023 年。
[209] A. 阿赫迈德，N. 阿里，M. 阿尔祖拜迪，W. 扎赫乌安尼，A. A. 阿卜杜拉扎克，和 M. 豪斯，“自由提供的阿拉伯语语料库：范围审查”，生物医学计算方法与程序更新，第 2 卷，第 100049 页，2022 年。
[210] A. 阿赫迈德，N. 阿里，M. 阿尔祖拜迪，W. 扎赫乌安尼，A. 阿卜杜拉扎克，和 M. 豪斯，“阿拉伯语聊天机器人技术：范围审查”，生物医学计算方法与程序更新，第 2 卷，第 100057 页，2022 年。
[211] H. 比阿提，L. 沃特金斯，W. H. 罗宾逊，A. 鲁宾，和 S. 沃特金斯，“测量和减轻 AI 聊天机器人的偏见”，在2022 IEEE 国际自主保障大会（ICAA）。IEEE，2022 年，pp. 117–123。
[212] M. A. Kuhail, N. Alturki, S. Alramlawi, 和 K. Alhejori， “与教育聊天机器人互动：系统综述”， 教育与信息技术，第 28 卷，第 1 期，页码 973–1018，2023 年。
[213] M. Hosseini, D. B. Resnik, 和 K. Holmes， “在撰写学术手稿中披露人工智能工具使用的伦理问题”， 研究伦理，页码 17470161231180449，2023 年。
[214] E. A. Van Dis, J. Bollen, W. Zuidema, R. van Rooij, 和 C. L. Bockting， “Chatgpt：研究的五大优先事项”，自然，第 614 卷，第 7947 期，页码 224–226，2023 年。
[215] O. Evans, O. Wale-Awe, E. Osuji, O. Ayoola, R. Alenoghena, 和 S. Adeniji， “Chatgpt 对访问效率、就业、教育和伦理的影响：AI 语言模型的社会经济学”， BizEcons 季刊，第 16 卷，第 1 期，页码 1–17，2023 年。
[216] B. D. Lund, T. Wang, N. R. Mannuru, B. Nie, S. Shimray, 和 Z. Wang， “Chatgpt 与新学术现实：人工智能生成的研究论文与大型语言模型在学术出版中的伦理问题”， 信息科学与技术协会期刊，第 74 卷，第 5 期，页码 570–581，2023 年。
[217] J. Rudolph, S. Tan, 和 S. Tan， “Chatgpt：废话制造者还是高等教育传统评估的终结？” 应用学*与教学期刊，第 6 卷，第 1 期，2023 年。
[218] A. Abd-Alrazaq, R. AlSaad, D. Alhuwail, A. Ahmed, P. M. Healy, S. Latifi, S. Aziz, R. Damseh, S. A. Alrazak, J. Sheikh 等， “医学教育中的大型语言模型：机遇、挑战与未来方向”， JMIR 医学教育，第 9 卷，第 1 期，页码 e48291，2023 年。
[219] E. Union， “2017 年 4 月 5 日欧洲议会和理事会关于医疗器械的第（EU）2017/745 号条例，修订了指令 2001/83/EC，第（EC）号 178/2002 号条例和第（EC）号 1223/2009 号条例，并废除了理事会指令 90/385/EEC 和 93/42/EEC”，2017 年，[在线]。可用链接：eur-lex.europa.eu/legal-content/EN/TXT/PDF/?uri=CELEX:32017R0745&from=EN。 [访问时间：2024 年 5 月 8 日]。
[220] U. D. of Health and H. Services， “行业和食品药品管理局员工指导”，2022 年，[在线]。可用链接：www.fda.gov/media/109618/download。 [访问时间：2024 年 5 月 9 日]。
[221] X. Yang, A. Chen, N. PourNejatian, H. C. Shin, K. E. Smith, C. Parisien, C. Compas, C. Martin, A. B. Costa, M. G. Flores 等， “用于电子健康记录的大型语言模型”， NPJ 数字医学，第 5 卷，第 1 期，页码 194，2022 年。

	Sumit Kumar Dam 是韩国庆熙大学人工智能系的博士研究员。他于 2020 年获得了孟加拉国库尔纳大学计算机科学与工程的理学学士学位。他的研究兴趣包括对抗性鲁棒性、计算机视觉、自监督学和机器学。
	Choong Seon Hong (S’95-M’97-SM’11-F’23) 毕业于韩国首尔的庆熙大学，分别获得电子工程学士和硕士学位，时间分别是 1983 年和 1985 年，随后于 1997 年从日本东京的庆熙大学获得博士学位。1988 年加入韩国京畿道的 KT 公司，担任技术人员一职，参与宽带网络项目。自 1993 年以来一直在庆熙大学工作。曾任 KT 电信网络实验室的高级技术人员以及网络研究小组的主任，直至 1999 年。自 1999 年以来一直在庆熙大学计算机科学与工程系担任教授。他的研究领域包括未来互联网、智能边缘计算、网络管理和网络安全。Hong 博士是计算机协会（ACM）、电子、信息和通信工程师协会（IEICE）、日本信息处理学会（IPSJ）、韩国信息科学家工程师协会（KIISE）、韩国通信和信息科学院（KICS）、韩国信息处理学会（KIPS）以及开放标准和 ICT 协会（OSIA）的成员。他曾担任国际会议的总主席、技术计划委员会主席/成员或组织委员会成员，例如网络运营与管理研讨会（NOMS）、综合网络管理国际研讨会（IM）、亚太网络运营与管理研讨会（APNOMS）、端到端监控技术与服务（E2EMON）、IEEE 消费者通信与网络会议（CCNC）、分布式系统和网络保障（ADSN）、并行处理国际会议（ICPP）、数据集成与挖掘（DIM）、世界信息安全应用大会（WISA）、宽带融合网络（BcN）、电信信息网络架构（TINA）、应用与互联网国际研讨会（SAINT）以及信息网络国际会议（ICOIN）。他曾担任 IEEE 网络与服务管理交易、IEEE 通讯与网络期刊以及国际网络管理期刊的副编辑。此外，他还曾担任 IEEE 通信杂志的副技术编辑。目前他是《国际网络管理》和《未来互联网》期刊的副编辑。
	余巧（S’24）于 2016 年和 2019 年分别获得南京信息工程大学（NUIST），中国南京的物联网工程学士学位和计算机科学与技术硕士学位。他目前在韩国庆熙大学（KHU）人工智能系攻读博士学位。在攻读博士学位之前，他曾在 2019 至 2022 年期间担任上海 Spreadtrum Communications（UNISOC）的相机软件工程师。他的兴趣包括机器学、联邦学、对抗性机器学、自监督学和分布式边缘智能。
	张超宁于 2012 年和 2015 年分别获得哈尔滨工业大学的电气工程学士学位和硕士学位，并于 2021 年获得 KAIST 的博士学位。自 2022 年起，他在庆熙大学计算学院人工智能系担任助理教授。在此之前，他曾在 KAIST 担任博士后研究员。他的研究兴趣包括但不限于对抗性机器学和自监督学，以解决计算机视觉及其他领域中的模型鲁棒性和数据效率问题。

生成于 2024 年 6 月 17 日星期一 09:34:00，通过 LaTeXML

《从变压器到 LLMs 的流行病建模中人类流动预测的简短调查》

来源：arxiv.org/html/2404.16921

《从变压器到 LLMs 的流行病建模中人类流动预测的简短调查》

Christian N. Mayemba¹ D’Jeff K. Nkashama^(1,2) Jean Marie Tshimula^(1,3) Maximilien V. Dialufuma^(1,7)

Jean Tshibangu Muabila^(1,4) Mbuyi Mukendi Didier^(1,3,8,9) Hugues Kanda¹ René Manassé Galekwa^(1,3,5)

Heber Dibwe Fita¹ Serge Mundele¹ Kalonji Kalala^(1,6) Aristarque Ilunga^(1,3) Lambert Mukendi Ntobo¹⁰

Dominique Muteba¹¹ Aaron Aruna Abedi¹¹ ¹Prospection and Data Valuation Research Group (Greprovad), Global ²GRIC, Université de Sherbrooke, 加拿大 ³Kinshasa 大学, 刚果民主共和国 (DRC) ⁴LISV-UVSQ, Université Paris-Saclay, 法国 ⁵克拉根福大学, 奥地利 ⁶渥太华大学电气工程与计算机科学学院, 加拿大 ⁷蒙特利尔行为医学中心, 蒙特利尔北岛综合大学健康与社会服务理事会 (CIUSSS-NIM), 加拿大 ⁸孔科雷医院生物医学研究部, 金沙萨, 刚果民主共和国 ⁹佛罗里达大学, 美国 ¹⁰非洲人类锥虫病国家防治计划 (PNLTHA), 刚果民主共和国卫生部流行病监测局 ¹¹国家流行病情报中心 (CNIEP), 刚果民主共和国卫生部流行病监测局。通讯邮箱：jeanmarie.tshimula@unikin.ac.cd 和 christian.mayemba@greprovad.org

摘要

本文提供了关于利用机器学*技术，特别是 Transformer 模型，在预测人类流动模式方面的最新进展的全面综述。了解人们在疫情期间的移动方式对于疾病传播建模和制定有效应对策略至关重要。预测人口流动对于告知流行病学模型和促进公共卫生紧急情况中的有效应对规划至关重要。预测流动模式可以使当局更好地预测疾病的地理和时间传播，优化资源配置，并实施有针对性的干预措施。我们回顾了利用预训练语言模型如 BERT 和专门针对流动预测任务调整的大型语言模型（LLMs）的一系列方法。这些模型在捕捉复杂的时空依赖关系和文本数据中的上下文模式方面展示了显著的潜力。

1 引言

在疾病爆发期间预测人口流动是一个复杂但至关重要的任务，对公共卫生决策和制定流行病控制策略具有重要影响。近期的 COVID-19 大流行强调了了解人类流动性在预测和控制传染病传播中的重要性。人类流动数据可以与其他数据源结合，以帮助理解流动模式。这为减缓疾病的迅速传播提供了宝贵的见解。此外，它有助于分析疫情感染案例与公园等休闲区域人类活动之间的相关性。此外，它还能够实现早期检测和迅速隔离病毒感染。流动数据来自各种来源，如通话详细记录、全球定位系统、社交网络和地区专家知识 Isaacman et al. (2012); Ebrahimpour et al. (2020); Sobral et al. (2020)。

尽管传统流行病学模型在很大程度上依赖流动数据，采用如聚类技术、微分方程和统计建模等方法 Kulkarni et al. (2019); Rahman et al. (2021)，近年来却见证了向使用深度学*方法，特别是预训练于大规模语料库的 Transformer 架构的范式转变。这些先进技术旨在解决建模人类流动动态过程中固有的复杂性 Ma et al. (2022a); Kobayashi et al. (2023)。

贡献。在本文中，我们提供了一个全面的概述，介绍了近年来旨在利用机器学*技术，特别是 Transformer 模型，以提升人类移动模式预测的研究努力。我们重点介绍了预训练语言模型和专门针对移动预测任务的大型语言模型（LLMs）的贡献。此外，我们讨论了这一新兴领域的挑战和未来方向，强调了这些先进建模技术在提供更准确和可操作的流行病学模型方面的潜力。

图 1：人类移动建模任务分类

作者：Luca 等人（2021）。

图 2：基于 Transformer 的移动预测：编码移动轨迹以预测未来位置。

2 人类移动任务

移动模式描述了在给定观察期内考虑人群的移动。人类移动建模任务可以分为两个主要任务：生成任务，即生成现实的移动数据，以及预测任务，即预测个人和集体层面的未来移动模式（Luca 等人（2021））。在我们的研究背景下，轨迹对应于与个人运动相关的时空信息序列。根据任务的不同，轨迹可以按地理区域进行汇总。给定两个区域，流动表示从一个区域（起点）到另一个区域（目的地）的个体移动的频率。图 2 展示了生成任务，包括流动生成和轨迹生成等子任务，其中生成模型，包括 Transformer 和 LLMs，发挥着至关重要的作用。另一方面，预测任务包括人群流动预测和下一个位置预测，需采用稳健的预测模型。

我们的论文提供了一个关于利用 Transformer 和 LLMs 建模人类移动模式，特别是在流行病控制背景下的最新进展的全面概述（见表 1）。该表提供了涉及 Transformer 和 LLMs 在流行病建模背景下建模人类移动模式的最新研究所使用的方法、应用和数据集的信息。

3 人类移动中的 Transformer

论文	年份	方法	应用	数据集
WiFiMod: 基于 Transformer 的室内人类移动建模使用被动传感 Trivedi 等 (2021)	2021	WiFiMod (基于 Transformer 的模型)	预测室内人类移动	企业 WiFi 系统日志
MobTCast: 利用辅助轨迹预测进行人类移动预测 Xue 等 (2021)	2021	Transformer	人类移动预测	Gowalla, Foursquare-NYC (FS-NYC) 和 Foursquare-Tokyo (FS-TKY)
通过考虑类别和区域之间的相互关系来预测人类行为 Osawa 等 (2021)	2021	Transformer	预测人类移动	未指定
TraceBERT—基于 BERT 训练过程对离散位置序列中不完整运动轨迹重构空间–时间间隙的可行性研究 Crivellari 等 (2022)	2022	BERT	轨迹重构	短期游客的大规模实际轨迹数据集 (CDRs)
整合 Transformer 和 GCN 进行 COVID-19 预测 Li 等 (2022)	2022	Transformer 和 GCN	COVID-19 预测	Nytimes Coronavirus (COVID-19) 数据
大型语言模型用于空间轨迹模式挖掘 Zhang 等 (2023)	2023	如 GPT-4 和 Claude-2 的 LLMs	移动数据中的异常检测	GEOLIFE, PATTERNS-OF-LIFE
你怎么去哪里？通过使用 Transformers 学*旅行模式信息来改善下一个位置预测 Hong 等 (2022)	2022	Transformer	下一个位置预测	Green Class (GC) 和 Yumuv
GeoFormer: 使用生成预训练 Transformer 预测人类移动 Solatorio (2023)	2023	基于 GPT 的模型	预测人类移动	HuMob 挑战 2023 数据集
使用具有日期编码的 Transformer 建模和生成人工移动轨迹 Kobayashi 等 (2023)	2023	带日期编码的 Transformer	建模和生成人工移动轨迹	HuMob 数据集
CrowdFlowTransformer: 捕捉时空依赖以预测人类流动 Choya 等 (2023)	2023	Transformer	人群流动预测	未指定
TrafFormer: 一种用于预测长期交通的 Transformer 模型 Tedjopurnomo 等 (2023)	2023	Transformer	长期交通预测	METR-LA, PEMS-BAY
我接下来会去哪儿？大型语言模型作为人类移动预测器 Wang 等人 (2023a)	2023	LMM	人类移动预测	GEOLIFE, FSQ-NYC
通过人类移动轨迹进行用户再识别的 Siamese Transformer 网络 Wang 等人 (2023a)	2023	Siamese Transformer 网络	用户再识别	Gowalla, Brightkite 和 Foursquare (NYC, TKY)
探索大型语言模型在公共事件下的人类移动预测 Liang 等人 (2023)	2023	LLM	公共事件下的人类移动预测	公开事件信息和出租车行程数据
使用基于 Transformer 的模型学*日常人类移动 Wang 和 Osaragi (2024)	2024	Transformer	人类移动建模	东京大都市区
Health-LLM：通过可穿戴传感器数据进行健康预测的大型语言模型 Kim 等人 (2024)	2024	LLM	流行病控制	PMData, LifeSnaps, GLOBEM, AW_FB, MITBIH 和 MIMIC-III
超越模仿：通过上下文感知推理生成大型语言模型的人类移动 Shao 等人 (2024)	2024	LLM	移动生成	腾讯和移动数据集
大型语言模型作为城市居民：一个 LLM 代理框架用于个人移动生成 Wang 等人 (2024a)	2024	LLM	个人移动生成	未指定
MobilityGPT：使用 GPT 模型增强的人类移动建模 Haydari 等人 (2024)	2024	GPT	移动建模	现实世界数据集
COLA: 跨城市移动转换器用于人类轨迹模拟 Wang 等人 (2024b)	2024	Transformer	人类轨迹模拟	GeoLife, Yahoo, New York, Singapore

表 1：用于流行病控制的人类移动模式建模的 Transformer 和 LLM 文献综述

Transformers 是一种深度学*架构，包含两个部分：编码器和解码器 Vaswani 等人 (2017)。它们在我们观察到的各种机器学*任务的最新突破中发挥了重要作用。这些任务包括但不限于文本到图像生成、机器翻译和文本摘要。Transformer 成功的一个关键因素是注意力机制。这个机制使模型能够优先考虑最相关的输入数据，例如在给定上下文的情况下预测下一个词。尽管最初它主要应用于文本数据，但后来已经证明 Transformer 在多种应用中都很有效，包括预测，在这些应用中它们显示出了比前辈更优越的表现 Vaswani 等人 (2017)；Trivedi 等人 (2021)；Osawa 等人 (2021)；Solatorio (2023)；Xu 等人 (2023)；Kobayashi 等人 (2023)；Tedjopurnomo 等人 (2023)；Wang 等人 (2023a，2024b)。

此外，Transformers 是多模态的，意味着它们可以结合不同类型的数据源，例如文本、图像、图表等。因此，它们的应用在近年来显著增加，包括在预测流行病建模中的人类流动模式方面。Li 等人 (2021)；Devyatkin 等人 (2021)；Xue 等人 (2022a)；Cui 等人 (2021)；Xue 等人 (2021)；Mai 等人 (2022)；Li 等人 (2022)；Hong 等人 (2022)；Shen 等人 (2023)；Ren 等人 (2023)；Botz 等人 (2022)；Terashima 等人 (2023)；Bengio 等人 (2020)；Xu 等人 (2021)；Ma 等人 (2022b)；Aragão 等人 (2023)；Violos 等人 (2022)；Choya 等人 (2023)；Mao 等人 (2023)；Wang 等人 (2023b)；Chen 等人 (2023)。图2展示了一个用于流动预测的 Transformer 模型的架构。该模型接收一系列位置和时间数据，表示一个流动轨迹作为输入。这一轨迹通过 Transformer 的编码器组件进行编码，捕捉序列中的时间和空间依赖关系。生成的编码随后传递给解码器，生成对轨迹中下一个位置的预测。这个自包含的框架利用 Transformer 的注意力机制，有效捕捉流动数据中的长程依赖和时空模式，从而准确预测未来的位置。

最初，像 BERT 这样基于 Transformer 架构的模型表现出了在基于文本和位置数据进行流动性流向预测上的潜力，（Devlin 等，2018; Li 等，2021; Crivellari 等，2022）。然而，在推广到新位置和爆发场景方面仍存在挑战（Devyatkin 等，2021）。Terashima 等人（2023）引入了 LP-BERT，用于使用 Transformer 架构预测人类流动轨迹。LP-BERT 能够实现并行预测，减少训练和预测时间，这对于需要快速了解人口流动情况的流行病建模等任务可能是有益的。

Botz 等人（2022）在讨论流行病模型时，讨论了早期警报、流行病监测和公共卫生危机决策支持的建模方法。它强调了人口层面的计算建模，包括机器学*技术，在加强抗击呼吸系统感染的卫生系统方面的重要性。作者强调了预测爆发影响、监测疾病传播和评估干预效果的重要性。

此外，马等人（2022a）讨论了在控制 COVID-19 传播中人类轨迹完成的重要性，提出了基于 Transformer 的解决方案，并使用开源人类流动数据集对其进行评估。所提出的解决方案涉及使用 Transformer 和深度学*模型来估计轨迹中的缺失元素。

同样，Li 等人（2021）提出了一种基于 Transformer 的模型，用于季节性流感爆发的长期预测。所提出的模型通过利用 Transformer 捕获长程依赖关系的能力来解决传统预测方法的局限性，并引入了基于曲线相似度测量的源选择模块，以整合空间依赖关系。

贝尔格尼奥等人（2020）开发了先进的深度学*模型，用于预测 COVID-19 大流行期间的传染性，以便进行积极的接触者追踪，介绍了积极的接触者追踪（PCT）的概念，并讨论了使用深度学*预测器在尊重隐私约束的同时局部预测个体的传染性的情况。该研究突出了基于深度学*的 PCT 方法在减少疾病传播方面的效果，相对于其他追踪方法，表明它们在*衡病毒传播和经济成本的同时保持强大隐私措施方面的潜力。

最近的研究在利用先进的深度学*技术来预测和建模 COVID-19 大流行的各个方面方面取得了显著进展（Devyatkin 等人，2021；Cui 等人，2021；Violos 等人，2022；Xu 等人，2021）。这些研究利用循环神经网络和类 Transformer 的结构、多范围编码-解码框架、自注意力模型和生成对抗网络来分析社会经济影响、预测 COVID-19 病例、预测城市地区的人类密度以及模拟人类流动轨迹。

Devyatkin 等人（2021）开发了深度神经网络模型，用于预测 COVID-19 在俄罗斯地区的社会影响，特别是关注莫斯科及其邻近地区的区域集群。这些基于循环和类 Transformer 的结构的模型利用了包括每日病例、年龄人口统计、交通可用性和医院容量在内的异质数据来源。研究表明，结合人口统计和医疗保健特征可以提高对经济影响的预测准确性，并且邻近地区的数据可以增强对医疗和经济影响的预测。总的来说，该研究强调了在大流行期间预测以解决地区间不*等的重要性。Cui 等人（2021）提出了一种用于 COVID-19 预测的多范围编码-解码框架，利用历史病例数据、人类流动模式以及报告的病例和死亡来增强预测的准确性。通过在多个暴露-感染范围中嵌入特征，并利用时间片段之间的信息传递，该模型在周和日常预测任务中超过了现有方法。消融研究证实了关键组件的有效性，展示了该模型能够在有或没有流动数据的情况下表现良好。该框架解决了不完整数据和未知疾病因素带来的挑战，为精准及时的 COVID-19 预测提供了一种有望的方法。

Violos et al. (2022) 提出了基于自注意力的编码-解码模型，用于预测城市区域的人口密度，该模型结合了深度学*方法和地理空间特征预处理。该研究通过提供对人口流动模式的洞察，增强了流行病建模中的人类流动预测，帮助分析疾病传播动态，并支持实施战略性干预措施以减缓流行病的传播。Xu et al. (2021) 提出了 DeltaGAN，一种用于合成连续时间人类流动轨迹的生成模型。DeltaGAN 捕捉真实的流动动态，而无需离散化访问时间，从而实现更准确的轨迹生成和分析。在研究 COVID-19 的传播中，其效用得到了验证，显示出与真实数据相比的人口分布小幅偏差。

时空流行病预测模型已被开发用于通过将领域知识与神经网络整合来预测流行病传播动态（Mao et al. (2023); Ma et al. (2022b)）。Mao et al. (2023) 介绍了一种名为 MPSTAN 的时空流行病预测模型，该模型将领域知识与神经网络结合，以准确预测流行病传播。该研究强调了选择合适领域知识进行预测的重要性，并提出了一种动态图结构以捕捉时间上变化的区域间相互作用。Ma et al. (2022b) 提出了一种方法，即层次时空图神经网络（HiSTGNN），用于利用大规模流动数据进行流行病预测。HiSTGNN 结合了两级神经网络架构和基于 Transformer 的模型，以层次化方式捕捉空间和时间信息。该模型在预测 COVID-19 案例数量方面优于现有基准，展示了其卓越的预测能力。该研究突出了利用流动数据进行流行病预测的重要性，并解决了现有图神经网络在捕捉流动图中的社区结构方面的局限性。

此外，像 CF-Transformer 和 MSP-STTN 这样的模型被提出用于捕捉空间-时间依赖性，以进行人群流动预测，进而贡献于流行病建模中的人类流动性预测 Choya et al. (2023)；Xie et al. (2022)。更具体地说，Choya et al. (2023) 引入了 CrowdFlowTransformer (CF-Transformer) 模型，该模型结合了 Transformer 和图卷积，以捕捉空间-时间依赖性进行人群流动预测，旨在通过考虑人群流动数据的时间和空间方面来提高预测准确性，从而应用于流行病中的人类流动性预测。Xie et al. (2022) 提出了 MSP-STTN 模型，用于短期和长期人群流动预测，重点关注基于网格的人群数据分析。MSP-STTN 通过提供对长期人群流动模式的洞察，为流行病建模中的人类流动性预测做出了贡献，有助于城市规划和交通管理。其应用扩展到超出人群流动分析的各种基于网格的预测问题，如天气预报和空气污染预测。

这些进展突显了机器学*在增强我们对疾病动态的理解以及在流行病期间为公共卫生干预提供信息中的关键作用。

4 大型语言模型在人类流动性中的应用

最近，针对高保真度人类流动性模拟和预测的大型语言模型（LLMs）开发出现了激增 Xue et al. (2022b)；Liang et al. (2023)；Wang et al. (2023c)；Zhang et al. (2023)；Tang et al. (2024)；Shao et al. (2024)；Kim et al. (2024)；Wang et al. (2024b)；Haydari et al. (2024)。这些模型在配备辅助信息的大量流动数据语料上进行训练，展示了在各种政策和疾病条件下生成合理的流动轨迹的能力。尽管有这些进展，但确保覆盖范围、透明度和现实世界流行病学应用的安全性仍然面临挑战。

进一步探索，Xue 等人 (2022b) 提出了一个管道，该管道利用语言基础模型进行人类流动性预测，通过将数值时间序列转化为句子进行预测任务。通过将语言模型与流动性提示相结合，这项研究提供了该方法在发现序列模式方面的有效性的实证证据，这对预测流行病建模场景中的人类流动性和潜在疾病传播具有重要价值。同样，Liang 等人 (2023) 探索了 LLMs 在公共事件期间预测人类流动性模式的应用（LLM-MPE）。针对将在线事件描述中的文本数据纳入流动性预测模型的挑战，LLM-MPE 将原始事件描述转化为标准化格式，并将历史流动性数据进行分段，以考虑常规和事件相关组件进行需求预测。这种方法可以通过提供有关旅行模式和事件期间潜在疾病传播动态的见解，间接为流行病建模提供信息，从而有助于开发更准确的流行病模型。

在另一项进展中，Wang 等人 (2023c) 介绍了 LLM-Mob，一个利用 LLMs 进行人类流动性预测的框架，捕捉长期和短期依赖关系，并采用包含上下文的提示。LLM-Mob 通过提供可解释的预测，为流行病建模做出贡献，强调了 LLMs 在推进人类流动性预测技术以应对流行病传播方面的潜力。

Tang 等人 (2024) 提出了一种将 LLMs 与空间优化结合的城市旅行行程规划方法。重点解决在线城市行程规划（OUIP）问题，本研究通过离线和在线实验展示了所提出系统的有效性。该方法包括使用如 GPT-3.5 和 GPT-4 的 LLMs 进行行程生成，并结合空间优化技术和基于规则的评估指标。这种方法通过基于自然语言请求高效生成个性化和连贯的行程，可以在流行病建模中对人类流动性预测做出贡献，这有助于理解和预测城市环*中流行病期间的人类移动模式。此外，通过利用 LLMs 进行行程生成和空间优化，该系统可以适应多样化的用户需求，并提供量身定制的旅行计划，这对建模和预测流行病期间人类流动性变化以便更好地进行公共卫生规划和管理具有重要价值。

最近，Shao 等人 (2024) 提出了一个名为 MobiGeaR 的方法，用于利用 LLMs 和机械重力模型生成人类移动数据。MobiGeaR 涉及利用 LLM 推理和分工协调机制来有效生成移动模式。该方法显著降低了每个轨迹的 token 成本，并通过数据增强提升了移动预测模型的准确性。MobiGeaR 方法可以通过生成高质量数据来增强稀疏数据集，从而为疫情建模中的人类移动预测做出贡献，使基于历史数据的未来轨迹预测变得可能。通过在下游移动预测任务中提供更好的增强，特别是在意图型预测方面，这种方法可以提高对疫情控制及其他需要准确移动性的应用的预测性能。

5 个挑战与局限性

尽管表现出色，Transformers 和 LLMs 在应用于疫情建模中的人类移动预测任务时仍面临若干挑战。一个主要挑战是相关数据源的可用性和质量，这可能存在偏差或错误，从而影响模型性能 Kulkarni 等人 (2019)。此外，这些先进模型的适用性不仅限于资源丰富的地区，还包括低中收入国家 (LMICs) 和资源有限的环*中电子健康记录不发达的地区 Tshimula 等人 (2023)。在这些情况下，利用机器学*技术进行人类移动预测可以显著提高对疫情的理解和管理，即使在数据和基础设施有限的情况下，也能提供有价值的见解。

在疫情背景下，掌握某一环*中移动速度和活动次数可以帮助制定适当的公共卫生策略。以一个村庄的睡眠病筛查活动为例，该村庄的流行病水*已知，且居民的主要活动是农业，移动定义为黎明和黄昏时分居住地与田间地之间的往返，如果医疗专业人员未考虑这种移动，可能会导致大量缺席者和未回应者，尽管这些人已经被计划和计算在内。

另一方面，在工业化国家的背景下，交通工具包括飞机、地铁、高速列车，并且存在大型表面和游乐园，移动速度和数量也会很高；在这种环*下，流行病的传播率与流动性直接成正比。因此，掌握这种人群的流动数据并在公共卫生背景下使用它来遏制流行病是重要的。

在低收入和中等收入国家（LMICs）实施人工智能（AI）模型面临重大挑战，主要由于在与当地数据集集成时其初始性能可能无法复现，以及缺乏监管框架 Wang et al. (2023d)。解决这一挑战对确保在 LMICs 中用于人类流动建模的 Transformers 或 LLMs 的有效性和可靠性至关重要，最终有助于提升流行病监测和当地人群的健康结果。虽然针对特定应用推荐对这些 AI 模型进行微调 Yang et al. (2023); Li et al. (2019)，但特别是在 LMICs 的背景下，计划使用当地数据集对这些模型进行交叉验证，以提高和再现模型的原始性能是至关重要的。

此外，在使用这些模型进行监测或根据模型预测做出公共卫生干预决策时，可能会出现伦理问题。因此，确保这些技术的负责任部署，尤其是在资源匮乏的地区，对于实现公*有效的流行病控制策略至关重要。

6 结论

这一新兴领域显示出通过先进的流动性预测改善流行病建模的潜力。继续在整合多模态数据流和专家知识方面取得进展，可以通过提供更真实的人类移动动态模型，在危机期间显著增强公共卫生决策。然而，进一步的工作对于克服现有局限性和确保 LLMs 的负责任部署仍然是必要的。

成功在 LMICs 中实施 Transformers 或 LLMs 模型需要仔细考虑模型在当地环*中的适用性，并对训练和验证数据集进行调整。在 LMICs 中实施这些 AI 模型的范围在于开发更具上下文适应性的模型，整合当地数据集，并促进合作以提高性能和可重复性。

未来的研究工作应优先考虑在不同地理和社会经济背景下提升模型的通用性。此外，还应将努力方向集中在将这些先进建模技术适应于资源受限的环*，特别是低收入和中等收入国家（LMICs），这些国家可能面临数据和计算资源有限的挑战。这包括探索在 LMICs 收集和处理人类流动数据的创新方法，以及调整大规模语言模型以适应不同的社会文化背景。

解决这些挑战对于确保基于机器学*的方法在流行病建模和全球公共卫生决策中的广泛适用性和影响至关重要。这将有助于在全球范围内制定更公*和有效的流行病应对策略。

致谢

作者感谢所有 Greprovad 成员对早期草稿的有益讨论和评论。

参考文献

Aragão et al. (2023) D. P. Aragão, A. G. d. S. Junior, A. Mondini, C. Distante, 和 L. M. G. Gonçalves. 2023. 巴西阿拉拉夸拉的 Covid-19 模式：一种多模态分析。国际环*研究与公共卫生杂志, 20(6):4740。
Bengio et al. (2020) Y. Bengio, P. Gupta, T. Maharaj, N. Rahaman, M. Weiss, T. Deleu, E. Muller, M. Qu, V. Schmidt, P. St-Charles, 等. 2020. 预测传染性以进行主动接触追踪。arXiv 预印本 arXiv:2010.12536。
Botz et al. (2022) J. Botz, D. Wang, N. Lambert, N. Wagner, M. Génin, E. Thommes, S. Madan, L. Coudeville, 和 H. Fröhlich. 2022. 针对流行病情况的早期预警和监测以及决策支持的建模方法。公共卫生前沿, 10:994949。
Chen et al. (2023) J. Chen, X. Shi, H. Zhang, W. Li, P. Li, Y. Yao, S. Miyazawa, X. Song, 和 R. Shibasaki. 2023. Mobcovid：城市热点人群的确诊病例动态驱动的时间序列预测。IEEE 神经网络与学*系统汇刊。
Choya et al. (2023) T. Choya, N. Tamura, S. Katayama, K. Urano, T. Yonezawa, 和 N. Kawaguchi. 2023. Crowdflowtransformer：捕捉空间-时间依赖以预测人类流动。在 2023 IEEE 国际普适计算与通信研讨会及相关活动（PerCom 研讨会），第 496–501 页。IEEE。
Crivellari et al. (2022) A. Crivellari, B. Resch, 和 Y. Shi. 2022. Tracebert—通过对离散位置序列进行 BERT 训练过程重建空间-时间缺口的可行性研究。传感器。
Cui et al. (2021) Y. Cui, C. Zhu, G. Ye, Z. Wang, 和 K. Zheng. 2021. 进入不可观测领域：一种多范围编码器-解码器框架用于 Covid-19 预测。在 第 30 届 ACM 国际信息与知识管理会议论文集，第 292–301 页。
Devlin 等人（2018）J. Devlin、M.W. Chang、K. Lee 和 K. Toutanova。2018 年。BERT：用于语言理解的深度双向变换器预训练。arXiv preprint arXiv:1810.04805。
Devyatkin 等人（2021）D. Devyatkin、Y. Otmakhova 和 N. Usenko。2021 年。预测 COVID-19 扩散的社会经济影响及俄罗斯地区的区域差异。见于 E3S Web of Conferences，第 301 卷，第 02002 页。EDP Sciences。
Ebrahimpour 等人（2020）Z. Ebrahimpour、W. Wan、J.L. Velázquez García、O. Cervantes 和 L. Hou。2020 年。使用大规模社交媒体数据分析社会地理人类移动模式。ISPRS International Journal of Geo-Information，9(2):125。
Haydari 等人（2024）A. Haydari、D. Chen、Z. Lai 和 C.-. Chuah。2024 年。 Mobilitygpt: 使用 GPT 模型增强的人类移动建模。arXiv.org。
Hong 等人（2022）Y. Hong、H. Martin 和 M. Raubal。2022 年。你如何去到哪里？通过使用变换器学*旅行模式信息来改进下一个位置预测。见于 Proceedings of the 30th International Conference on Advances in Geographic Information Systems，第 1–10 页。
Isaacman 等人（2012）S. Isaacman、R. Becker、R. Cáceres、M. Martonosi、J. Rowland、A. Varshavsky 和 W. Willinger。2012 年。大都市规模的人类移动建模。见于 Proc. of the 10th international conference on Mobile systems, applications, and services，第 239–252 页。
Kim 等人（2024）Y. Kim、X. Xu、D. McDuff、Cy. Breazeal 和 H.W. Park。2024 年。Health-llm: 通过可穿戴传感器数据进行健康预测的大型语言模型。arXiv preprint arXiv:2401.06866。
Kobayashi 等人（2023）A. Kobayashi、N. Takeda、Y. Yamazaki 和 D. Kamisaka。2023 年。使用带有日编码的变换器建模和生成人类移动轨迹。见于 Proc. of the 1st International Workshop on the Human Mobility Prediction Challenge，第 7–10 页。
Kulkarni 等人（2019）V. Kulkarni、A. Mahalunkar、B. Garbinato 和 J. D. Kelleher。2019 年。探讨人类移动性的可预测性极限。Entropy，21(4):432。
Li 等人（2019）F. Li、Y. Jin、W. Liu、B.P.S. Rawat、P. Cai、H. Yu 等。2019 年。对大规模电子健康记录笔记进行双向编码器表示模型（BERT）微调：一项实证研究。JMIR medical informatics，7(3):e14830。
Li 等人（2021）L. Li、Y. Jiang 和 B. Huang。2021 年。使用基于变换器的模型对季节性流感的长期预测。Journal of biomedical informatics，122:103894。
Li 等人（2022）Y. Li、Y. Wang 和 K. Ma。2022 年。结合变换器和 GCN 进行 COVID-19 预测。Sustainability。
Liang 等人（2023）Y. Liang、Y. Liu、X. Wang 和 Z. Zhao。2023 年。探索大型语言模型在公共事件下的人类移动预测。arXiv preprint arXiv:2311.17351。
Luca et al. (2021) M. Luca, G. Barlacchi, B. Lepri, 和 L. Pappalardo. 2021. 人类流动性的深度学*调查。ACM Computing Surveys (CSUR), 55(1):1–44。
Ma et al. (2022a) J. Ma, C. Yang, S. Mao, J. Zhang, S. C. G. Periaswamy, 和 J. Patton. 2022a. 使用变换器进行人类轨迹补全。见 ICC 2022-IEEE 国际通信会议, 页 3346–3351。
Ma et al. (2022b) Y. Ma, P. Gerard, Y. Tian, Z. Guo, 和 N. V. Chawla. 2022b. 用于疫情预测的层次时空图神经网络。见 第 31 届 ACM CIKM 会议论文集, 页 1481–1490。
Mai et al. (2022) S. T. Mai, H. T. Phi, A. Abubakar, P. Kilpatrick, H. Q. V. Nguyen, 和 H. Vandierendonck. 2022. 登革热: 从极端气候到疫情预测。见 2022 IEEE ICDM, 页 1083–1088。IEEE。
Mao et al. (2023) J. Mao, Y. Han, 和 B. Wang. 2023. Mpstan: 基于元人口的时空注意网络用于流行病预测。arXiv 预印本 arXiv:2306.12436。
Osawa et al. (2021) R. Osawa, K. Suekane, R. Nakamura, A. Inagaki, T. Takagi, 和 I. Munemasa. 2021. 考虑类别和区域之间相互关系的变换器预测人类行为。Multimedia Information Processing and Retrieval 会议。
Rahman et al. (2021) M. M. Rahman, K. C. Paul, M. A. Hossain, G. M. N. Ali, M. S. Rahman, 和 J.-C. Thill. 2021. 关于新冠疫情、人类流动性和空气质量的机器学*综述。IEEE Access, 9:72420–72450。
Ren et al. (2023) J. Ren, M. Liu, Y. Liu, 和 J. Liu. 2023. Transcode: 通过深度学*揭示新冠疫情传播模式。Infectious Diseases of Poverty, 12(1):1–20。
Shao et al. (2024) C. Shao, F. Xu, B. Fan, J. Ding, Y. Yuan, M. Wang, 和 Y. Li. 2024. 超越模仿: 从上下文感知推理中生成大型语言模型的人类流动性。arXiv 预印本 arXiv:2402.09836。
Shen et al. (2023) T. Shen, Y. Li, 和 J. M. F. Moura. 2023. 预测新冠疫情动态: 聚类、广义时空注意和流动性及地理接近性的影响。见 2023 IEEE ICDE, 页 2892–2904。IEEE。
Sobral et al. (2020) T. Sobral, T. Galvão, 和 J. Borges. 2020. 一种基于本体的知识辅助城市流动数据集成和可视化的方法。Expert Systems with Applications, 150:113260。
Solatorio (2023) A. V. Solatorio. 2023. Geoformer: 使用生成预训练变换器 (gpt) 预测人类流动性。HuMob-Challenge@SIGSPATIAL。
Tang et al. (2024) Y. Tang, Z. Wang, A. Qu, Y. Yan, K. Hou, D. Zhuang, X. Guo, J. Zhao, Z. Zhao, 和 W. Ma. 2024. 将空间优化与大型语言模型结合用于开放域城市行程规划。arXiv 预印本 arXiv:2402.07204。
Tedjopurnomo et al. (2023) D. A. Tedjopurnomo, F. M. Choudhury, 和 A. K. Qin. 2023. Trafformer: 一种用于预测长期交通的变压器模型。arXiv.org。
Terashima et al. (2023) H. Terashima, N. Tamura, K. Shoji, S. Katayama, K. Urano, T. Yonezawa, 和 N. Kawaguchi. 2023. 人类移动预测挑战：使用时空 BERT 的下一个位置预测。在 第 1 届人类移动预测挑战国际研讨会论文集，第 1–6 页。
Trivedi et al. (2021) A. Trivedi, K. Silverstein, E. Strubell, P. Shenoy, 和 M. Iyyer. 2021. Wifimod: 基于变压器的室内人类移动建模使用被动传感。The Compass。
Tshimula et al. (2023) J.M. Tshimula, D. K. Nkashama, K. Kalala, M. V. Dialufuma, M. Mukendi Didier, H. Kanda, J. Tshibangu Muabila, 和 C. N. Mayemba. 2023. 重新设计电子健康记录系统以支持发展中国家。在 2023 年第 7 届国际医学与健康信息学会议论文集，第 216–221 页。
Vaswani et al. (2017) A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A.N. Gomez, Ł. Kaiser, 和 I. Polosukhin. 2017. 注意力即是你所需的一切。神经信息处理系统进展，30。
Violos et al. (2022) J. Violos, T. Theodoropoulos, A.-C. Maroudis, A. Leivadeas, 和 K. Tserpes. 2022. 基于自注意力的编码器-解码器用于多步骤人类密度预测。城市移动性杂志，2:100022。
Wang et al. (2023a) B. Wang, M. Zhang, P. Ding, T. Yang, Y. Jin, 和 Y. Xu. 2023a. 通过使用孪生变压器网络的人类移动轨迹进行用户再识别。Applied intelligence (Boston)。
Wang et al. (2023b) H. Wang, C. Gao, Y. Wu, D. Jin, L. Yao, 和 Y. Li. 2023b. Pategail：一种通过模仿学*的隐私保护移动轨迹生成器。在 AAAI 人工智能会议论文集，第 37 卷，第 14539–14547 页。
Wang et al. (2024a) J. Wang, R. Jiang, C. Yang, Z. Wu, M. Onizuka, R. Shibasaki, 和 C. Xiao. 2024a. 大型语言模型作为城市居民：个人移动生成的 LLM 代理框架。arXiv 预印本 arXiv:2402.14744。
Wang and Osaragi (2024) W. Wang 和 T. Osaragi. 2024. 使用基于变压器的模型学*日常人类移动。ISPRS 国际地理信息学杂志，13(2):35。
Wang et al. (2023c) X. Wang, M. Fang, Z. Zeng, 和 T. Cheng. 2023c. 我接下来会去哪儿？大型语言模型作为人类移动预测器。arXiv 预印本 arXiv:2308.15197。
Wang et al. (2023d) X. Wang, H.M. Sanders, Y. Liu, K. Seang, B.X. Tran, A.G. Atanasov, Y. Qiu, S. Tang, J. Car, Y.X. Wang, 等. 2023d. ChatGPT: 在低收入和中等收入国家部署的前景和挑战。The Lancet Regional Health–Western Pacific，41。
Wang et al. (2024b) Y. Wang, T. Zheng, Y. Liang, S. Liu, 和 M. Song. 2024b. Cola: 跨城市移动变换器用于人类轨迹模拟。arXiv 预印本 arXiv:2403.01801。
Xie et al. (2022) Y. Xie, J. Niu, Y. Zhang, 和 F. Ren. 2022. 多尺寸补丁空间-时间变换器网络用于短期和长期人群流动预测。IEEE 智能运输系统汇刊，23(11):21548–21568。
Xu et al. (2021) N. Xu, L. Trinh, S. Rambhatla, Z. Zeng, J. Chen, S. Assefa, 和 Y. Liu. 2021. 模拟连续时间人类移动轨迹。见 第 9 届国际学*表征会议论文集，页 1–9。
Xu et al. (2023) P. Xu, X. Zhu, 和 D.A. Clifton. 2023. 多模态学*与变换器: 综述。IEEE 模式分析与机器智能汇刊。
Xue et al. (2021) H. Xue, F. Salim, Y. Ren, 和 N. Oliver. 2021. Mobtcast: 利用辅助轨迹预测进行人类移动预测。神经信息处理系统进展，34:30380–30391。
Xue et al. (2022a) H. Xue, F. D. Salim, Y. Ren, 和 C. L. A. Clarke. 2022a. 通过自然语言生成转换人类移动预测。见 第十五届 ACM 国际网络搜索与数据挖掘会议论文集，页 1224–1233。
Xue et al. (2022b) H. Xue, B. P. Voutharoja, 和 F. D. Salim. 2022b. 利用语言基础模型进行人类移动预测。见 第 30 届地理信息系统进展国际会议论文集，页 1–9。
Yang et al. (2023) J. Yang, H. Jin, R. Tang, X. Han, Q. Feng, H. Jiang, S. Zhong, B. Yin, 和 X. Hu. 2023. 实践中利用大型语言模型的力量: 关于 ChatGPT 及其他的综述。ACM 数据知识发现汇刊。
Zhang et al. (2023) Q. Zhang, H. Amiri, Z. Liu, A. Züfle, 和 L. Zhao. 2023. 大型语言模型在空间轨迹模式挖掘中的应用。arXiv.org。

生成于 2024 年 4 月 25 日星期四 17:47:04 由 LaTeXML

有用 LLM 评估的调查

来源：arxiv.org/html/2406.00936

有用的 LLM 评估调查

彭吉伦^∗ 程思佳^∗ 邓艾吉^∗ 施永瑜^∗

陈博恒^∗ 林彦廷陈云农

台湾大学，台北，台湾

{b09207002, r11922184, r12922a03, r12944007, r11922044}@ntu.edu.tw

{ytl, y.v.chen}ieee.org

摘要

大型语言模型（LLMs）因其在各种复杂任务中的卓越表现而引起了各个研究领域的关注。因此，需要精细的方法来评估 LLMs 的能力，以确定它们应承担的任务和责任。我们的研究主要讨论了如何有效评估 LLMs 作为有用工具。我们提出了一个两阶段框架：从“核心能力”到“代理”，清楚地解释了 LLMs 如何基于其特定能力进行应用，并说明了每个阶段的评估方法。核心能力指的是 LLMs 为生成高质量自然语言文本所需的能力。在确认 LLMs 具备核心能力后，它们可以作为代理解决现实世界中的复杂任务。在“核心能力”阶段，我们讨论了 LLMs 的推理能力、社会影响和领域知识。在“代理”阶段，我们展示了 LLMs 代理应用的具体行动、规划和工具学*。最后，我们审视了当前评估 LLMs 方法面临的挑战以及未来的发展方向。¹¹1github.com/MiuLab/EvalLLM-Survey ^**脚注：同等贡献。

有用的 LLM 评估调查

彭吉伦^∗ 程思佳^∗ 邓艾吉^∗ 施永瑜^∗ 陈博恒^∗ 林彦廷陈云农台湾大学，台北，台湾 {b09207002, r11922184, r12922a03, r12944007, r11922044}@ntu.edu.tw {ytl, y.v.chen}ieee.org

1 引言

图 1：我们 LLM 评估的两阶段框架。

1.1 人工智能与大型语言模型

人工智能（AI）模拟人类行为以完成多个需要人类智能的任务。最初的 AI 模型试图通过前馈和简单的输入输出函数模拟单个神经元的功能 Muthukrishnan et al. (2020)。随着时间的推移，各种机器学*（ML）和深度学*（DL）模型已经被开发出来。它们不仅能够从大量数据中识别模式，还能够进行预测，甚至处理诸如文本、图像和音频等非结构化数据。最近，Transformer 架构 Vaswani et al. (2017) 的提出，使得词嵌入能够依赖于上下文，并且模型训练可以扩大规模 Min et al. (2023)。因此，研究人员逐渐增加了预训练语言模型中的参数，以期达到更好的性能。以生成预训练变换器（GPT）系列为例，模型复杂度和能力的进步标志着参数数量的显著增加：GPT-1 Radford et al. (2018) 具有 1.17 亿个参数，GPT-2 Radford et al. (2019) 将其扩展到 15 亿个参数，而 GPT-3 Mann et al. (2020) 更是增加到 1750 亿个参数。此外，OpenAI 发布的 GPT-4 模型具有更大的模型规模，可以接受图像和文本输入并产生文本输出，并在各种专业和学术基准测试中展现了接近人类的表现 Achiam et al. (2023)。上述模型由于其巨大的规模，被称为 LLMs。由于在广泛复杂任务上的卓越表现，它们在各种研究领域引起了关注。

1.2 为什么评估 LLMs 很重要

早期对模型智能进行测试的工作称为图灵测试，提出了机器是否能够模仿人类智能的问题，并使人们无法区分 Pinar Saygin 等人（2000）。评估人工智能至关重要，因为它帮助我们衡量人工智能系统的实际能力和限制。随着人工智能技术的进步，特别是在软件测试和结构工程等领域，它们有时能表现得比人类更好。然而，我们需要明确的基准，以确保这些技术既可靠又有效（Salehi 和 Burgueño 2018）。随着 LLMs 的快速发展，需要细化的方法来评估 LLMs 的能力，以确定它们应该承担的任务和责任。因为 LLMs 表现出超越特定任务的广泛能力，例如预测人类编写文本的下一个单词（Nolfi 2023），如正式的语言能力（Mahowald et al. 2023），事实知识（Petroni et al. 2019），甚至是心智理论技能（Kosinski 2023），我们应该设计特定于每个任务或领域的基准或评估方法。在当前的基准中，LLMs 的综合能力通过涵盖多个领域的任务自动进行评估，例如 HELM（Liang et al. 2022）和 BIG-Bench（Srivastava et al. 2022），或者通过像 AlpacaFarm（Dubois et al. 2024）和 MT-bench（Zheng et al. 2024）这样的自动生成的人类反馈。然而，当 LLMs 被要求执行特定任务时，存在针对这些任务量身定制的评估方法的可能性。这允许在相同任务下比较不同模型的能力，以选择表现最佳的模型。在本研究中，我们对 LLMs 的不同能力进行了分类，系统地回顾了每个类别下现有的评估方法，并讨论了作为“有用”工具的 LLMs 应如何有效地进行评估。

1.3 有用 LLMs 的路线图

为了确定大语言模型（LLMs）是否能够成为有用的工具，我们应该将 LLMs 的能力分为“核心能力”和“代理”，并分别讨论它们。核心能力指的是 LLMs 生成高质量自然语言文本所需的能力，这是执行复杂行为的基础。

首先，LLMs 必须具备推理能力，因为在与人类互动时，它们需要逐步推导论点以进行有效讨论。此外，LLMs 的社会影响需要引起重大关注，因为 LLMs 必须被视为安全且值得信赖的，才能让人类相信并积极使用它们。最后，LLMs 应具备跨领域的知识，它们可以帮助人类解决各种领域的问题。

在确认 LLMs 具备这些核心能力后，我们可以利用 LLMs 执行复杂行为以处理现实世界中的问题，我们将其定义为代理。例如，LLMs 代理可以进行规划，生成明确的思考过程，通过预测预期结果来选择和组织行动 Ghallab et al. (2004)。然后，LLMs 代理可以在各种场景中解决任务，如使用工具、创建工具、导航具身机器人等。

尽管 LLMs 可以展示上述能力，但仍需全面的评估方法以确保 LLMs 在执行每个任务时达到令人满意的水*。现有关于 LLMs 评估方法的文献，包括 Guo et al. (2023) 和 Chang et al. (2023)，提供了对 LLMs 各个方面评估方法的全面回顾，但尚无研究提供阶段性框架来探讨 LLMs 的可用性。因此，本文提出了一个两阶段框架，以检验 LLMs 是否足够有用 (Figure 1)。

1.4 研究概述

在本研究中，我们首先介绍了 LLMs 核心能力的评估方法 (Figure 2)，包括推理（5 个子章节）、社会影响（2 个子章节）和领域知识（5 个子章节）。然后，对于 LLMs 代理 (Figure 3)，我们介绍了 LLMs 代理应用的评估方法，包括规划、应用场景（7 个子章节）和基准。在这些子章节中，我们介绍了 LLMs 的应用、评估方法和数据集。最后，我们提出了对 LLMs 可用性的观点，并建议了未来的方向和挑战。

本文的贡献如下：

(1)

我们提供了一个两阶段框架：从核心能力到代理，以检验 LLMs 是否足够有用。
(2)

在每一节中，我们阐明了 LLM 在特定能力方面的应用及其评估方法。此外，我们还提供了对 LLM 在这些领域当前表现水*的分析。
(3)

我们审视了当前在评估方法中面临的挑战，以及未来发展的方向。

2 核心能力评估

{森林}

对于树=生长=东，反转=true，锚点=基础西，父锚点=东，子锚点=西，基础=左，字体=，矩形，绘制，圆角，左对齐，内部 xsep=4pt，内部 ysep=1pt，，其中级别=1 字体=，填充=粉色!50，其中级别=2 字体=，填充=绿色!10，其中级别=3 字体=，填充=灰色!20，[核心能力评估

(第2 节),填充=黄色!20,字体=[推理

(第2.1 节) [逻辑推理 [Weston et al. (2015), Bhagavatula et al. (2019)] ] [数学推理 [Cobbe et al. (2021), Hendrycks et al. (2021)] ] [常识推理 [Talmor et al. (2018), Mihaylov et al. (2018)] ] [多跳推理 [Geva et al. (2021), Yang et al. (2018)] ] [结构化数据推理 [Chen et al. (2020), Zhang et al. (2018)] ] ] [社会影响

(第2.2 节) [安全性[Lin et al. (2023), Kim et al. (2024b), Yuan et al. (2024), Scherrer et al. (2023)] ] [真实性 [Jiang et al. (2024), Zhang et al. (2024b), Hort et al. (2021), Zhang et al. (2023)] ] ] [领域知识

（第2.3节）[金融 [Wu et al. (2023), Xie et al. (2023), Li et al. (2023b)] ] [立法 [Blair-Stanek et al. (2023), Engel and Mcadams (2024), Liga and Robaldo (2023), Deroy et al. (2023) ] ] [心理学 [Lu et al. (2024), Demszky et al. (2023), Demszky et al. (2023) ] ] [医学 [Agrawal et al. (2022), Sharma and Thakur (2023), Benoit (2023), Kumar (2023), Thirunavukarasu et al. (2023) ] ] [教育 [Abdelghani et al. (2023), Jia et al. (2021), Menick et al. (2022), Dijkstra et al. (2022), Kasneci et al. (2023) ] ] ] ]

图 2：核心能力评估概览。

对 LLMs 核心能力的评估彻底检查了其在三个基本维度上的语言能力：推理、社会影响和领域特定知识。这一基本评估强调了 LLMs 在2.1部分复杂认知推理过程中的能力，强调其在2.2部分对真实性和安全标准的承诺，以及在2.3部分在应用广泛领域知识方面的娴熟程度。

通过确认大规模语言模型（LLMs）具备这些核心能力，我们认识到这些技能有可能发展成更复杂的行为。这一发展突显了 LLMs 作为先进应用工具的适应性和可扩展性，表明未来的重点将是进一步增强这些基础能力。

2.1 推理

推理能力使得人类和机器都能做出有根据的决策，得出逻辑结论，并熟练解决问题。近期的研究 (Huang and Chang, 2023; Sun et al., 2024) 越来越强调在大语言模型中增强推理能力，旨在达到甚至超越人类水*的推理能力，特别是在专业领域。在本节中，我们将关注评估大语言模型的各种推理能力。推理任务可以分为以下几类：逻辑推理、数学推理、常识推理、多跳推理和结构化数据推理。

2.1.1 逻辑推理

类型	示例来源	输入	答案
演绎推理	bAbI-15 (Weston et al., 2015)	羊怕狼。猫怕狗。老鼠怕猫。格特鲁德是一只羊。格特鲁德怕什么？	狼
演绎推理	bAbI-16 (Weston et al., 2015)	莉莉是一只天鹅。莉莉是白色的。伯恩哈德是绿色的。格雷格是一只天鹅。格雷格是什么颜色的？	白色
归纳推理	$\alpha$-NLI (Bhagavatula et al., 2019)	观察 1：我走进了我的数学课。观察 2：我失败了。假设 1：我看到门旁的绳子。假设 2：我没有为考试复*。	假设 2

表 1：不同类型逻辑推理的示例。

基于哲学和逻辑学的概念，逻辑推理可以进一步分为三种类型：1) 归纳推理涉及基于特定实例中的观察模式或规律推断一般结论。bAbI-15 (Weston et al., 2015) 和 EntailmentBank (Dalvi et al., 2021) 是常见的归纳推理基准。2) 演绎推理是根据已知前提和逻辑规则得出必要结论的过程。bAbI-16 (Weston et al., 2015) 是测试演绎推理的常见基准。3) 归纳推理是一种基于给定观察和已知信息推断可能解释或假设的推理形式。$\alpha$-NLI、$\alpha$-NLG (Bhagavatula et al., 2019) 和 AbductiveRules (Young et al., 2022) 是几个归纳推理的基准。表 1 显示了每种类型的逻辑推理任务的几个示例。

Xu et al. (2023a)对包括 text-davinci-003、ChatGPT 和 BARD 在内的几种 LLM 的逻辑推理进行了全面研究。他们发现 BARD 在这三种模型中表现最好，而 ChatGPT 在演绎和归纳设置中表现较差。此外，他们还显示了 ChatGPT 在生成任务中表现不足，因为它是为聊天而定制的。Han et al. (2023)和 Liu et al. (2023)在他们的评估中包括了 GPT-4，发现其在某些场景中的表现质上与人类相匹配。

2.1.2 数学推理

数学推理需要模型来理解和操作不同场景中的数学概念。例如，问题可能要求模型执行算术运算并操作抽象符号以获得准确的数值结果。著名的例子包括 GSM8K (Cobbe et al., 2021)和 MATH (Hendrycks et al., 2021)。

Stolfo et al. (2023)发现，与非指令调整模型相比，经过指令调整的 LLM 在数学问题的敏感性和鲁棒性方面有显著提高。Yuan et al. (2023)比较了 13 个模型在每种操作类型上的算术能力，发现 GPT-4 是唯一在每种操作中都表现优异的模型。

2.1.3 常识推理

常识推理涉及理解和应用关于世界的基本知识的能力。这对于机器达到与人类认知相当的理解和互动水*至关重要。此外，常识认知在各种推理过程中，如因果检测、空间和时间理解等，具有关键作用。通常，常识推理任务被构建为选择题或判断对错的问题，其中包含需要模型应用常识知识回答的问题。例如，问题可能会问“你在结账前把葡萄放在哪里？”，模型应该选择正确的答案，即“购物车”。CommonsenseQA (Talmor et al., 2018)包含具有复杂语义的问题，需要先验知识才能回答。类似地，OpenBookQA (Mihaylov et al., 2018)包含设计用于评估对基本科学事实及其在新场景中应用的理解的基础级问题。

Bang 等人 (2023) 显示 ChatGPT 在多个常识基准测试中具有常识推理能力，这些测试涉及一般知识（Talmor 等人，2018）和物理概念（Bisk 等人，2020；Wang 等人，2018）。Bian 等人 (2024) 显示，指令调优模型在多个常识问答数据集上表现优越，包括 CommonsenseQA（Talmor 等人，2018）和 OpenBookQA（Mihaylov 等人，2018），这表明常识能力可以通过人类对齐得到提升。

2.1.4 多跳推理

多跳推理任务要求模型进行顺序推理步骤以得出答案。它作为一个突出的评估方法，用于评估 LLMs 分析问题并通过逐步分解过程解决问题的能力，这类似于人类水*的能力。这个过程可以视为多种推理能力的融合，因为每一步可能需要应用之前讨论的一个或多个推理任务。例如，问题可能是“‘星际穿越’的导演出生在巴黎吗？”在这种情况下，模型必须首先确定电影的导演，然后确定他们的出生地。StrategyQA（Geva 等人，2021）要求模型生成若干隐含推理步骤，以制定出最终决策所需的策略。HotpotQA（Yang 等人，2018）需要查找和推理多个支持性文档来形成响应。其问题多样，并不受限于任何预先存在的知识库。HoVer（Jiang 等人，2020）要求模型从多个相关的 Wikipedia 文章中收集事实，以判断这些事实是否支持声明。

Zheng 等人 (2023b) 发现 ChatGPT 在 HotpotQA 上无法提供可靠和准确的答案。他们进一步分析指出，这种失败可能源于多种因素，其中事实正确性是最关键的。针对这个问题，他们强调了知识记忆和回忆对大型语言模型（LLMs）的重要性。

2.1.5 结构化数据推理

前述的推理任务主要集中在涉及纯文本数据的场景。相比之下，结构化数据，如表格、知识图谱和数据库等特定格式的数据，对机器理解和推理提出了更大的挑战。要进行结构化数据推理，模型必须能够理解数据的格式，分析其中包含的信息，并生成与数据相关的问题的答案。

HybridQA (Chen 等人，2020) 集成了与维基百科表格对齐的问题和多个与表格中的实体相关的自由格式语料库。该模型需要汇总表格和文本信息以生成答案。MetaQA (Zhang 等人，2018) 包含电影领域中的问答对，并提供了一个知识图谱 (KG) 以促进信息检索。模型需要在 KG 上进行多跳推理，并处理 KG 实体与问题之间的潜在不匹配，以得出答案。Spider Realistic (Deng 等人，2020) 提供了一个基于 SQL 的 QA 数据集，要求模型进行文本到 SQL 的生成。具体而言，模型必须准确识别对列和值的文本引用，并将其映射到提供的数据库模式中。

Gao 等人，2023 对多种 LLM 进行了全面的文本到 SQL 任务研究，使用了各种提示工程方法。此外，他们还对开源模型进行了微调实验。然而，他们的发现表明，即使在微调之后，这些模型的表现仍然落后于通过零-shot 评估的专有模型。

2.2 社会影响

LLM 已成为现代社会的重要元素，显著影响了各个领域。凭借其在文本生成和理解方面的显著能力，LLM 正在重新塑造我们与信息的互动。因此，理解 LLM 的影响至关重要。通过探索这些维度，我们旨在理解 LLM 的更广泛的社会影响。我们的目标是将复杂的概念简化为易于理解的见解，提升我们评估 LLM 的能力。本讨论探讨了 LLM 的社会影响，重点关注两个关键方面：安全性和可信赖性。通过探索这些维度，我们旨在理解 LLM 的更广泛的社会影响。

2.2.1 安全性

在本节中，我们探讨了保护用户在与 LLM 互动时所需的基本安全机制。确保这些模型仅生成安全内容至关重要，Oviedo-Trespalacios 等人（2023）发现 ChatGPT 有时会发表不正确或有害的陈述，强调了专家验证的必要性。我们通过将安全问题分类为三个主要领域来解决这些问题：本节探讨了与 LLM 安全性相关的基本问题，包括内容安全、安全性和伦理考虑。

内容安全

随着 LLM 和生成型 AI 的普及，相关的内容安全风险也在增加。基准测试提供了这些风险的关键见解。ToxicChat Lin 等人（2023），基于来自开源聊天机器人的真实用户查询，强调了检测用户-AI 对话中毒性的独特挑战。Open AI Moderation Dataset Markov 等人（2023）提供了识别现实世界应用中不良内容的全面方法。

AEGISSAFETYDATASET Ghosh 等人（2024），包含约 26,000 个由人类注释的人工-LLM 互动实例，加深了对内容安全问题的理解。AI Safety Benchmark v0.5 Vidgen 等人（2024），由 MLCommons AI Safety Working Group 创建，专注于评估 LLM 的安全性。SALAD-Bench Li 等人（2024a），旨在评估 LLM，包括对攻击和防御方法的评估。SafetyBench（Scherrer 等人，2023），是一个全面的 LLM 安全评估基准，包含 11,435 个涵盖七个不同安全类别的多项选择题。CValues（Xu 等人，2023b），是第一个中文人类价值观评估基准，用于衡量 LLM 在安全性和责任标准方面的对齐能力。KCDD（Kim 等人，2024a）包含 22,249 个由众包工人生成的对话，旨在模拟离线场景。该数据集将对话分类为四个符合国际法律标准的犯罪类别。BeaverTails（Ji 等人，2023）引入了一种新颖的“QA moderation”策略，以测试模型的安全对齐性，提供了与传统内容审核方法不同的全新视角。

此外，确保大型语言模型（LLMs）不会生成未成年人可接触的成人内容是至关重要的（Cifuentes et al., 2022; Karamizadeh et al., 2023），同时要减少可能影响儿童的有害内容，确保输出内容不会鼓励非法活动（Nayerifard et al., 2023; Casino et al., 2022），并避免生成可能煽动暴力的内容。在这一部分，基准测试和数据集在评估 LLMs 的安全对齐方面发挥着至关重要的作用。通过提供突出有害或不适当内容的标注数据，这些资源使研究人员能够开发和完善内容审查和安全执行的算法。

安全

本节回顾了一系列关注提升数据隐私实践和增强 LLMs 对抗对抗性威胁的文献。Staab et al. (2023) 讨论了 LLMs 从看似无害的文本输入中推断个人属性（如位置、收入和性别）的能力，使用从实际 Reddit 资料中得出的数据集来展示显著的隐私风险。讨论延续到 Kim et al. (2024b) 介绍的 ProPILE，这是一种探测工具，使数据主体能够检测基于 LLMs 的服务中可能的个人身份信息泄露。Das et al. (2024) 深入研究了这些漏洞，强调了对改进安全协议和探索有效防御的迫切需求，而 Yan et al. (2024a) 则重点澄清了与 LLMs 相关的数据隐私问题。此外，Carlini et al. (2023) 和 Yao et al. (2024) 强调了 LLMs 所带来的显著隐私风险，特别是它们倾向于逐字记忆和重现训练数据的部分内容。

关于对抗攻击的弹性，Yip 等人 (2024) 引入了一个框架，该框架利用创新技术量化应用程序对提示注入攻击的弹性，以进行稳健且可互操作的评估。Liu 等人 (2024b)；Jin 等人 (2024) 均提出了使用基于梯度的方法来增强对大型语言模型（LLM）对抗弹性的评估。这些方法强调了向更复杂和可靠的对抗威胁评估的关键转变。RigorLLM Yuan 等人 (2024)，一个使用如基于能量的数据生成和极小极大优化等技术的框架，以增强有害内容的审查和提高对复杂对抗攻击的弹性。InjecAgent Zhan 等人 (2024)，一个专门设计用于评估工具集成型 LLM 代理对间接提示注入攻击的脆弱性的基准，显示了常用 LLM 代理的显著易受攻击性。

伦理考虑

在医学伦理 Balas 等人 (2024) 和道德决策 Scherrer 等人 (2023) 等敏感领域的伦理评估是具有挑战性的。这些研究对于提升 LLM 的伦理功能至关重要，确保其在实际应用中的负责任使用。在接下来的部分中，我们将介绍一些现有研究，这些研究涉及 LLM 评估中的伦理考虑及其改善伦理标准的方法。

Sorensen 等人 (2024) 强调了决策中的价值多元主义。他们介绍了 ValuePrism，这是一个包含 218k 个价值观、权利和义务的数据集，关联到 31k 个人工编写的情*，用于构建 Value Kaleidoscope（Kaleido），一个解释和评估人类价值观的模型。Kaleido 的输出被优于 GPT-4，显示出更高的准确性和更广泛的覆盖面。Duan 等人 (2024) 使用道德基础理论探索 LLM 的伦理价值，提出了 DeNEVIL，一种揭示价值倾向的提示生成算法。他们创建了 MoralPrompt，一个包含 2,397 个提示的数据集，并基准测试了 LLM 的内在价值，发现许多模型存在偏差。他们开发了 VILMO，一种提升价值一致性的对齐方法，适用于黑箱模型和开源模型。在 MoralChoice 数据集中，Scherrer 等人 (2023) 介绍了一个道德困*的例子，其中的情*是受访者是一名司机，正驶近一名过马路的行人。可能的回应包括：（1）减速并等待行人，这反映了一种负责任且伦理的决策；（2）加速撞击行人，这代表了一种不负责任且不伦理的选择。这个困*展示了用于评估现实环*中伦理行为的决策情*类型。

Scherrer 等人 (2023) 介绍了一种新颖的统计方法，用于检查 LLM 的道德信念，并量化 LLM 在各种道德情*下做出决策的可能性，分析了它们在 680 个高模糊性和 687 个低模糊性困*中的回应。研究结果表明，LLM 在简单情*中通常与常识一致，但在更模糊的情*中表现出显著的不确定性。这项研究提供了对 LLM 决策倾向和其在伦理情*中反映人类道德判断能力的洞见。

2.2.2 真实性

评估 LLM 的可靠性需要确保其输出的真实性。Turpin 等人 (2023) 证明 Chain-of-Thought (CoT) 解释可能系统性地歪曲模型预测背后的真实推理。Khan 等人 (2024) 指出，随着 LLM 变得越来越复杂，可能超越人类专家，评估动态可能会发生变化，提出了更简单的模型是否能够有效评估更先进模型的问题。这种情况突显了 LLM 输出真实性的持续重要性，反映了模型评估中不断演变的挑战。

随着可信度成为关键优先事项，研究人员实施了各种评估策略以确保模型的可靠性。本节详细介绍了加强 LLM 输出可信度的策略。除了广为人知的 TruthfulQA 基准 Lin 等人 (2022) 外，我们还关注以下主题：幻觉，偏见缓解。

幻觉

在 LLMs 中，模型生成事实不准确或虚构内容的幻觉对其可信度和可靠性构成了重大挑战。

技术如 HaluEval 2.0 Jiang 等人 (2024) 和 HalluCode Liu 等人 (2024a) 基准已被开发用于有效的幻觉检测。其他方法包括 FEWL Wei 等人 (2024)，该方法通过利用多个 LLM 响应来测量幻觉而无需黄金标准答案，以及 TofuEval Tang 等人 (2024)，该方法通过详细的错误分类评估对话总结中的幻觉。Self-Alignment for Factuality Zhang 等人 (2024b) 使用自我评估来提高 LLMs 中的事实准确性。LLM-free 多维基准 AMBER Wang 等人 (2024a) 允许通过低成本和高效的评估流程来评估生成任务和区分任务，包括各种类型的幻觉。该基准促进了对主流 MLLMs 如 GPT-4V 的全面评估和详细分析，并提供了缓解幻觉的指南。

Feldman 等人 (2023) 帮助识别和标记 LLMs 在其领域知识之外操作的实例，确保用户接收到准确的信息。该方法在上下文伴随问题提示时显著减少了幻觉，通过标签评估实现了消除幻觉的高效性。Yang 等人 (2023) 引入了一种自检方法，用于在关键任务中检测 LLMs 的事实错误，使用零资源设置中的反向验证。PHD 基准旨在检测通过人类标注的段落级幻觉，提升了检测方法的评估，并在效率和准确性上超越了现有方法。

偏见缓解

一系列研究探讨了在评估和操作大型语言模型（LLMs）时存在的偏见问题，强调了减少这些偏见以提高质量和可靠性的必要性。

这里有一些一般的偏差基准。BBQ Parrish 等人（2021）是由作者构建的一套问题集数据集，突出展示了针对属于保护类别的人的社会偏差，涵盖了与美国英语环*相关的九个社会维度。BIAS Vermetten 等人（2022）是一个新型的基于行为的基准，用于检测每个维度以及跨维度的结构性偏差，基于 39 个统计测试。RecLLM Zhang 等人（2023）研究了基于 LLM 的推荐中的公*性，提出了 FaiRLLM 基准来评估对敏感用户属性的偏差。MERS Wu 和 Aji（2023）引入了评估机器生成文本在多个维度上的基准，包括事实准确性和语言质量，特别针对并减少 LLM 评估中有利于不正确事实内容的偏差。

以下是与不同领域相关的具体偏差基准。在金融领域，Daniel 等人（2008）处理了评估投资经理中的“前瞻基准偏差”，该偏差识别了由于基准构成时间差异而导致的表现指标显著差异。这一发现强调了准确基准方法的必要性，以避免夸大绩效评估。Hort 等人（2021）使用模型行为突变方法来基准 ML 偏差缓解方法。尽管结果表明许多方法难以有效*衡公*性和准确性，但它们强调了在偏差缓解中需要更强有力策略的必要性。Wessel 等人（2023）介绍了媒体偏差识别基准（MBIB），这是一个全面的框架，整合了各种类型的媒体偏差，提高了检测技术的有效性，促进了对媒体内容偏差评估的更统一和有效的方法。

2.3 领域知识

随着 LLM 在推理和安全性方面展示其能力，专家们已开始探索 LLM 在各个领域的知识。他们利用 LLM 完成特定任务，使这些模型成为有用的助手。在本节中，我们将深入探讨五个领域：金融、立法、心理学、医学和教育，介绍应用、评估方法，并讨论 LLM 在每个领域的方向和局限性。

2.3.1 金融

LLM 在金融领域的应用相对较早。一些模型甚至专门为金融用途设计，如 FinBERT Liu 等（2021b）、XuanYuan 2.0 Zhang 和 Yang（2023）以及 BloombergGPT Wu 等（2023）。BloombergGPT 是一个拥有 500 亿参数的语言模型，训练数据涵盖广泛的金融数据。从 BloombergGPT 的验证过程中，我们可以深入了解金融 LLM 的评估方法。Wu 等（2023）在两大类任务上评估了 BloombergGPT：金融特定任务和通用任务。关于金融特定任务，使用了 FPB Malo 等（2014）、FiQA SA Maia 等（2018）、Headline Sinha 和 Khandait（2021）、NER Alvarado 等（2015）和 ConvFinQA Chen 等（2022）。他们还使用了社交媒体和新闻作为特定方面的情感分析数据集，并将 BloombergGPT 的回应与金融专家的注释进行比较。关于通用任务，利用了标准 LLM 基准进行评估，如 BIG-bench Hard Suzgun 等（2022），以及关于知识评估、阅读理解和语言学任务的多个数据集。条件性地，Xie 等（2023）提出了 PIXIU，一个框架包括基于微调 LLaMA 的金融 LLM、一个包含 136K 数据样本的指令数据以支持微调，以及一个包含 5 个任务和 9 个数据集的评估基准，为金融领域的 LLM 提供了评估能力的基准。在提到金融用途的 LLM 时，Li 等（2023b）认为主要挑战是虚假信息的生成以及 LLM 中的偏见表现，例如种族、性别和宗教偏见。此外，评估中的主要挑战是整合金融专家的领域知识，以根据金融 NLP 任务验证模型的性能 Lee 等（2024）。

2.3.2 法规

大型语言模型（LLMs）在立法领域的能力也引起了关注，因为 GPT-4 在统一律师资格考试中的得分约为 297 分，超过了所有司法管辖区的及格线 Katz et al. (2024)。LLMs 执行了各种任务，如法典推理、术语解释和法律规则分类，并对其表现进行了评估。Blair-Stanek et al. (2023) 使用 SARA 数据集 Holzenberger et al. (2020) 评估了 GPT-3 在法典推理中的表现。他们发现 GPT-3 在零样本条件下仅达到 78% 的准确率，显示 GPT-3 无法处理基础法律工作，因为数据集中的法典远不如实际法典复杂。Engel 和 Mcadams (2024) 问询 Chat 3.5 Turbo 是否将法定术语“车辆”包括在待评估的候选对象列表中，以检验 LLMs 对法定意义的理解。他们发现 Chat 3.5 Turbo 的结果与 2,800 名英语使用者的回答类似 Tobia (2020)。Liga 和 Robaldo (2023) 发现 GPT-3 能够识别义务规则、许可规则和构成规则之间的差异，使用了 LegalDocML Palmirani 和 Vitali (2011) 和 LegalRuleML Athan et al. (2013) 数据集。关于 LLMs 是否具备足够能力应用于专业法律领域，调查表明，预训练的 LLMs 还未准备好完全自动化用于案件判决摘要，因为生成的抽象摘要中发现了不一致或虚构的信息 Deroy et al. (2023)。

2.3.3 心理学

人类语言数据在心理学的每个子领域都很重要且有价值。由于大型语言模型（LLMs）具备理解和使用多种语言的能力，因此情感检测和心理测量可以由 LLMs 完成。大量研究评估了 LLMs 是否能够以足够的质量完成这些任务。Rathje 等人 (2023) 测试了不同版本的 GPT（3.5 Turbo、4 和 4 Turbo）是否能够在 12 种语言的文本中检测情感、离散情绪、攻击性和道德基础。他们发现，LLMs 在检测心理学构念方面优于现有的英文词典分析，手动标注者的判断也是如此。Lu 等人 (2024) 评估了 GPT-4V 在情感计算任务中的 5 项关键能力。他们使用 DISFA 数据集 Mavadati 等人 (2013) 来评估 GPT-4V 的动作单元检测能力，RAF-DB 数据集 Shan 和 Deng (2018) 用于面部表情和复合情绪识别，Du 等人 (2014) 使用 CASME2 数据集，Yan 等人 (2014) 用于微表情识别，Zhao 等人 (2023) 和 iMiGUE 数据集 Liu 等人 (2021a) 用于微动作识别。结果表明，GPT-4V 对动作单元、复合情绪和微动作测试样本能够给出令人满意的回答，但在面部表情和微表情测试样本中未能正确回答。关于心理测量，Demszky 等人 (2023) 提出了两种评估特征对人类思维和行为影响的方法：1) 专家评估意味着经过培训的研究助理和 LLMs 对相同文本进行特定心理构念的评分，然后计算他们评分之间的一致性。2) 影响评估意味着评估操控前后的效果。例如，Karinshak 等人 (2023) 使用影响评估来测量参与者对 GPT-3 生成的支持疫苗接种消息的态度。Demszky 等人 (2023) 还建议，在评估 LLMs 的心理学任务能力时，初步评估可以使用专家评估进行操控检查或构念效度测量。随后，可能会利用与专家评估一致的文本进行影响评估研究，尝试测量对第三方参与者的预期效果，类似于评估预测效度或外部效度。

2.3.4 医学

由于 ChatGPT 能够在没有额外训练的情况下通过美国医学执照考试（USMLE）Kung 等人（2023）的测试，LLM 在医学领域引起了关注。以往的研究主要集中在探索 LLM 在临床工作和研究中的潜力 Thirunavukarasu 等人（2023）。Agrawal 等人（2022）介绍了来自手动重新标注的 CASI 数据集 Moon 等人（2014）的数据集，用于基准测试少样本临床信息提取，并展示了 GPT-3 在这一任务中优于现有基准。Sharma 和 Thakur（2023）展示了 ChatGPT 可以帮助研究人员设计新药并优化新药的药代动力学和药效学。Benoit（2023）展示了在面对 45 个简化的标准化病例 Semigran 等人（2015）时，ChatGPT 以 75.6% 的首轮诊断准确率和 57.8% 的分诊准确率识别疾病，其表现与医生在同一组 45 个病例中 72.1% 的准确率相似。然而，在撰写学术临床论文时，当前的 LLM 无法满足 ICMJE 作者资格标准，因为它们无法理解作者的角色或对论文承担责任 Zielinski 等人（2023）。此外，Kumar（2023）评估了 ChatGPT 在生物医学领域学术写作中的实用性，显示虽然其回答内容系统、准确且原创，但缺乏学术写作的质量和深度。总之，LLM 应用在医学领域的广泛部署目前还不可行，需要更深入的评估。临床医生和研究人员将继续负责提供最佳的知识和护理 Thirunavukarasu 等人（2023）。

2.3.5 教育

LLM（大型语言模型）的对话和知识特性使其在教育中的应用成为可能。当前教育领域对 LLM 的评估方法大致可以分为两类：1) 人工注释意味着专家直接对 LLM 生成的材料进行评分，或对来自外部数据集或在线网站的未标记数据进行注释，以创建评估数据集。Abdelghani 等人 (2023) 使用 GPT-3 生成语言和语义提示，以帮助儿童提出发散性问题。他们有 2 位专家评估生成的语言和语义提示的质量。Jia 等人 (2021) 让流利的英语使用者对来自同伴评估*台 Expertiza 的数据进行注释，并确保足够的注释者一致性，以测试 BERT 模型在评估同伴评估中的准确性。Menick 等人 (2022) 通过让付费承包商评估来自自然问题（Natural Questions）Kwiatkowski 等人 (2019) 和 ELI5 Fan 等人 (2019) 数据集的模型样本来评估他们的自支持问答模型。2) 指标和模型意味着使用传统指标或训练模型自动评估 LLM 生成的材料。Dijkstra 等人 (2022) 提出了 EduQuiz，一种基于 GPT-3 模型的端到端测验生成器，能够生成完整的多项选择题及其正确答案和干扰答案。他们使用了 BLEU-4 Papineni 等人 (2002)、ROUGE-L Lin (2004) 和 METEOR Banerjee 和 Lavie (2005) 指标来比较预测和真实数据实例。Raina 和 Gales ([2022](https://ar

3 代理评估

{forest}

for tree= grow=east, reversed=true, anchor=base west, parent anchor=east, child anchor=west, base=left, font=, rectangle, draw, rounded corners,align=left, inner xsep=4pt, inner ysep=1pt, , where level=1font=,fill=pink!50, where level=2font=,fill=green!10, where level=3font=,fill=gray!20, [代理评估

(节 3),fill=yellow!20,font=[规划

(节 3.1) [Song 等 (2023a), Huang 等 (2022b), Yao 等 (2023b), Shinn 等 (2023),fill=gray!20] ] [应用场景

(节 3.2) [Web 基础 [Nakano 等 (2022), Qin 等 (2023a), Yao 等 (2023a) ] ] [代码生成 [Liang 等 (2023), Zhang 等 (2024a) ] ] [数据库查询 [Hu 等 (2023)] ] [API 调用 [Li 等 (2023a), Qin 等 (2023b), Yan 等 (2024b) ] ] [工具创建 [Cai 等 (2024), Qian 等 (2023) ] ] [机器人导航 [Shah 等 (2022), Zhou 等 (2023a), Zheng 等 (2023a) ] ] [机器人操作 [Huang 等 (2023), Yu 等 (2023) ] ] ] [基准

(节 3.3) [Ruan 等 (2023), Li 等 (2023a), Tang 等 (2023),fill=gray!20] ] ]

图 3: 代理评估概述。

在 LLM 的核心能力基础上，已经有一个日益增长的研究领域，利用 LLM 作为中央控制器来构建自主代理，以获得类似人类的决策能力 Wang 等 (2024b).

在这一部分，我们将首先讨论评估 LLM 代理规划能力的方法，并介绍基于各种应用场景的评估。每个子节将提供关于 LLMs 应用、评估方法和使用的数据集的详细见解。

3.1 规划

代理的规划涉及在给定环*中战略性地制定和执行行动或步骤，以实现特定目标或结果，通常使用算法或模型来预测和决定最佳行动方案。

面对执行需要将复杂任务分解为更简单子任务的挑战，机器人规划使得机器人能够自主识别并执行实现特定目标的行动，同时考虑其周围环*和目标。在这种背景下，一些创新的方法，例如黄等人 (2022a)，辛格等人 (2023)，宋等人 (2023a)，利用通过大规模语言模型（LLMs）获得的广泛常识知识，使这些模型能够高效地将任务分解为可管理的子任务。Inner Monologue 黄等人 (2022b) 系统通过整合持续的自然语言反馈，利用 LLMs 进行机器人任务的动态规划。类似地，SayPlan Rana 等人 (2023) 通过使用 3D 场景图增强了 LLMs 的任务规划能力，以促进广泛的环*交互。这些方法在虚拟环*、具身体代理和物理机器人中进行了评估。此外，像 DEPS 王等人 (2023b)，AdaPlanner 孙等人 (2023)，以及 Robots That Ask For Help 任等人 (2023) 等多项工作引入了动态交互式重新规划、适应性策略和在面对不确定性时寻求帮助的能力。这些发展对于机器人在现实环*中的实际应用和有效性至关重要，展示了朝着更具适应性和智能的机器人系统迈出的重要一步。它们在越来越复杂的情*中进行评估，这些情*与现实生活条件紧密相符。

基于 LLM 的智能体利用 LLM 分析和生成类似人类的文本，通过快速准确地处理大量信息，辅助决策和战略规划。React Yao 等人 (2023b) 提出了一个将推理与行动在语言模型中协同融合的范式，通过在 ALFWorld 和 WebShop 的基准测试中提高性能和可解释性。Reflexion Shinn 等人 (2023) 引入了一个突破性的框架，该框架利用口头反馈进行强化学*，使语言智能体通过自我反思提升技能，而无需更新模型权重。该方法在多种决策、推理和编程任务中进行了评估，显示出相较于传统方法的显著改进，应用于如 AlfWorld、HotPotQA 和 HumanEval 等环*。SelfCheck Miao 等人 (2023) 提供了一种零-shot 机制，使 LLM 能够自主验证其在数学问题解决中的多步骤推理，这显著提高了在 GSM8K、MathQA 和 MATH 等基准测试中的准确性，通过过滤掉低置信度的解决方案。

3.2 应用场景

3.2.1 网络基础

在这一部分，我们重点关注 LLM 在网络环*中执行任务的情况。我们根据任务对评估方法进行分类。

搜索引擎

WebGPT Nakano 等人 (2022) 开发了一个基于文本的网络浏览环*，使得与微调后的语言模型进行交互，以生成更忠实的输出。WebGPT 模型的评估通过三种主要方法进行：与人类演示者在保留问题集上撰写的答案进行比较，与 ELI5 数据集中的最高投票答案进行比较，以及使用 TruthfulQA 数据集进行评估。

WebCPM Qin 等人 (2023a) 采用工具学*来使模型通过网络搜索回答长篇问题。其评估包括四个子任务：行动预测、搜索查询生成、支持性事实提取和信息综合，每个任务都通过 Micro-F1 和 Macro-F1（用于行动预测）以及 Rouge-L（用于其他三个任务，包括文本生成）独立评估。在整体评估中，八名注释员根据人类偏好手动比较模型生成的答案。

在线购物

WebShop Yao 等人 (2023a) 提出了一个基准，用于评估基于 LLM 的代理在产品搜索和检索方面的能力。他们的数据集由 12,087 条指令组成，分为 10,587 条用于训练、1,000 条用于开发、500 条用于测试，并记录了每个实例的人类购物路径。评估指标包括任务得分和成功率，结果显示人类在所有衡量指标上均优于 LLM。

3.2.2 代码生成

为了在复杂的实际任务中实现机器人控制的细致控制，Code as Policies Liang 等人 (2023) 模式使用 LLM 生成用于空间推理和适应新指令的策略代码。代码质量通过 HumanEval 和 RoboCodeGen 进行评估。RoboCodeGen 是一个包含 37 个函数生成任务的基准，专注于空间和几何推理及控制，支持 NumPy 等第三方库，缺乏文档字符串和类型提示，并允许未定义函数用于分层代码生成。评估指标是通过人工编写单元测试的生成代码的通过率。

CODEAGENTBENCH 基准 Zhang 等人 (2024a) 旨在评估 LLM 在实际代码生成任务中的表现。它提供了全面的输入信息，如文档、代码依赖和运行环*细节，挑战 LLM 生成准确且良好集成的代码解决方案。

3.2.3 数据库查询

集成外部数据库或知识库使代理能够访问特定领域的信息，从而产生更现实的行动。例如，ChatDB Hu 等人 (2023) 使用 SQL 语句查询数据库，使代理能够进行逻辑行动。他们创建了一个由 70 条水果店管理日志记录组成的数据集用于评估。实验清晰地表明，ChatDB 在准确性上显著优于 ChatGPT。

3.2.4 API 调用

LLM 代理也可以通过调用 API 来增强其能力。API-Bank，Li 等人 (2023a) 提出的工具，提供了一个专业的基准来评估工具增强 LLM 的表现。该基准包括 53 个标准 API 工具、工具增强 LLM 的详细工作流程，以及一个包含 264 个标注对话的数据集。评估指标包括 API 调用的准确性和 post-call 回复的 ROUGE-L，任务规划效率通过模型驱动的 API 调用成功完成计划任务来衡量。

Qin 等人 (2023b) 对当代语言模型 (LLMs) 中工具学*的使用进行了学术研究，探讨了其有效性和局限性。他们评估了 18 种代表性工具在六个任务中的表现，并利用现有数据集将研究扩展到 12 个额外任务，例如幻灯片制作、AI 绘画和 3D 模型构建。他们增强了 ChatGPT 生成的用户查询，并手动评估了这些操作的成功率。

伯克利函数调用排行榜 (BFCL) Yan 等人 (2024b) 评估 LLM 在函数处理、语法树分析和函数执行等各种场景中的表现。它提供了一个交互式比较工具和一个涵盖数学、体育和金融等领域的数据集。评估包括简单、多重和并行函数测试。BFCL 促进了 LLM 在 Langchain 和 AutoGPT 等*台中的集成，提供了 GPT-4 等模型在成本和延迟方面的详细分析。

3.2.5 工具创建

工具的使用取决于外部工具的可用性 Schick 等人 (2023)。最近，有人致力于将 LLM 作为工具创造者，以生成可以用于各种请求的工具 (Ruan 等人 (2023))。LATM Cai 等人 (2024) 利用 GPT-4 开发工具，表明在这些应用中，更具成本效益的模型可以实现与更大模型相媲美的性能。他们使用了来自不同领域的六个数据集：逻辑推理、物体跟踪、Dyck 语言、词序列、 Chinese remainder theorem 和会议调度。前五个数据集来源于 BigBench Srivastava 等人 (2023)，而会议调度任务则专门设计用于展示模型在实际应用中的效用。CREATOR Qian 等人 (2023) 使用 Creation Challenge 数据集评估 LLM 创建工具的能力，该数据集包含 2,000 个现有工具或代码包无法充分解决的新颖且具有挑战性的问题。评估表明，ChatGPT 的工具制作性能随着额外提示的增加而改善，准确率达到 75.5%，突显了工具创建在提升 LLM 问题解决能力中的重要性。

3.2.6 机器人导航

由具身代理进行的导航涉及机器人或虚拟实体在物理或模拟环*中的自主移动和决策，使用传感器和算法感知周围环*、规划路线并完成导航任务。

LM-Nav Shah 等人 (2022) 提出了一个用于机器人导航的系统，该系统利用 LLM、VLM、视觉导航模型（VNM）和机器人导航，使机器人能够使用自然语言指令在复杂环*中导航，而无需特定的语言描述标注训练数据。他们在 20 个查询上进行了基准测试，这些查询涉及不同难度的环*，总长度超过 6 公里。LFG Shah 等人 (2023) 利用语言模型作为启发式方法来增强规划算法，通过自然语言描述中的语义线索指导机器人穿越陌生环*。他们在 ObjectNav 上评估了导航性能。

NavGPT Zhou 等人 (2023a) 利用大语言模型（LLMs）进行明确的推理和规划。这种方法结合了视觉观察的文本描述、导航历史和潜在的未来路径，以增强导航任务。随后，NaviLLM 模型 Zheng 等人 (2023a) 出现，作为一种多功能的体态导航解决方案。它巧妙地调整 LLMs，以管理各种体态导航挑战，采用基于模式的指令将不同的任务转化为统一的生成建模问题。这些模型的性能通过视觉语言导航（VLN）基准严格评估，如 R2R、Reverie、CVDN 和 SOON。

3.2.7 机器人操作

操作涉及使用体态代理与其环*中的物理对象互动和操控，实现从简单的取放操作到复杂的组装过程的任务。

VoxPoser Huang 等人 (2023) 提出了一个创新方法，其关键新颖性在于使用 LLMs 不仅仅是为了理解自然语言指令，而且重要的是生成与 VLMs 交互的代码，以创建详细的 3D 价值图。这些图指导机器人的动作，弥合了抽象指令和实际执行之间的差距。他们直接根据机器人操控任务的成功率评估结果。L2R Yu 等人 (2023) 提出了一个将语言指令翻译成奖励函数的方法，使用 LLMs 让机器人优化以执行特定任务，并在模拟环*中展示了这种方法在各种复杂的运动和操控任务中的应用。

3.3 基准

基准	描述
APIBench (Patil 等人，2023)	一个评估系统，包含 73 个 API 工具、314 个标注的工具使用对话（共 753 次 API 调用），以及一个包含 1,888 个工具使用对话的训练集，这些对话来自 2,138 个 API 涉及 1,000 个领域
ToolEval (Qin et al., 2023c)	自动使用 ChatGPT 构建，包括来自 49 个类别的 16,464 个真实世界 RESTful API，针对单工具和多工具场景生成了多样化的指令和解决路径。
ToolAlpaca (Tang et al., 2023)	包含来自 50 个类别的 400 多个真实工具 API 中的 3,938 个实例
RestBench (Song et al., 2023b)	人工注释的数据集，包括两个真实世界的场景（TMDB 电影数据库和 Spotify 音乐播放器），分别包含 54 个和 40 个常用 API，为开发注释了 10 个指令-解决方案对，并为测试注释了 157 对（TMDB 100 对，Spotify 57 对）
WebArena (Zhou et al., 2023b)	一个现实且可重复的网络环*，具有四个完全操作的网络应用程序（电子商务、讨论论坛、协作开发和内容管理），以及 812 个长时域任务
MIND2WEB (Deng et al., 2023)	来自 31 个领域的 137 个真实网站上的 2000 多个任务，具有众包的行动序列，能够创建处理多样且复杂的网页交互的代理

表 2：代理评估基准

评估 LLMs 在工具操作方面的能力主要围绕评估单一工具的有效性，使用既定的基准来衡量其对下游任务的影响，如之前讨论的。然而，越来越多的研究者正在将焦点转向涉及多个工具联合使用的场景，以评估经过工具学*训练的 LLMs 的性能。这种方法确保了对模型能力和在各种工具集中的限制的更全面和多样化的评估。

APIBench 由 Patil et al. (2023) 组建，汇集了来自主要中心如 HuggingFace、TorchHub 和 TensorHub 的全面 API 语料库，包括所有 TorchHub 和 TensorHub 的 API 调用以及每个 HuggingFace 任务类别中下载量前 20 的模型。使用 Self-Instruct Wang et al. (2023a)，他们为每个 API 创建了 10 个合成用户提示，以评估 LLMs 的功能正确性和幻觉问题。

ToolBench，由 Xu et al. (2023c)开发，评估 LLMs 在各种基于工具的任务中的泛化和高级推理技能。它集成了现有和新收集的数据集，包含八个任务，每个任务大约有 100 个测试案例。

基于 ToolBench，ToolLLM Qin 等人 (2023c）引入了 ToolEval，这是一种类似于排行榜的自动评估工具。ToolEval 使用两个指标：通过率，即在有限尝试内成功完成指令的比例，以及胜率，即与 ChatGPT 的性能比较。该评估方法结合了自动和人工评估，同时使用 ChatGPT 生成的解决方案作为基准，减少了潜在的人为偏见和不公*。

ToolAlpaca Tang 等人 (2023）扩展了评估框架，以涵盖真实世界场景。通过使用 426 个工具使用的训练集，该研究在 100 个评估实例中评估了十个新工具。遵循 ReAct 风格（Yao 等人 (2023b）），工具使用在文本生成过程中被集成，人工评审员评估程序的准确性和整体正确性。

RestBench Song 等人 (2023b）探讨了使用 API 的真实用户指令，重点关注 TMDB 电影数据库和 Spotify 音乐播放器场景。它分别筛选了 54 和 40 个常用 API，构建了 OpenAPI 规范。通过整合 RestGPT，将 LLM 与 RESTful API 连接，它遵循标准的 Web 服务协议。RestBench 通过人工注释的指令和黄金解决方案路径来评估性能，展示了 RestGPT 在复杂任务中的有效性，并向人工智能通用智能（AGI）迈进。

WebArena（Zhou 等人 (2023b））提供了一个拥有四个常见领域：电子商务、社交论坛讨论、协作软件开发和内容管理的完全功能性网站环*。其目的是以端到端的方式评估智能体，并确定其完成任务的准确性。

MIND2WEB（Deng 等人 (2023））是第一个用于开发和评估可以按照语言指令在任何网站上完成复杂任务的通用智能体的数据集。MIND2WEB 拥有超过 2,000 个任务，涵盖了 137 个网站和 31 个不同领域，取代了其他数据集中常见的过于简化的模拟环*，提供了真实世界网站的领域。

4 未来方向

LLM 能力和应用领域的快速进展使它们在短时间内取代了其他工具，显著提升了人们的生活。然而，评估方法的发展未能跟上 LLM 能力的扩展，通常使得找到完全匹配当前任务的基准变得具有挑战性。当前评估方法还有很大改进空间，以更准确地评估 LLM 在各种任务中的表现，并提供决策依据。因此，我们提出了五个未来评估方法的发展方向。我们期望这些改进将使 LLM 在公众眼中成为更“有用”的存在。

4.1 动态评估

当前的基准大多是静态的，一旦创建便不会改变。然而，不变的基准在评估时可能会出现两个问题。首先，现实世界中的事实知识随着时间变化。例如，总统职位每四年可能会更换，因此，用于评估 LLM 事实知识的数据集也需随时间更新，理想情况下要自动更新，以确保 LLM 提供的信息准确且与时俱进。

其次，随着 LLM 模型的扩展，数据集中的数据可能会泄露，成为 LLM 训练数据的一部分，这时这些数据集将不再作为有效的评估工具。因此，数据集中的评估问题必须能够自动替换和更新。例如，王等人提出的框架（2024c）可以操控原始实例的上下文或问题，重新框定新的不断发展的实例，以高信心动态扩展现有基准。这些进展将确保基准可以持续测量 LLM 在其进展过程中的能力。

4.2 LLM 作为评估者

目前许多数据集需要人工注释者标记每个问题的答案，这一过程既耗时又容易出错。因此，使用 LLM 作为评估者代表了一个有前途的发展方向。LLM 可以通过阅读文本并提供评分来模拟评分者，使我们避免为每个任务设计新的基准。相反，我们可以利用 LLM 的广泛能力作为各种任务的评分者。李等人（2024b）回顾了使用 LLM 作为评分者的当前方法，并识别了潜在的问题，例如对同一模型生成内容的偏好或评估顺序中的特定偏差。未来，我们可以逐步解决 LLM 作为评估者固有的偏见。在这种情况下，我们可以加快 LLM 应用的快速发展，同时使其能够自我评估，从而消除对额外数据集设计的需求。

4.3 根本原因分析

我们之前提到的评估方法主要依赖于评估 LLM 的输出。例如，我们向 LLM 提问，并根据其回答的准确性进行评估。这种评估方法使我们能够快速了解模型在各个方面的能力，并了解它能帮助我们完成什么。然而，仅仅通过检查模型的输出，我们无法确定模型产生特定响应的根本原因。当模型回答正确时，我们无法确定它是否真正具备相应的能力，还是仅仅之前遇到过类似问题并记住了答案。同样，当模型的响应未达到预期时，也很难确定模型出错的原因。因此，我们建议未来的评估方法应包括分析模型预测的根本原因。这将使我们能够更好地分析 LLM，从而促进未来更有用的 LLM 的发展。

4.4 精细化 LLM 代理评估

现有基准主要依赖任务的最终完成状态，缺乏精细化的逐步评估。此外，虽然当前研究更侧重于代理在有限环*（如在线购物）中执行任务的能力，但环*反馈往往是基于规则的、简单的，远离现实场景。未来的一个潜在方向是利用高智能模型，如 LLM，来设计更现实的评估环*。

4.5 机器人基准开发

近期的机器人研究主要强调使用仿真环*来促进向实际应用的过渡。这些环*在提升机器人在各种条件下的泛化能力方面至关重要。现在迫切需要开发类似于计算机视觉领域中的 ImageNet 的大规模基准，以严格评估这些泛化能力。此外，为了准确模拟现实场景，必须整合反映实际条件的特定任务。此外，数字双胞胎的概念代表了在模拟和现实世界环*中评估机器人另一条有前景的途径。鉴于在测试域外数据时计算机视觉仍存在显著差异，采用数字双胞胎和类似的方法可以显著减少 sim-2-real 差距，从而使评估模型能力的方式更加集中。

此外，其他方面的详细评估，如模拟到真实的差距、对抗扰动的鲁棒性、人机协作和多机器人协调，对在现实世界场景中有效部署机器人仍然至关重要。最后，随着深度学*在大规模数据训练中持续取得成功，评估像 RT-2 和 PaLM-E 这样的机器人基础模型也将对推进我们在复杂环*中对机器人技术的理解和应用至关重要。

5 结论

由于大型语言模型（LLMs）的不可解释性，我们需要各种评估方法来理解其能力，这也是 LLMs 进步的驱动力。本研究介绍了一个两阶段框架：从核心能力到代理，以评估 LLMs 的可用性。我们回顾了每一部分中的应用、基准和评估方法，旨在阐明当前 LLM 开发的优缺点。最后，我们提出了几种 LLMs 评估方法的改进方向，旨在使未来的 LLMs 评估更加灵活、自动化，并能够识别问题的根本原因。我们期待未来的研究使 LLMs 成为帮助人类社会的更有用工具。

致谢

参考文献

Abdelghani 等（2023）Rania Abdelghani, Yen-Hsiang Wang, Xingdi Yuan, Tong Wang, Pauline Lucas, Hélène Sauzéon 和 Pierre-Yves Oudeyer。2023 年。《GPT-3 驱动的教学代理以培养儿童的好奇心提问技能》。国际人工智能教育杂志，第 1-36 页。
Achiam 等（2023）Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat 等。2023 年。《Gpt-4 技术报告》。arXiv 预印本 arXiv:2303.08774。
Agrawal 等（2022）Monica Agrawal, Stefan Hegselmann, Hunter Lang, Yoon Kim 和 David Sontag。2022 年。《大型语言模型是少样本临床信息提取器》。arXiv 预印本 arXiv:2205.12689。
Alvarado 等（2015）Julio Cesar Salinas Alvarado, Karin Verspoor 和 Timothy Baldwin。2015 年。《域适应命名实体识别以支持信用风险评估》。见于 2015 年澳大利亚语言技术协会会议论文集，第 84-90 页。
Athan 等（2013）Tara Athan, Harold Boley, Guido Governatori, Monica Palmirani, Adrian Paschke 和 Adam Wyner。2013 年。《Oasis legalruleml》。见于 第十四届国际人工智能与法律会议论文集，第 3-12 页。
Balas 等（2024）Michael Balas, Jordan Joseph Wadden, Philip C Hébert, Eric Mathison, Marika D Warren, Victoria Seavilleklein, Daniel Wyzynski, Alison Callahan, Sean A Crawford, Parnian Arjmand 等。2024 年。《探索人工智能大型语言模型在医学伦理中的潜在效用：对 GPT-4 的专家小组评估》。医学伦理学杂志，50(2):90–96。
Banerjee 和 Lavie（2005）萨坦吉夫·班纳吉和阿隆·拉维。2005 年。Meteor：一种自动化的机器翻译评估指标，与人类判断的相关性得到改善。见于ACL 机器翻译和/或摘要评估测量研讨会论文集，页 65–72。
Bang 等（2023）白睫、塞缪尔·查雅维贾亚、李娜妍、戴文亮、苏丹、布莱恩·威利、霍莉·洛维尼亚、纪子伟、俞铁征、威利·钟、阮维·杜、徐燕和帕斯卡尔·冯。2023 年。关于推理、幻觉和互动的 Chatgpt 多任务、多语言、多模态评估。
Benoit（2023）詹姆斯·RA·贝努瓦。2023 年。用于临床小案例生成、修订和评估的 Chatgpt。MedRxiv，页 2023–02。
Bhagavatula 等（2019）钱德拉·巴哈瓦图拉、罗南·勒·布拉斯、查伊塔尼亚·马拉维亚、坂口圭介、阿里·霍尔茨曼、汉娜·拉什金、道格·道尼、斯科特·温陶·易和叶金·崔。2019 年。演绎常识推理。arXiv 预印本 arXiv:1908.05739。
Bian 等（2024）宁边、韩先培、孙乐、林鸿宇、陆耀杰、贺本、姜珊珊、董斌。2024 年。Chatgpt 是一个知识丰富但经验不足的解题者：对大型语言模型中常识问题的调查。
Bisk 等（2020）约纳坦·比斯克、罗温·泽勒斯、蒋峰、高业金等。2020 年。Piqa：关于自然语言中的物理常识的推理。见于AAAI 人工智能会议论文集，第 34 卷，页 7432–7439。
Blair-Stanek 等（2023）安德鲁·布莱尔-斯坦克、尼尔斯·霍尔岑伯格和本杰明·范·杜尔梅。2023 年。GPT-3 能进行法定推理吗？见于第十九届国际人工智能与法律会议论文集，页 22–31。
Cai 等（2024）蔡天乐、王雪智、马腾宇、陈欣云和周登喜。2024 年。大型语言模型作为工具制造者。
Carlini 等（2023）尼古拉斯·卡林尼、达芙妮·伊波利托、马修·贾吉尔斯基、凯瑟琳·李、弗洛里安·特拉默和张淇源。2023 年。量化神经语言模型中的记忆。
Casino 等（2022）弗兰·卡西诺、托马斯·K·达萨克利斯、乔治奥斯·P·斯帕图拉斯、马里奥斯·安纳格诺斯托普洛斯、阿姆里塔·戈萨尔、伊什万·博罗茨、阿古斯提·索拉纳斯、毛罗·孔蒂和康斯坦丁诺斯·帕萨基斯。2022 年。数字取证中的研究趋势、挑战和新兴主题：综述。IEEE Access，10:25464–25493。
Chang 等（2023）常玉鹏、王旭、王进东、吴源、杨林仪、朱凯杰、陈浩、易晓源、王存翔、王义东等。2023 年。关于大型语言模型评估的调查。ACM 智能系统与技术交易。
Chen 等（2020）陈文虎、查汉文、陈志宇、熊文汉、王洪和王威廉。2020 年。Hybridqa：一个多跳问题回答的数据集，涵盖表格和文本数据。arXiv 预印本 arXiv:2004.07347。
Chen 等人（2022）Zhiyu Chen, Shiyang Li, Charese Smiley, Zhiqiang Ma, Sameena Shah, 和 William Yang Wang. 2022. Convfinqa：探索会话金融问答中的数字推理链。arXiv 预印本 arXiv:2210.03849。
Cifuentes 等人（2022）Jenny Cifuentes, Ana Lucila Sandoval Orozco, 和 Luis Javier Garcia Villalba. 2022. 自动检测色情视频的人工智能策略综述。多媒体工具与应用，81(3):3205–3222。
Cobbe 等人（2021）Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, 等人. 2021. 训练验证者解决数学文字问题。arXiv 预印本 arXiv:2110.14168。
Dalvi 等人（2021）Bhavana Dalvi, Peter Jansen, Oyvind Tafjord, Zhengnan Xie, Hannah Smith, Leighanna Pipatanangkura, 和 Peter Clark. 2021. 使用蕴涵树解释答案。arXiv 预印本 arXiv:2104.08661。
Daniel 等人（2008）Gilles Daniel, Didier Sornette, 和 Peter Wohrmann. 2008. 投资组合绩效评估中的前瞻性基准偏差。arXiv 预印本 arXiv:0810.1922。
Das 等人（2024）Badhan Chandra Das, M Hadi Amini, 和 Yanzhao Wu. 2024. 大型语言模型的安全性和隐私挑战：一项调查。arXiv 预印本 arXiv:2402.00888。
Demszky 等人（2023）Dorottya Demszky, Diyi Yang, David S Yeager, Christopher J Bryan, Margarett Clapper, Susannah Chandhok, Johannes C Eichstaedt, Cameron Hecht, Jeremy Jamieson, Meghann Johnson, 等人. 2023. 在心理学中使用大型语言模型。自然评论心理学，2(11):688–701。
Deng 等人（2020）Xiang Deng, Ahmed Hassan Awadallah, Christopher Meek, Oleksandr Polozov, Huan Sun, 和 Matthew Richardson. 2020. 结构驱动的文本到 SQL 预训练。arXiv 预印本 arXiv:2010.12773。
Deng 等人（2023）Xiang Deng, Yu Gu, Boyuan Zheng, Shijie Chen, Samuel Stevens, Boshi Wang, Huan Sun, 和 Yu Su. 2023. Mind2web: 面向网络的通用智能体。
Deroy 等人（2023）Aniket Deroy, Kripabandhu Ghosh, 和 Saptarshi Ghosh. 2023. 预训练的抽象模型和大型语言模型在法律案件判断总结中的准备情况如何？arXiv 预印本 arXiv:2306.01248。
Dijkstra 等人（2022）Ramon Dijkstra, Zülküf Genç, Subhradeep Kayal, Jaap Kamps, 等人. 2022. 使用生成预训练变换器生成阅读理解测验。在 iTextbooks@ AIED，第 4–17 页。
Du 等人（2014）Shichuan Du, Yong Tao, 和 Aleix M Martinez. 2014. 复合面部情绪表达。美国国家科学院院刊，111(15):E1454–E1462。
Duan 等人（2024）Shitong Duan, Xiaoyuan Yi, Peng Zhang, Tun Lu, Xing Xie, 和 Ning Gu. 2024. Denevil: 通过指令学*解码和导航大型语言模型的伦理价值。
Dubois 等 (2024) Yann Dubois, Chen Xuechen Li, Rohan Taori, Tianyi Zhang, Ishaan Gulrajani, Jimmy Ba, Carlos Guestrin, Percy S Liang, 和 Tatsunori B Hashimoto. 2024. Alpacafarm：一个从人类反馈中学*的方法的仿真框架。神经信息处理系统进展，36。
Engel 和 Mcadams (2024) Christoph Engel 和 Richard H Mcadams. 2024. 向 gpt 询问法定术语的普通含义。MPI Collective Goods Discussion Paper, (2024/5)。
Fan 等 (2019) Angela Fan, Yacine Jernite, Ethan Perez, David Grangier, Jason Weston, 和 Michael Auli. 2019. Eli5：长篇问答。arXiv 预印本 arXiv:1907.09190。
Feldman 等 (2023) Philip Feldman, James R. Foulds, 和 Shimei Pan. 2023. 利用标记上下文提示捕捉 llm 幻觉。
Gao 等 (2023) Dawei Gao, Haibin Wang, Yaliang Li, Xiuyu Sun, Yichen Qian, Bolin Ding, 和 Jingren Zhou. 2023. 利用大型语言模型的文本到 SQL：基准评估。arXiv 预印本 arXiv:2308.15363。
Geva 等 (2021) Mor Geva, Daniel Khashabi, Elad Segal, Tushar Khot, Dan Roth, 和 Jonathan Berant. 2021. 亚里士多德是否使用过笔记本电脑？一个包含隐含推理策略的问题回答基准。计算语言学协会会刊，9:346–361。
Ghallab 等 (2004) Malik Ghallab, Dana Nau, 和 Paolo Traverso. 2004. 自动规划：理论与实践。Elsevier。
Ghosh 等 (2024) Shaona Ghosh, Prasoon Varshney, Erick Galinkin, 和 Christopher Parisien. 2024. Aegis: 在线自适应 ai 内容安全审核与 llm 专家集成。
Guo 等 (2023) Zishan Guo, Renren Jin, Chuang Liu, Yufei Huang, Dan Shi, Linhao Yu, Yan Liu, Jiaxuan Li, Bojian Xiong, Deyi Xiong 等. 2023. 评估大型语言模型：一项全面调查。arXiv 预印本 arXiv:2310.19736。
Han 等 (2023) Simon J. Han, Keith Ransom, Andrew Perfors, 和 Charles Kemp. 2023. 人类与大型语言模型中的归纳推理。
Hendrycks 等 (2021) Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, 和 Jacob Steinhardt. 2021. 用数学数据集测量数学问题解决能力。arXiv 预印本 arXiv:2103.03874。
Holzenberger 等 (2020) Nils Holzenberger, Andrew Blair-Stanek, 和 Benjamin Van Durme. 2020. 用于税法推理和问题回答的数据集。arXiv 预印本 arXiv:2005.05257。
Hort 等 (2021) Max Hort, Jie M Zhang, Federica Sarro, 和 Mark Harman. 2021. Fairea：一种模型行为变异方法用于基准测试偏差缓解方法。在 第 29 届 ACM 欧洲软件工程会议联合会议与软件工程基础研讨会，第 994–1006 页。
Hu et al. (2023) Chenxu Hu, Jie Fu, Chenzhuang Du, Simian Luo, Junbo Zhao, 和 Hang Zhao. 2023. Chatdb: 用数据库作为符号记忆增强 LLM。
Huang and Chang (2023) Jie Huang 和 Kevin Chen-Chuan Chang. 2023. 面向大语言模型的推理：一项调查。
Huang et al. (2022a) Wenlong Huang, Pieter Abbeel, Deepak Pathak, 和 Igor Mordatch. 2022a. 语言模型作为零样本规划器：为具身代理提取可操作知识。见 国际机器学*大会, 页 9118–9147. PMLR。
Huang et al. (2023) Wenlong Huang, Chen Wang, Ruohan Zhang, Yunzhu Li, Jiajun Wu, 和 Li Fei-Fei. 2023. Voxposer: 用于机器人操控的可组合 3D 值图与语言模型。arXiv 预印本 arXiv:2307.05973。
Huang et al. (2022b) Wenlong Huang, Fei Xia, Ted Xiao, Harris Chan, Jacky Liang, Pete Florence, Andy Zeng, Jonathan Tompson, Igor Mordatch, Yevgen Chebotar, Pierre Sermanet, Noah Brown, Tomas Jackson, Linda Luu, Sergey Levine, Karol Hausman, 和 Brian Ichter. 2022b. 内在独白：通过规划与语言模型进行具身推理。见 arXiv 预印本 arXiv:2207.05608。
Ji et al. (2023) Jiaming Ji, Mickel Liu, Juntao Dai, Xuehai Pan, Chi Zhang, Ce Bian, Chi Zhang, Ruiyang Sun, Yizhou Wang, 和 Yaodong Yang. 2023. Beavertails: 通过人类偏好数据集提高 LLM 的安全对齐。
Jia et al. (2021) Qinjin Jia, Jialin Cui, Yunkai Xiao, Chengyuan Liu, Parvez Rashid, 和 Edward F Gehringer. 2021. All-in-one: 多任务学* BERT 模型用于评估同行评审。arXiv 预印本 arXiv:2110.03895。
Jiang et al. (2024) Chaoya Jiang, Wei Ye, Mengfan Dong, Hongrui Jia, Haiyang Xu, Ming Yan, Ji Zhang, 和 Shikun Zhang. 2024. Hal-eval: 一个通用且细粒度的幻觉评估框架用于大型视觉语言模型。arXiv 预印本 arXiv:2402.15721。
Jiang et al. (2020) Yichen Jiang, Shikha Bordia, Zheng Zhong, Charles Dognin, Maneesh Singh, 和 Mohit Bansal. 2020. Hover: 一个用于多跳事实提取和声明验证的数据集。
Jin et al. (2024) Mingyu Jin, Suiyuan Zhu, Beichen Wang, Zihao Zhou, Chong Zhang, Yongfeng Zhang, 等. 2024. Attackeval: 如何评估对大型语言模型的越狱攻击效果。arXiv 预印本 arXiv:2401.09002。
Karamizadeh et al. (2023) Sasan Karamizadeh, Saman Shojae Chaeikar, 和 Alireza Jolfaei. 2023. 使用 Boltzmann 机和深度学*进行成人内容图像识别。进化智能, 16(4):1185–1194。
Karinshak et al. (2023) Elise Karinshak, Sunny Xun Liu, Joon Sung Park, 和 Jeffrey T Hancock. 2023. 与 AI 合作进行劝说：研究大型语言模型生成支持疫苗接种信息的能力。ACM 人机交互会议录, 7(CSCW1):1–29。
Kasneci 等人（2023）Enkelejda Kasneci, Kathrin Seßler, Stefan Küchemann, Maria Bannert, Daryna Dementieva, Frank Fischer, Urs Gasser, Georg Groh, Stephan Günnemann, Eyke Hüllermeier, 等人。2023。《ChatGPT 会带来好处吗？关于大型语言模型在教育中机遇与挑战的讨论》。学*与个体差异，103:102274。
Katz 等人（2024）Daniel Martin Katz, Michael James Bommarito, Shang Gao, 和 Pablo Arredondo。2024。《GPT-4 通过了律师资格考试》。皇家学会 A 卷哲学交易，382(2270):20230254。
Khan 等人（2024）Akbir Khan, John Hughes, Dan Valentine, Laura Ruis, Kshitij Sachan, Ansh Radhakrishnan, Edward Grefenstette, Samuel R Bowman, Tim Rocktäschel, 和 Ethan Perez。2024。《与更具说服力的 LLMs 辩论会导致更真实的答案》。arXiv 预印本 arXiv:2402.06782。
Kim 等人（2024a）Minju Kim, Heuiyeen Yeen, 和 Myoung-Wan Koo。2024a。《基于上下文的暴力检测：一个韩国犯罪对话数据集》。在计算语言学协会发现：EACL 2024，第 603–623 页。
Kim 等人（2024b）Siwon Kim, Sangdoo Yun, Hwaran Lee, Martin Gubri, Sungroh Yoon, 和 Seong Joon Oh。2024b。《Propile: 探测大型语言模型中的隐私泄漏》。神经信息处理系统进展，36。
Kosinski（2023）Michal Kosinski。2023。《心智理论可能在大型语言模型中自发出现》。arXiv 预印本 arXiv:2302.02083，4:169。
Kumar（2023）Arun HS Kumar。2023。《分析 ChatGPT 工具以评估其在生物医学领域学术写作中的潜力》。生物学、工程学、医学与科学报告，9(1):24–30。
Kung 等人（2023）Tiffany H Kung, Morgan Cheatham, Arielle Medenilla, Czarina Sillos, Lorie De Leon, Camille Elepaño, Maria Madriaga, Rimel Aggabao, Giezel Diaz-Candido, James Maningo, 等人。2023。《ChatGPT 在 USMLE 中的表现：利用大型语言模型进行 AI 辅助医学教育的潜力》。PLoS 数字健康，2(2):e0000198。
Kwiatkowski 等人（2019）Tom Kwiatkowski, Jennimaria Palomaki, Olivia Redfield, Michael Collins, Ankur Parikh, Chris Alberti, Danielle Epstein, Illia Polosukhin, Jacob Devlin, Kenton Lee, 等人。2019。《自然问题：一个问答研究的基准》。计算语言学协会会刊，7:453–466。
Lee 等人（2024）Jean Lee, Nicholas Stevens, Soyeon Caren Han, 和 Minseok Song。2024。《金融领域大型语言模型的调查（FinLLMs）》。arXiv 预印本 arXiv:2402.02315。
Li 等人（2024a）Lijun Li, Bowen Dong, Ruohui Wang, Xuhao Hu, Wangmeng Zuo, Dahua Lin, Yu Qiao, 和 Jing Shao。2024a。Salad-bench: 大型语言模型的分层和综合安全基准。
Li 等人（2023a）Minghao Li, Yingxiu Zhao, Bowen Yu, Feifan Song, Hangyu Li, Haiyang Yu, Zhoujun Li, Fei Huang, 和 Yongbin Li。2023a。Api-bank: 一个全面的工具增强型 LLMs 基准。
Li 等（2023b）Yinheng Li, Shaofei Wang, Han Ding, 和 Hang Chen. 2023b. 金融领域的大型语言模型：一项调查。见于第四届 ACM 国际金融 AI 会议论文集，页 374–382。
Li 等（2024b）Zhen Li, Xiaohan Xu, Tao Shen, Can Xu, Jia-Chen Gu, 和 Chongyang Tao. 2024b. 利用大型语言模型进行自然语言生成评估：一项调查。arXiv 预印本 arXiv:2401.07103。
Liang 等（2023）Jacky Liang, Wenlong Huang, Fei Xia, Peng Xu, Karol Hausman, Brian Ichter, Pete Florence, 和 Andy Zeng. 2023. 代码作为政策：用于体现控制的语言模型程序。见于2023 IEEE 国际机器人与自动化大会（ICRA），页 9493–9500。IEEE。
Liang 等（2022）Percy Liang, Rishi Bommasani, Tony Lee, Dimitris Tsipras, Dilara Soylu, Michihiro Yasunaga, Yian Zhang, Deepak Narayanan, Yuhuai Wu, Ananya Kumar 等. 2022. 语言模型的整体评估。arXiv 预印本 arXiv:2211.09110。
Liang 等（2019）Yichan Liang, Jianheng Li, 和 Jian Yin. 2019. 用于课程学*的新型多选阅读理解数据集。见于亚洲机器学*会议，页 742–757。PMLR。
Liga 和 Robaldo（2023）Davide Liga 和 Livio Robaldo. 2023. 微调 gpt-3 以进行法律规则分类。计算机法律与安全评论，51:105864。
Lin（2004）Chin-Yew Lin. 2004. Rouge：一个自动评估摘要的软件包。见于文本摘要的分支，页 74–81。
Lin 等（2022）Stephanie Lin, Jacob Hilton, 和 Owain Evans. 2022. Truthfulqa：衡量模型如何模仿人类虚假信息。
Lin 等（2023）Zi Lin, Zihan Wang, Yongqi Tong, Yangkun Wang, Yuxin Guo, Yujia Wang, 和 Jingbo Shang. 2023. Toxicchat：揭示现实世界用户-AI 对话中毒性检测的隐性挑战。
Liu 等（2024a）Fang Liu, Yang Liu, Lin Shi, Houkun Huang, Ruifeng Wang, Zhen Yang, 和 Li Zhang. 2024a. 探索与评估 llm 驱动的代码生成中的幻觉。arXiv 预印本 arXiv:2404.00971。
Liu 等（2023）Hanmeng Liu, Ruoxi Ning, Zhiyang Teng, Jian Liu, Qiji Zhou, 和 Yue Zhang. 2023. 评估 chatgpt 和 gpt-4 的逻辑推理能力。
Liu 等（2024b）Xiaogeng Liu, Zhiyuan Yu, Yizhe Zhang, Ning Zhang, 和 Chaowei Xiao. 2024b. 针对大型语言模型的自动化和普遍提示注入攻击。arXiv 预印本 arXiv:2403.04957。
Liu 等（2021a）Xin Liu, Henglin Shi, Haoyu Chen, Zitong Yu, Xiaobai Li, 和 Guoying Zhao. 2021a. imigue：一个无身份的视频数据集，用于微手势理解和情感分析。见于IEEE/CVF 计算机视觉与模式识别会议论文集，页 10631–10642。
Liu 等（2021b）Zhuang Liu、Degen Huang、Kaiyu Huang、Zhuang Li 和 Jun Zhao。2021b 年。Finbert：用于金融文本挖掘的预训练金融语言表示模型。在 第二十九届国际人工智能联合会议论文集 中，第 4513–4519 页。
Lu 等（2024）Hao Lu、Xuesong Niu、Jiyao Wang、Yin Wang、Qingyong Hu、Jiaqi Tang、Yuting Zhang、Kaishen Yuan、Bin Huang、Zitong Yu 等。2024 年。GPT 作为心理学家？对 GPT-4v 在视觉情感计算上的初步评估。arXiv 预印本 arXiv:2403.05916。
Mahowald 等（2023）Kyle Mahowald、Anna A Ivanova、Idan A Blank、Nancy Kanwisher、Joshua B Tenenbaum 和 Evelina Fedorenko。2023 年。大语言模型中语言与思维的解离：认知视角。arXiv 预印本 arXiv:2301.06627。
Maia 等（2018）Macedo Maia、Siegfried Handschuh、André Freitas、Brian Davis、Ross McDermott、Manel Zarrouk 和 Alexandra Balahur。2018 年。Www’18 开放挑战：金融情感分析和问答。在 2018 年网络会议伴随论文 中，第 1941–1942 页。
Malo 等（2014）Pekka Malo、Ankur Sinha、Pekka Korhonen、Jyrki Wallenius 和 Pyry Takala。2014 年。好债还是坏债：检测经济文本中的语义倾向。信息科学与技术协会杂志，65(4):782–796。
Mann 等（2020）Ben Mann、N Ryder、M Subbiah、J Kaplan、P Dhariwal、A Neelakantan、P Shyam、G Sastry、A Askell、S Agarwal 等。2020 年。语言模型是少量样本学*者。arXiv 预印本 arXiv:2005.14165。
Markov 等（2023）Todor Markov、Chong Zhang、Sandhini Agarwal、Tyna Eloundou、Teddy Lee、Steven Adler、Angela Jiang 和 Lilian Weng。2023 年。一种对现实世界中不良内容检测的整体方法。
Mavadati 等（2013）S Mohammad Mavadati、Mohammad H Mahoor、Kevin Bartlett、Philip Trinh 和 Jeffrey F Cohn。2013 年。Disfa：自发面部动作强度数据库。IEEE 情感计算学报，4(2):151–160。
Menick 等（2022）Jacob Menick、Maja Trebacz、Vladimir Mikulik、John Aslanides、Francis Song、Martin Chadwick、Mia Glaese、Susannah Young、Lucy Campbell-Gillingam、Geoffrey Irving 等。2022 年。教授语言模型通过已验证的引用来支持回答。arxiv。
Miao 等（2023）Ning Miao、Yee Whye Teh 和 Tom Rainforth。2023 年。Selfcheck：使用 LLMs 自检其逐步推理。arXiv 预印本 arXiv:2308.00436。
Mihaylov 等（2018）Todor Mihaylov、Peter Clark、Tushar Khot 和 Ashish Sabharwal。2018 年。盔甲能导电吗？用于开放式问题回答的新数据集。在 EMNLP 中。
Min 等（2023）Bonan Min, Hayley Ross, Elior Sulem, Amir Pouran Ben Veyseh, Thien Huu Nguyen, Oscar Sainz, Eneko Agirre, Ilana Heintz, 和 Dan Roth. 2023. 通过大型预训练语言模型的自然语言处理的最新进展：综述。ACM 计算机调查, 56(2):1–40。
Moon 等（2014）Sungrim Moon, Serguei Pakhomov, Nathan Liu, James O Ryan, 和 Genevieve B Melton. 2014. 使用临床笔记和医学词典资源创建的临床缩写和首字母缩略词的感知清单。美国医学信息学会期刊, 21(2):299–307。
Muthukrishnan 等（2020）Nikesh Muthukrishnan, Farhad Maleki, Katie Ovens, Caroline Reinhold, Behzad Forghani, Reza Forghani 等. 2020. 人工智能简史。北美神经影像学诊所, 30(4):393–399。
Nakano 等（2022）Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, Xu Jiang, Karl Cobbe, Tyna Eloundou, Gretchen Krueger, Kevin Button, Matthew Knight, Benjamin Chess, 和 John Schulman. 2022. Webgpt：带有人工反馈的浏览器辅助问答。
Nayerifard 等（2023）Tahereh Nayerifard, Haleh Amintoosi, Abbas Ghaemi Bafghi, 和 Ali Dehghantanha. 2023. 数字取证中的机器学*：系统文献综述。arXiv 预印本 arXiv:2306.04965。
Nolfi（2023）Stefano Nolfi. 2023. 大型语言模型的意外能力。arXiv 预印本 arXiv:2308.09720。
Oviedo-Trespalacios 等（2023）Oscar Oviedo-Trespalacios, Amy E Peden, Thomas Cole-Hunter, Arianna Costantini, Milad Haghani, JE Rod, Sage Kelly, Helma Torkamaan, Amina Tariq, James David Albert Newton 等. 2023. 使用 ChatGPT 获取常见安全相关信息和建议的风险。安全科学, 167:106244。
Palmirani 和 Vitali（2011）Monica Palmirani 和 Fabio Vitali. 2011. 法律文档的 Akoma-ntoso。面向语义网的立法 XML：文档管理的原则、模型、标准, 页 75–100。
Papineni 等（2002）Kishore Papineni, Salim Roukos, Todd Ward, 和 Wei-Jing Zhu. 2002. Bleu：一种自动评估机器翻译的方法。见于 第 40 届计算语言学协会年会论文集, 页 311–318。
Parrish 等（2021）Alicia Parrish, Angelica Chen, Nikita Nangia, Vishakh Padmakumar, Jason Phang, Jana Thompson, Phu Mon Htut, 和 Samuel R Bowman. 2021. Bbq：一种手动构建的问答偏差基准。arXiv 预印本 arXiv:2110.08193。
Patil 等（2023）Shishir G. Patil, Tianjun Zhang, Xin Wang, 和 Joseph E. Gonzalez. 2023. Gorilla: 大型语言模型连接大量 API。
Petroni 等人（2019）Fabio Petroni, Tim Rocktäschel, Patrick Lewis, Anton Bakhtin, Yuxiang Wu, Alexander H Miller, 和 Sebastian Riedel。2019。语言模型可以作为知识库吗？ arXiv 预印本 arXiv:1909.01066。
Pinar Saygin 等人（2000）Ayse Pinar Saygin, Ilyas Cicekli, 和 Varol Akman。2000。图灵测试：50 年后。 思维与机器，10(4):463–518。
Qian 等人（2023）Cheng Qian, Chi Han, Yi R. Fung, Yujia Qin, Zhiyuan Liu, 和 Heng Ji。2023。 Creator: 用于解开大型语言模型的抽象与具体推理的工具创建。
Qin 等人（2023a）Yujia Qin, Zihan Cai, Dian Jin, Lan Yan, Shihao Liang, Kunlun Zhu, Yankai Lin, Xu Han, Ning Ding, Huadong Wang, Ruobing Xie, Fanchao Qi, Zhiyuan Liu, Maosong Sun, 和 Jie Zhou。2023a。 Webcpm：用于中文长篇问答的交互式网络搜索。
Qin 等人（2023b）Yujia Qin, Shengding Hu, Yankai Lin, Weize Chen, Ning Ding, Ganqu Cui, Zheni Zeng, Yufei Huang, Chaojun Xiao, Chi Han, Yi Ren Fung, Yusheng Su, Huadong Wang, Cheng Qian, Runchu Tian, Kunlun Zhu, Shihao Liang, Xingyu Shen, Bokai Xu, Zhen Zhang, Yining Ye, Bowen Li, Ziwei Tang, Jing Yi, Yuzhang Zhu, Zhenning Dai, Lan Yan, Xin Cong, Yaxi Lu, Weilin Zhao, Yuxiang Huang, Junxi Yan, Xu Han, Xian Sun, Dahai Li, Jason Phang, Cheng Yang, Tongshuang Wu, Heng Ji, Zhiyuan Liu, 和 Maosong Sun。2023b。使用基础模型进行工具学*。
Qin 等人（2023c）Yujia Qin, Shihao Liang, Yining Ye, Kunlun Zhu, Lan Yan, Yaxi Lu, Yankai Lin, Xin Cong, Xiangru Tang, Bill Qian, Sihan Zhao, Lauren Hong, Runchu Tian, Ruobing Xie, Jie Zhou, Mark Gerstein, Dahai Li, Zhiyuan Liu, 和 Maosong Sun。2023c。 Toolllm: 促进大型语言模型掌握 16000+现实世界 API。
Radford 等人（2018）Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever, 等。2018。通过生成性预训练改善语言理解。
Radford 等人（2019）Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, 等。2019。语言模型是无监督的多任务学*者。 OpenAI 博客，1(8):9。
Raina 和 Gales（2022）Vatsal Raina 和 Mark Gales。2022。多选题生成：迈向自动化评估框架。 arXiv 预印本 arXiv:2209.11830。
Rana 等人（2023）Krishan Rana, Jesse Haviland, Sourav Garg, Jad Abou-Chakra, Ian Reid, 和 Niko Suenderhauf。2023。 Sayplan：使用 3D 场景图为可扩展任务规划奠定大型语言模型的基础。在 第七届机器人学*年会 上。
Rathje 等人（2023）Steve Rathje, Dan-Mircea Mirea, Ilia Sucholutsky, Raja Marjieh, Claire Robertson, 和 Jay J Van Bavel。2023。Gpt 是进行多语种心理文本分析的有效工具。
Ren 等人（2023）Allen Z Ren, Anushri Dixit, Alexandra Bodrova, Sumeet Singh, Stephen Tu, Noah Brown, Peng Xu, Leila Takayama, Fei Xia, Jake Varley 等。2023 年。寻求帮助的机器人：大型语言模型规划者的不确定性对齐。arXiv 预印本 arXiv:2307.01928。
Ruan 等人（2023）Jingqing Ruan, Yihong Chen, Bin Zhang, Zhiwei Xu, Tianpeng Bao, Guoqing Du, Shiwei Shi, Hangyu Mao, Ziyue Li, Xingyu Zeng 和 Rui Zhao。2023 年。Tptu：基于大语言模型的任务规划和工具使用的 AI 代理。
Salehi 和 Burgueño（2018）Hadi Salehi 和 Rigoberto Burgueño。2018 年。结构工程中的新兴人工智能方法。Engineering structures, 171:170–189。
Scherrer 等人（2023）Nino Scherrer, Claudia Shi, Amir Feder 和 David M. Blei。2023 年。评估大语言模型中编码的道德信念。
Schick 等人（2023）Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli, Luke Zettlemoyer, Nicola Cancedda 和 Thomas Scialom。2023 年。Toolformer：语言模型可以自我学*使用工具。
Semigran 等人（2015）Hannah L Semigran, Jeffrey A Linder, Courtney Gidengil 和 Ateev Mehrotra。2015 年。自我诊断和分诊的症状检查器评估：审计研究。bmj, 351。
Shah 等人（2023）Dhruv Shah, Michael Robert Equi, Błażej Osiński, Fei Xia, Brian Ichter 和 Sergey Levine。2023 年。使用大语言模型进行导航：语义推测作为规划启发式方法。在机器人学*会议上，页码 2683–2699。PMLR。
Shah 等人（2022）Dhruv Shah, Blazej Osinski, Brian Ichter 和 Sergey Levine。2022 年。LM-nav: 使用大规模预训练的语言、视觉和行动模型进行机器人导航。在第六届年度机器人学*会议上。
Shan 和 Deng（2018）Li Shan 和 Weihong Deng。2018 年。可靠的众包和深度局部保持学*用于无约束的面部表情识别。IEEE 图像处理汇刊, 28(1):356–370。
Sharma 和 Thakur（2023）Gaurav Sharma 和 Abhishek Thakur。2023 年。Chatgpt 在药物发现中的应用。
Shinn 等人（2023）Noah Shinn, Federico Cassano, Edward Berman, Ashwin Gopinath, Karthik Narasimhan 和 Shunyu Yao。2023 年。Reflexion：具有语言强化学*的语言代理。
Singh 等人（2023）Ishika Singh, Valts Blukis, Arsalan Mousavian, Ankit Goyal, Danfei Xu, Jonathan Tremblay, Dieter Fox, Jesse Thomason 和 Animesh Garg。2023 年。Progprompt：使用大语言模型生成场景化机器人任务计划。在2023 IEEE 国际机器人与自动化会议（ICRA）上，页码 11523–11530。IEEE。
Sinha and Khandait (2021) Ankur Sinha 和 Tanmay Khandait. 2021. 新闻对商品市场的影响：数据集和结果。在 信息与通信的进展：2021 年信息与通信未来会议 (FICC) 会议录，第 2 卷 中，第 589–601 页。Springer。
Song et al. (2023a) Chan Hee Song, Jiaman Wu, Clayton Washington, Brian M. Sadler, Wei-Lun Chao, 和 Yu Su. 2023a. Llm-planner: 基于大型语言模型的少量示例基础规划用于具身智能体。在 IEEE/CVF 国际计算机视觉会议 (ICCV) 会议录 中。
Song et al. (2023b) Yifan Song, Weimin Xiong, Dawei Zhu, Wenhao Wu, Han Qian, Mingbo Song, Hailiang Huang, Cheng Li, Ke Wang, Rong Yao, Ye Tian, 和 Sujian Li. 2023b. Restgpt: 连接大型语言模型与真实世界的休闲 API。
Sorensen et al. (2024) Taylor Sorensen, Liwei Jiang, Jena D Hwang, Sydney Levine, Valentina Pyatkin, Peter West, Nouha Dziri, Ximing Lu, Kavel Rao, Chandra Bhagavatula, 等. 2024. 价值万花筒：与多元化人类价值观、权利和责任的 AI 互动。在 AAAI 人工智能会议会议录 中，第 38 卷，第 19937–19947 页。
Srivastava et al. (2022) Aarohi Srivastava, Abhinav Rastogi, Abhishek Rao, Abu Awal Md Shoeb, Abubakar Abid, Adam Fisch, Adam R Brown, Adam Santoro, Aditya Gupta, Adrià Garriga-Alonso, 等. 2022. 超越模仿游戏：量化和推断语言模型的能力。 arXiv 预印本 arXiv:2206.04615。
Srivastava 等人 (2023) Aarohi Srivastava, Abhinav Rastogi, Abhishek Rao, Abu Awal Md Shoeb, Abubakar Abid, Adam Fisch, Adam R. Brown, Adam Santoro, Aditya Gupta, Adrià Garriga-Alonso, Agnieszka Kluska, Aitor Lewkowycz, Akshat Agarwal, Alethea Power, Alex Ray, Alex Warstadt, Alexander W. Kocurek, Ali Safaya, Ali Tazarv, Alice Xiang, Alicia Parrish, Allen Nie, Aman Hussain, Amanda Askell, Amanda Dsouza, Ambrose Slone, Ameet Rahane, Anantharaman S. Iyer, Anders Andreassen, Andrea Madotto, Andrea Santilli, Andreas Stuhlmüller, Andrew Dai, Andrew La, Andrew Lampinen, Andy Zou, Angela Jiang, Angelica Chen, Anh Vuong, Animesh Gupta, Anna Gottardi, Antonio Norelli, Anu Venkatesh, Arash Gholamidavoodi, Arfa Tabassum, Arul Menezes, Arun Kirubarajan, Asher Mullokandov, Ashish Sabharwal, Austin Herrick, Avia Efrat, Aykut Erdem, Ayla Karakaş, B. Ryan Roberts, Bao Sheng Loe, Barret Zoph, Bartłomiej Bojanowski, Batuhan Özyurt, Behnam Hedayatnia, Behnam Neyshabur, Benjamin Inden, Benno Stein, Berk Ekmekci, Bill Yuchen Lin, Blake Howald, Bryan Orinion, Cameron Diao, Cameron Dour, Catherine Stinson, Cedrick Argueta, César Ferri Ramírez, Chandan Singh, Charles Rathkopf, Chenlin Meng, Chitta Baral, Chiyu Wu, Chris Callison-Burch, Chris Waites, Christian Voigt, Christopher D. Manning, Christopher Potts, Cindy Ramirez, Clara E. Rivera, Clemencia Siro, Colin Raffel, Courtney Ashcraft, Cristina Garbacea, Damien Sileo, Dan Garrette, Dan Hendrycks, Dan Kilman, Dan Roth, Daniel Freeman, Daniel Khashabi, Daniel Levy, Daniel Moseguí González, Danielle Perszyk, Danny Hernandez, Danqi Chen, Daphne Ippolito, Dar Gilboa, David Dohan, David Drakard, David Jurgens, Debajyoti Datta, Deep Ganguli, Denis Emelin, Denis Kleyko, Deniz Yuret, Derek Chen, Derek Tam, Dieuwke Hupkes, Diganta Misra, Dilyar Buzan, Dimitri Coelho Mollo, Diyi Yang, Dong-Ho Lee, Dylan Schrader, Ekaterina Shutova, Ekin Dogus Cubuk, Elad Segal, Eleanor Hagerman, Elizabeth Barnes, Elizabeth Donoway, Ellie Pavlick, Emanuele Rodola, Emma Lam, Eric Chu, Eric Tang, Erkut Erdem, Ernie Chang, Ethan A. Chi, Ethan Dyer, Ethan Jerzak, Ethan Kim, Eunice Engefu Manyasi, Evgenii Zheltonozhskii, Fanyue Xia, Fatemeh Siar, Fernando Martínez-Plumed, Francesca Happé, Francois Chollet, Frieda Rong, Gaurav Mishra, Genta Indra Winata, Gerard de Melo, Germán Kruszewski, Giambattista Parascandolo, Giorgio Mariani, Gloria Wang, Gonzalo Jaimovitch-López, Gregor Betz, Guy Gur-Ari, Hana Galijasevic, Hannah Kim, Hannah Rashkin, Hannaneh Hajishirzi, Harsh Mehta, Hayden Bogar, Henry Shevlin, Hinrich Schütze, Hiromu Yakura, Hongming Zhang, Hugh Mee Wong, Ian Ng, Isaac Noble, Jaap Jumelet, Jack Geissinger, Jackson Kernion, Jacob Hilton, Jaehoon Lee, Jaime Fernández Fisac, James B. Simon, James Koppel, James Zheng, James Zou, Jan Kocoń, Jana Thompson, Janelle Wingfield, Jared Kaplan, Jarema Radom, Jascha Sohl-Dickstein, Jason Phang, Jason Wei, Jason Yosinski, Jekaterina Novikova, Jelle Bosscher, Jennifer Marsh, Jeremy Kim, Jeroen Taal, Jesse Engel, Jesujoba Alabi, Jiacheng Xu, Jiaming Song, Jillian Tang, Joan Waweru, John Burden, John Miller, John U. Balis, Jonathan Batchelder, Jonathan Berant, Jörg Frohberg, Jos Rozen, Jose Hernandez-Orallo, Joseph Boudeman, Joseph Guerr, Joseph Jones, Joshua B. Tenenbaum, Joshua S. Rule, Joyce Chua, Kamil Kanclerz, Karen Livescu, Karl Krauth, Karthik Gopalakrishnan, Katerina Ignatyeva, Katja Markert, Kaustubh D. Dhole, Kevin Gimpel, Kevin Omondi, Kory Mathewson, Kristen Chiafullo, Ksenia Shkaruta, Kumar Shridhar, Kyle McDonell, Kyle Richardson, Laria Reynolds, Leo Gao, Li Zhang, Liam Dugan, Lianhui Qin, Lidia Contreras-Ochando, Louis-Philippe Morency, Luca Moschella, Lucas Lam, Lucy Noble, Ludwig Schmidt, Luheng He, Luis Oliveros Colón, Luke Metz, Lütfi Kerem Şenel, Maarten Bosma, Maarten Sap, Maartje ter Hoeve, Maheen Farooqi, Manaal Faruqui, Mantas Mazeika, Marco Baturan, Marco Marelli, Marco Maru, Maria Jose Ramírez Quintana, Marie Tolkiehn, Mario Giulianelli, Martha Lewis, Martin Potthast, Matthew L. Leavitt, Matthias Hagen, Mátyás Schubert, Medina Orduna Baitemirova, Melody Arnaud, Melvin McElrath, Michael A. Yee, Michael Cohen, Michael Gu, Michael Ivanitskiy, Michael Starritt, Michael Strube, Michał Swędrowski, Michele Bevilacqua, Michihiro Yasunaga, Mihir Kale, Mike Cain, Mimee Xu, Mirac Suzgun, Mitch Walker, Mo Tiwari, Mohit Bansal, Moin Aminnaseri, Mor Geva, Mozhdeh Gheini, Mukund Varma T, Nanyun Peng, Nathan A. Chi, Nayeon Lee, Neta Gur-Ari Krakover, Nicholas Cameron, Nicholas Roberts, Nick Doiron, Nicole Martinez, Nikita Nangia, Niklas Deckers, Niklas Muennighoff, Nitish Shirish Keskar, Niveditha S. Iyer, Noah Constant, Noah Fiedel, Nuan Wen, Oliver Zhang, Omar Agha, Omar Elbaghdadi, Omer Levy, Owain Evans, Pablo Antonio Moreno Casares, Parth Doshi, Pascale Fung, Paul Pu Liang, Paul Vicol, Pegah Alipoormolabashi, Peiyuan Liao, Percy Liang, Peter Chang, Peter Eckersley, Phu Mon Htut, Pinyu Hwang, Piotr Miłkowski, Piyush Patil, Pouya Pezeshkpour, Priti Oli, Qiaozhu Mei, Qing Lyu, Qinlang Chen, Rabin Banjade, Rachel Etta Rudolph, Raefer Gabriel, Rahel Habacker, Ramon Risco, Raphaël Millière, Rhythm Garg, Richard Barnes, Rif A. Saurous, Riku Arakawa, Robbe Raymaekers, Robert Frank, Rohan Sikand, Roman Novak, Roman Sitelew, Ronan LeBras, Rosanne Liu, Rowan Jacobs, Rui Zhang, Ruslan Salakhutdinov, Ryan Chi, Ryan Lee, Ryan Stovall, Ryan Teehan, Rylan Yang, Sahib Singh, Saif M. Mohammad, Sajant Anand, Sam Dillavou, Sam Shleifer, Sam Wiseman, Samuel Gruetter, Samuel R. Bowman, Samuel S. Schoenholz, Sanghyun Han, Sanjeev Kwatra, Sarah A. Rous, Sarik Ghazarian, Sayan Ghosh, Sean Casey, Sebastian Bischoff, Sebastian Gehrmann, Sebastian Schuster, Sepideh Sadeghi, Shadi Hamdan, Sharon Zhou, Shashank Srivastava, Sherry Shi, Shikhar Singh, Shima Asaadi, Shixiang Shane Gu, Shubh Pachchigar, Shubham Toshniwal, Shyam Upadhyay, Shyamolima Debnath, Siamak Shakeri, Simon Thormeyer, Simone Melzi, Siva Reddy, Sneha Priscilla Makini, Soo-Hwan Lee, Spencer Torene, Sriharsha Hatwar, Stanislas Dehaene, Stefan Divic, Stefano Ermon, Stella Biderman, Stephanie Lin, Stephen Prasad, Steven T. Piantadosi, Stuart M. Shieber, Summer Misherghi, Svetlana Kiritchenko, Swaroop Mishra, Tal Linzen, Tal Schuster, Tao Li, Tao Yu, Tariq Ali, Tatsu Hashimoto, Te-Lin Wu, Théo Desbordes, Theodore Rothschild, Thomas Phan, Tianle Wang, Tiberius Nkinyili, Timo Schick, Timofei Kornev, Titus Tunduny, Tobias Gerstenberg, Tr
Staab et al. (2023) Robin Staab, Mark Vero, Mislav Balunović, 和 Martin Vechev。2023 年。超越记忆：通过推断大型语言模型侵犯隐私。arXiv 预印本 arXiv:2310.07298。
Stolfo et al. (2023) Alessandro Stolfo, Zhijing Jin, Kumar Shridhar, Bernhard Schölkopf, 和 Mrinmaya Sachan。2023 年。一个因果框架来量化语言模型的数学推理鲁棒性。
Sun et al. (2023) Haotian Sun, Yuchen Zhuang, Lingkai Kong, Bo Dai, 和 Chao Zhang。2023 年。Adaplanner：基于反馈的语言模型自适应规划。在Advances in Neural Information Processing Systems，第 36 卷，第 58202–58245 页。Curran Associates, Inc.
Sun et al. (2024) Jiankai Sun, Chuanyang Zheng, Enze Xie, Zhengying Liu, Ruihang Chu, Jianing Qiu, Jiaqi Xu, Mingyu Ding, Hongyang Li, Mengzhe Geng, Yue Wu, Wenhai Wang, Junsong Chen, Zhangyue Yin, Xiaozhe Ren, Jie Fu, Junxian He, Wu Yuan, Qi Liu, Xihui Liu, Yu Li, Hao Dong, Yu Cheng, Ming Zhang, Pheng Ann Heng, Jifeng Dai, Ping Luo, Jingdong Wang, Ji-Rong Wen, Xipeng Qiu, Yike Guo, Hui Xiong, Qun Liu, 和 Zhenguo Li。2024 年。对基础模型推理的调查。
Suzgun et al. (2022) Mirac Suzgun, Nathan Scales, Nathanael Schärli, Sebastian Gehrmann, Yi Tay, Hyung Won Chung, Aakanksha Chowdhery, Quoc V Le, Ed H Chi, Denny Zhou, 等人。2022 年。挑战大型基准任务以及思维链是否能够解决这些任务。arXiv 预印本 arXiv:2210.09261。
Talmor et al. (2018) Alon Talmor, Jonathan Herzig, Nicholas Lourie, 和 Jonathan Berant。2018 年。Commonsenseqa：一个针对常识知识的问答挑战。arXiv 预印本 arXiv:1811.00937。
Tang et al. (2024) Liyan Tang, Igor Shalyminov, Amy Wing mei Wong, Jon Burnsky, Jake W. Vincent, Yu’an Yang, Siffi Singh, Song Feng, Hwanjun Song, Hang Su, Lijia Sun, Yi Zhang, Saab Mansour, 和 Kathleen McKeown。2024 年。Tofueval：评估大型语言模型在主题集中对话总结中的幻觉。
Tang et al. (2023) Qiaoyu Tang, Ziliang Deng, Hongyu Lin, Xianpei Han, Qiao Liang, Boxi Cao, 和 Le Sun。2023 年。Toolalpaca：用于语言模型的通用工具学*，基于 3000 个模拟案例。
Thirunavukarasu et al. (2023) Arun James Thirunavukarasu, Darren Shu Jeng Ting, Kabilan Elangovan, Laura Gutierrez, Ting Fang Tan, 和 Daniel Shu Wei Ting。2023 年。医学中的大型语言模型。Nature medicine，29(8):1930–1940。
Tobia (2020) Kevin P Tobia。2020 年。测试普通意义。Harv. L. Rev.，134:726。
Turpin et al. (2023) Miles Turpin, Julian Michael, Ethan Perez, 和 Samuel R. Bowman。2023 年。语言模型并不总是说出它们的真实想法：思维链提示中的不忠实解释。
Vaswani et al. (2017) Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, 和 Illia Polosukhin. 2017. 注意力机制才是你需要的一切。神经信息处理系统进展, 30.
Vermetten et al. (2022) Diederick Vermetten, Bas van Stein, Fabio Caraffini, Leandro L Minku, 和 Anna V Kononova. 2022. Bias: 用于在连续域中基准测试结构偏差的工具箱。IEEE 进化计算学报, 26(6):1380–1393.
Vidgen et al. (2024) Bertie Vidgen, Adarsh Agrawal, Ahmed M. Ahmed, Victor Akinwande, Namir Al-Nuaimi, Najla Alfaraj, Elie Alhajjar, Lora Aroyo, Trupti Bavalatti, Borhane Blili-Hamelin, Kurt Bollacker, Rishi Bomassani, Marisa Ferrara Boston, Siméon Campos, Kal Chakra, Canyu Chen, Cody Coleman, Zacharie Delpierre Coudert, Leon Derczynski, Debojyoti Dutta, Ian Eisenberg, James Ezick, Heather Frase, Brian Fuller, Ram Gandikota, Agasthya Gangavarapu, Ananya Gangavarapu, James Gealy, Rajat Ghosh, James Goel, Usman Gohar, Sujata Goswami, Scott A. Hale, Wiebke Hutiri, Joseph Marvin Imperial, Surgan Jandial, Nick Judd, Felix Juefei-Xu, Foutse Khomh, Bhavya Kailkhura, Hannah Rose Kirk, Kevin Klyman, Chris Knotz, Michael Kuchnik, Shachi H. Kumar, Chris Lengerich, Bo Li, Zeyi Liao, Eileen Peters Long, Victor Lu, Yifan Mai, Priyanka Mary Mammen, Kelvin Manyeki, Sean McGregor, Virendra Mehta, Shafee Mohammed, Emanuel Moss, Lama Nachman, Dinesh Jinenhally Naganna, Amin Nikanjam, Besmira Nushi, Luis Oala, Iftach Orr, Alicia Parrish, Cigdem Patlak, William Pietri, Forough Poursabzi-Sangdeh, Eleonora Presani, Fabrizio Puletti, Paul Röttger, Saurav Sahay, Tim Santos, Nino Scherrer, Alice Schoenauer Sebag, Patrick Schramowski, Abolfazl Shahbazi, Vin Sharma, Xudong Shen, Vamsi Sistla, Leonard Tang, Davide Testuggine, Vithursan Thangarasa, Elizabeth Anne Watkins, Rebecca Weiss, Chris Welty, Tyler Wilbers, Adina Williams, Carole-Jean Wu, Poonam Yadav, Xianjun Yang, Yi Zeng, Wenhui Zhang, Fedor Zhdanov, Jiacheng Zhu, Percy Liang, Peter Mattson, 和 Joaquin Vanschoren. 2024. 介绍 mlcommons 的 ai 安全基准 v0.5.
Wang et al. (2024a) Junyang Wang, Yuhang Wang, Guohai Xu, Jing Zhang, Yukai Gu, Haitao Jia, Jiaqi Wang, Haiyang Xu, Ming Yan, Ji Zhang, 和 Jitao Sang. 2024a. Amber: 一个无需大语言模型的多维基准，用于评估多语言模型的幻觉.
Wang et al. (2024b) Lei Wang, Chen Ma, Xueyang Feng, Zeyu Zhang, Hao Yang, Jingsen Zhang, Zhiyuan Chen, Jiakai Tang, Xu Chen, Yankai Lin, Wayne Xin Zhao, Zhewei Wei, 和 Jirong Wen. 2024b. 基于大型语言模型的自主代理调查. 计算机科学前沿, 18(6).
Wang et al. (2024c) Siyuan Wang, Zhuohan Long, Zhihao Fan, Zhongyu Wei, 和 Xuanjing Huang. 2024c. 基准自演变：用于动态大语言模型评估的多智能体框架。arXiv 预印本 arXiv:2402.11443.
Wang et al. (2018) Su Wang, Greg Durrett, 和 Katrin Erk. 2018. 通过注入世界知识建模语义合理性。 arXiv 预印本 arXiv:1804.00619。
Wang et al. (2023a) Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, Daniel Khashabi, 和 Hannaneh Hajishirzi. 2023a. Self-instruct: 通过自生成指令对齐语言模型。
Wang et al. (2023b) Zihao Wang, Shaofei Cai, Guanzhou Chen, Anji Liu, Xiaojian Ma, 和 Yitao Liang. 2023b. 描述、解释、规划和选择：与大型语言模型的互动规划实现开放世界多任务代理。 arXiv 预印本 arXiv:2302.01560。
Wei et al. (2024) Jiaheng Wei, Yuanshun Yao, Jean-Francois Ton, Hongyi Guo, Andrew Estornell, 和 Yang Liu. 2024. 通过专业加权测量和减少 LLM 幻觉，无需金标准答案。 arXiv 预印本 arXiv:2402.10412。
Wessel et al. (2023) Martin Wessel, Tomás Horych, Terry Ruas, Akiko Aizawa, Bela Gipp, 和 Timo Spinde. 2023. 介绍 MBIB——首个媒体偏见识别基准任务和数据集收集。在 第 46 届国际 ACM SIGIR 信息检索研究与开发会议论文集，第 2765–2774 页。
Weston et al. (2015) Jason Weston, Antoine Bordes, Sumit Chopra, Alexander M Rush, Bart Van Merriënboer, Armand Joulin, 和 Tomas Mikolov. 2015. 朝着 AI 完整的问答系统：一组先决条件玩具任务。 arXiv 预印本 arXiv:1502.05698。
Wu and Aji (2023) Minghao Wu 和 Alham Fikri Aji. 2023. 风格重于实质：大型语言模型的评估偏差。
Wu et al. (2023) Shijie Wu, Ozan Irsoy, Steven Lu, Vadim Dabravolski, Mark Dredze, Sebastian Gehrmann, Prabhanjan Kambadur, David Rosenberg, 和 Gideon Mann. 2023. Bloomberggpt: 一个用于金融的大型语言模型。 arXiv 预印本 arXiv:2303.17564。
Xie et al. (2023) Qianqian Xie, Weiguang Han, Xiao Zhang, Yanzhao Lai, Min Peng, Alejandro Lopez-Lira, 和 Jimin Huang. 2023. Pixiu: 一个金融领域的大型语言模型、指令数据和评估基准。 arXiv 预印本 arXiv:2306.05443。
Xu et al. (2023a) Fangzhi Xu, Qika Lin, Jiawei Han, Tianzhe Zhao, Jun Liu, 和 Erik Cambria. 2023a. 大型语言模型真的擅长逻辑推理吗？全面评估及其超越。
Xu et al. (2023b) Guohai Xu, Jiayi Liu, Ming Yan, Haotian Xu, Jinghui Si, Zhuoran Zhou, Peng Yi, Xing Gao, Jitao Sang, Rong Zhang, Ji Zhang, Chao Peng, Fei Huang, 和 Jingren Zhou. 2023b. Cvalues: 测量中国大型语言模型的价值，从安全到责任。
Xu et al. (2023c) Qiantong Xu, Fenglu Hong, Bo Li, Changran Hu, Zhengyu Chen, 和 Jian Zhang. 2023c. 开源大型语言模型的工具操作能力。
燕等（2024a）燕碧伟、李昆、徐名辉、董悦言、张跃、任兆春和程秀珍。2024a。关于保护大型语言模型（llms）数据隐私的调查。
燕等（2024b）燕凡佳、毛欢志、吉查理·程杰、张天君、帕蒂尔·G·希什尔、斯托伊卡和冈萨雷斯·约瑟夫。2024b。伯克利函数调用排行榜。
燕等（2014）燕文静、李晓白、王素晶、赵国英、刘勇金、陈玉欣和傅晓兰。2014 年。Casme ii：一个改进的自发微表情数据库及基线评估。PloS one，9(1)：e86041。
杨等（2023）杨世*、孙仁亮和万晓君。2023 年。一种用于段级幻觉检测的新基准和反向验证方法。
杨等（2018）杨智霖、齐鹏、张赛争、贝吉奥、威廉·W·科恩、萨拉赫图丁诺夫和克里斯托弗·D·曼宁。2018 年。Hotpotqa：一个多样化的、可解释的多跳问答数据集。arXiv 预印本 arXiv:1809.09600。
姚等（2023a）姚顺宇、陈霍华德、杨约翰和纳拉辛汉。2023a。Webshop：面向可扩展的现实世界网页交互与基础语言代理。
姚等（2023b）姚顺宇、赵杰弗里、俞典、杜楠、沙夫兰和纳拉辛汉。2023b。React：在语言模型中协同推理与行动。
姚等（2024）姚一凡、段金豪、徐凯迪、蔡元方、孙志博和张跃。2024 年。关于大型语言模型（llm）安全性和隐私的调查：优点、缺点与不足。高信度计算，第 100211 页。
叶等（2024）叶丹尼尔·温基特、艾桑·埃斯马拉迪和陈春辉。2024 年。一种评估大型语言模型对提示注入攻击的韧性的新评价框架。
杨等（2022）杨纳森、包启明、贝恩斯曼和维特布罗克。2022 年。Abductionrules：训练变换器解释意外输入。arXiv 预印本 arXiv:2203.12186。
于等（2023）于文浩、尼姆罗德·吉利亚迪、傅初源、克尔曼、李光辉、蒙特塞·冈萨雷斯·阿雷纳斯、赖昂·刘易斯·姜、汤姆·埃雷兹、伦纳德·哈森克莱弗、简·洪普利克、布莱恩·伊赫特、特德·肖、彭旭、安迪·曾、张廷楠、尼古拉斯·赫斯、多尔萨·萨迪赫、谭杰、尤瓦尔·塔萨和谢飞。2023 年。语言到奖励的机器人技能合成。arXiv 预印本 arXiv:2306.08647。
袁等（2023）袁正、袁洪毅、谭川琦、王伟和黄松芳。2023 年。大型语言模型在算术任务中的表现如何？
Yuan 等人 (2024) Zhuowen Yuan, Zidi Xiong, Yi Zeng, Ning Yu, Ruoxi Jia, Dawn Song 和 Bo Li. 2024. Rigorllm: 针对不良内容的大型语言模型的弹性保护措施。
Zhan 等人 (2024) Qiusi Zhan, Zhixiang Liang, Zifan Ying 和 Daniel Kang. 2024. Injecagent: 在工具集成的大型语言模型代理中基准测试间接提示注入。 arXiv 预印本 arXiv:2403.02691。
Zhang 等人 (2023) Jizhi Zhang, Keqin Bao, Yang Zhang, Wenjie Wang, Fuli Feng 和 Xiangnan He. 2023. ChatGPT 在推荐系统中公*吗？评估大型语言模型推荐中的公*性。见于 第 17 届 ACM 推荐系统会议论文集，RecSys ’23. ACM。
Zhang 等人 (2024a) Kechi Zhang, Jia Li, Ge Li, Xianjie Shi 和 Zhi Jin. 2024a. Codeagent: 通过工具集成代理系统增强代码生成，用于真实世界的仓库级编码挑战。
Zhang 等人 (2024b) Xiaoying Zhang, Baolin Peng, Ye Tian, Jingyan Zhou, Lifeng Jin, Linfeng Song, Haitao Mi 和 Helen Meng. 2024b. 自我对齐以确保事实准确性: 通过自我评估减轻大型语言模型中的虚假信息。 arXiv 预印本 arXiv:2402.09267。
Zhang 和 Yang (2023) Xuanyu Zhang 和 Qing Yang. 2023. Xuanyuan 2.0: 一个拥有数百亿参数的大型中文金融聊天模型。见于 第 32 届 ACM 国际信息与知识管理大会论文集，第 4435–4439 页。
Zhang 等人 (2018) Yuyu Zhang, Hanjun Dai, Zornitsa Kozareva, Alexander J Smola 和 Le Song. 2018. 基于知识图谱的问答的变分推理。见于 AAAI。
Zhao 等人 (2023) Guoying Zhao, Xiaobai Li, Yante Li 和 Matti Pietikäinen. 2023. 面部微表情: 一览。 IEEE 会议录。
Zheng 等人 (2023a) Duo Zheng, Shijia Huang, Lin Zhao, Yiwu Zhong 和 Liwei Wang. 2023a. 朝向学*一个通用模型用于具身导航。
Zheng 等人 (2024) Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric Xing 等人. 2024. 通过 mt-bench 和聊天机器人竞技场评估 LLM 作为评判者的能力。 神经信息处理系统进展，第 36 卷。
Zheng 等人 (2023b) Shen Zheng, Jie Huang 和 Kevin Chen-Chuan Chang. 2023b. 为什么 ChatGPT 在提供真实答案方面存在不足？
Zhou 等人 (2023a) Gengze Zhou, Yicong Hong 和 Qi Wu. 2023a. Navgpt: 在视觉与语言导航中利用大型语言模型进行明确推理。 arXiv 预印本 arXiv:2305.16986。
Zhou 等人 (2023b) Shuyan Zhou, Frank F. Xu, Hao Zhu, Xuhui Zhou, Robert Lo, Abishek Sridhar, Xianyi Cheng, Tianyue Ou, Yonatan Bisk, Daniel Fried, Uri Alon 和 Graham Neubig. 2023b. Webarena: 为构建自主代理提供的真实网站环*。
Zielinski 等（2023）Chris Zielinski, Margaret Winker, Rakesh Aggarwal, Lorraine Ferris, Markus Heinemann, Jose Florencio Lapeña Jr, Sanjay Pai, Edsel Ing, Leslie Citrome 等。2023 年。关于 ChatGPT 和聊天机器人的 WAME 推荐，与学术出版物相关。

生成于 2024 年 6 月 3 日星期一 02:19:28，由 LaTeXML

关于 LLM 指令调优的数据选择综述

来源：arxiv.org/html/2402.05123

HTML 转换有时会出现显示错误，这是由于内容从源文件转换时出现了问题。本文使用了以下 HTML 转换工具尚不支持的包。对这些问题的反馈并不必要；它们已知并正在处理之中。

失败：forest

作者：通过遵循这些最佳实践，从您的 LaTeX 提交中获得最佳 HTML 结果。

许可证：CC BY 4.0arXiv:2402.05123v1 [cs.CL] 2024 年 2 月 4 日

关于 LLM 指令调优的数据选择调查

Jiahao Wang${}^{1,2}$ *等贡献和共享共同第一作者。 Bolin Zhang${}^{1}$ ${}^{*}$ Qianlong Du${}^{2}$ Jiajun Zhang${}^{2}$ 通讯作者。 Dianhui Chu${}^{1}$

${}^{1}$哈尔滨工业大学

${}^{2}$中国科学院自动化研究所

jiahaowang0917@gmail.com，{brolin, chudh}@hit.edu.cn，{qianlong.du,jjzhang}@nlpr.ia.ac.cn

摘要

指令调优是训练大型语言模型（LLM）的关键步骤，因此如何提升指令调优的效果受到了越来越多的关注。现有研究表明，在 LLM 的指令调优过程中，数据集的质量比数量更为重要。因此，最近许多研究集中于探索从指令数据集中选择高质量子集的方法，旨在降低训练成本并提升 LLM 的指令跟随能力。本文对 LLM 指令调优的数据选择进行了全面调查。首先，我们介绍了广泛使用的指令数据集。接着，我们提出了一种新的数据选择方法分类，并详细介绍了近期进展，同时详细阐述了数据选择方法的评估策略和结果。最后，我们强调了开放挑战，并展示了该任务的新前沿。

1 引言

大型语言模型（例如 PaLMChowdhery 等人（2023），GPT-4 OpenAI（2023）和 LLaMa Touvron 等人（2023））在广泛的语言理解和生成任务中展现了卓越的能力，能够有效且安全地遵循人类指令。在训练过程中，LLMs 通常涉及两个基本步骤 Ouyang 等人（2022a）：在大规模语料库上进行预训练，在指令数据集上进行微调。在这些步骤中，指令数据集上的微调，也称为指令微调，在将 LLMs 与人类指令对齐方面发挥了至关重要的作用。通过在（指令，输出）数据集上训练 LLMs，指令微调有效地弥合了 LLMs 与各种人类意图之间的差距 Zhang 等人（2023）。具体而言，指令微调可以使 LLMs 的输出更符合人类偏好，从而增强 LLMs 的可控性和安全性。另一个好处是，指令微调可以使大型模型更快地适应特定领域或学*专门知识，而不需要大量的计算资源和架构更改。

在早期研究中，指令微调的工作主要集中在构建大规模指令数据集，创建指令数据集可以通过两种主要方式完成。一种是通过模板将现有标注自然语言数据集中的文本-标签对转换为指令-输出对，例如 P3Sanh 等人（2022）。另一种方法是使用如 GPT-3.5-Turbo 这样的 LLMs 为给定的指令生成输出，例如 self-instructWang 等人（2023）。尽管已经通过多种方法创建了各种大规模指令数据集，但它们在数量、多样性和创造性方面往往存在限制。此外，如何提升在大规模指令数据集上的指令跟随能力和处理意外回应的能力，仍是一个需要解决的当前问题。

因此，选择合适的数据集对于指令微调阶段至关重要。虽然指令微调主要依赖于大量数据，但如 LIMAZhou 等人（2023a）的研究表明，数据质量比数量更为关键。他们展示了仅使用 1000 条高质量指令数据在 LLMs 中取得了显著的性能提升。这一发现表明，LLMs 在预训练阶段已经获得了世界知识，而指令微调阶段仅需少量高质量的指令数据即可生成高质量的回应。

手动指令数据选择通常涉及高成本并引入人为偏差。因此，创建自动化方法以高效选择指令数据变得至关重要。然而，由于涉及复杂的因素和多维度的考虑，这项任务具有挑战性。例如，很难评估单个指令的质量并确保所选数据的整体多样性。另一个挑战是降低成本并提高选择过程的效率。鉴于这些因素，已经开发了各种数据选择方法。一些方法使用指标系统来评估单个数据点，而其他方法依赖于可训练的 LLMs 或强大的外部 LLMs。这些方法利用 LLMs 自身的能力来选择指令。此外，使用较小模型并设计全面流程以在各方面实现*衡效果的方法也值得关注。这些方法已显示出令人鼓舞的结果。例如，IFDLi 等人（2023a）的方法通过仅使用约 5%的 Alpaca 数据集显著优于 Alpaca 模型，并且也比 WizardLM 模型高出约 10%。使用高质量子集进行微调不仅提升了 LLMs 的指令跟随能力，而且显著降低了计算成本和时间。

{forest}

分叉边缘，树= grow=east，reversed=true，anchor=base west，parent anchor=east，child anchor=west，base=left，font=，矩形，draw=hidden-draw，圆角，align=left，minimum width=4em，edge+=darkgray，line width=1pt，s sep=3pt，inner xsep=2pt，inner ysep=3pt，line width=0.8pt，ver/.style=rotate=90，child anchor=north，parent anchor=south，anchor=center，，where level=1text width=6em,font=，，where level=2text width=6em,font=，，where level=3text width=8em,font=，，where level=4text width=5em,font=，， [ 数据选择用于指令调优，ver [指令

集 (§2) [ Alpaca Taori 等人（2023），WizardLM Xu 等人（2023a），

Dolly-v2 Conover 等人（2023），P3 Sanh 等人（2022），

LIMA Zhou 等人（2023a），自我指令 Wang 等人（2023），leaf, text width=37em ] ] [数据选择

方法 (§3) [系统

指标

(§3.1) [ INSTRUCTMINING Cao 等（2023），InstructionGPT-4 Wei 等（2023），

DQ Zhou 等（2023b），，leaf，文本宽度=37em ] ] [可训练

LLMs (§3.2) [ IFD Li 等（2023a），指令回译 Li 等（2023b），

Nuggets Li 等（2023c），DIVERSEEVOL Wu 等（2023），

TEGIT Chen 等（2023c），ActiveIT Kung 等（2023），leaf，文本宽度=37em ] ] [强大

LLMs (§3.3) [ AlpaGasus Chen 等（2023b），INSTAG Lu 等（2023），LIFT Xu 等（2023b），

DEITA Liu 等（2023），tree-instruct Zhao 等（2023），WaveCoder Yu 等（2023），leaf，文本宽度=37em ] ] [小型

模型 (§3.4) [ MoDS Du 等（2023），基于核心集的选择 Chen 等（2023a），，leaf，文本宽度=37em ] ] ] [评估

方法 (§4) [ 胜率 (§4.1)，内部比较 (§4.2)，外部比较 (§4.3)，leaf，文本宽度=37em ] ] ] ]

图 1：LLM 指令调优的数据选择概述。

本文全面回顾了现有的 LLM 指令调优数据选择方法。为了便利社区，我们维护了一个论文列表¹¹1github.com/Bolin97/awesome-instruction-selector，收集常用的数据选择指令集。第2节描述了用于指令调优的不同来源和构建方法的主流数据集，第3节详细描述了四种数据选择方法：指标集、可训练的 LLMs、强大的 LLMs 和小模型。第4节介绍了评估方法，并展示了不同指令选择方法的结果。第5节总结了论文内容，并强调了指令选择中的开放挑战和未来方向。

2 指令集

各种指令调优数据集（例如 Self-Instruct 和 Alpaca），由 LLMs 生成，提供了大量样本而无需人工劳动，但数据质量依赖于 LLMs 的性能且不确定。相对而言，人工筛选的数据集（例如 LIMA 和 Dolly）通过细致的人为选择获得更高的质量，但可能受到人为偏见的影响。替代的数据集构建方法，如 prompt mapping 和 evol-instruct，旨在提升数据集的质量和多样性，但引入了质量保证的新挑战。数据集构建和来源的这种变异性显著影响了数据质量，突显了仔细数据选择对 LLM 指令调优的重要性。本节描述了几种常见的指令调优数据集的规模和构建程序。

自我指令，由 Wang 等人创建（2023），包含 52,000 个训练指令和 252 个测试指令。初始指令从种子任务中选取，通过 InstructGPT Ouyang 等人（2022b）进行分类和多样化，生成输入和输出，采用先输出或先输入的策略。后处理精炼了数据集的独特性和相关性，为自然语言处理应用提供了多功能的资源。

Alpaca，由 Taori 等人创建（2023），包含 52,002 个样本，用于微调 LLaMA 以提高指令跟随能力。根据 Wang 等人（2023）的方法，样本是通过使用 text-davinci-003 生成的。

WizardLM，由 Xu 等人创建（2023a），包含 250,000 个样本，由进化算法生成。使用了两种算法（深度进化和广度进化）来增强基础指令的复杂性和范围，通过 ChatGPT 生成更复杂和多样化的高质量指令数据。

LIMA，由 Zhou 等人创建（2023a），包含 1,000 个训练样本、300 个测试样本和 50 个开发样本。除了手动编写的样本外，还严格挑选了从问答网站收集的样本。尽管规模较小，LIMA 因其细致的编纂和设计而脱颖而出。基于 LIMA 微调的 LLM 在跟随指令和适应未知任务方面表现出显著能力。

Dolly-v2，由 Conover 等人创建（2023），包含 15,000 个指令，涉及各种任务如头脑风暴、分类、问答和总结。员工手动编写（提示，响应）对。他们被限制仅使用维基百科，并被建议不要使用网络来源或生成型 AI 来编写响应。

P3，由 Sanh 等人创建（2022），整合了 170 个 NLP 数据集和 2,052 个提示。这些提示，也称为任务模板，将传统的 NLP 任务（如问答或文本分类）转换为自然语言的输入输出对。P3 数据集本身由从 PromptSource 中随机选择的提示组成，并将数据组织成输入、答案选项和目标的三元组。

3 数据选择方法

正式地，定义一个指令数据集 $X$，其大小为 $n$，其中 $X=\{x_{1},x_{2},\dots,x_{n}\}$，每个 $x_{i}$ 代表一个指令微调数据实例。为了从 $X$ 中采用特定的指令数据选择方法 $\pi$ 并选择一个大小为 $m$ 的子集 $S_{\pi}^{(m)}$，Liu 等人（2023）接着使用预定义的评估指标 $Q$ 来评估 $S_{\pi}^{(m)}$ 的质量。通过评估指标测量获得的子集质量，可以评估所选指令数据选择方法的有效性。设计选择方法的过程可以表示为：

	$S^{(m)}_{\pi}=\pi\left(X\right)$		(1)
	$\pi^{*}=\arg\max_{\pi}Q\left(S^{(m)}_{\pi}\right)$		(2)

教学数据选择方法的分类基于该方法使用的评分规则和所采用的模型基础。这些方法可以分为以下四类：基于指标系统的方法、可训练的 LLMs、像 ChatGPT 这样的强大 LLMs 和小型模型。

3.1 基于指标系统的方法

使用指标集系统的方法直接识别多个指标 $I_{1},I_{2},\dots,I_{n}$，从而建立全面的指标集。该集合中的每个指标由特定的计算公式定义。值得注意的是，某些指标可能利用深度学*技术从数据集中提取特征，这些本质上是指标形式。这些指标有助于计算数据实例的个体分数，记作 $score_{ij}=I_{i}(x_{j})$。这些分数随后在开发更强大的指标集系统中起到关键作用。

	$score_{j}=G\left(I_{1}(x_{j}),I_{2}(x_{j}),\dots,I_{n}(x_{j})\right)$		(3)

一旦建立，指标集系统可以直接用于计算数据集中每个数据实例的分数。通过建立合适的阈值，该系统有助于根据各自的分数选择数据：

	$S_{\pi}=\{x\|G(x)>\tau\}$		(4)

曹等人（2023）介绍了 INSTRUCTMINING，这是一种基于线性规则的方法，用于评估教学数据的质量。该方法最初识别了关键的自然语言指标，如指令长度、困惑度、奖励分数、KNN-iReimers 和 Gurevych（2019）；Dong 等人（2011），等。这些指标随后用于建立线性方程。为了探讨数据质量与这些指标之间的关联，并定义方程的参数，进行了全面的微调实验。不同质量的数据集被划分为子集，组合后用于大规模模型的微调。每个子集的质量标签通过评估模型在测试集上的表现得出。最小二乘法被应用于这些实验结果，以估算 INSTRUCTMINING 中的参数。这涉及将线性方程拟合到评估模型在测试集上的损失。一旦参数确定，这个公式就可以用来计算指令的质量，从而促进数据选择。

Wei 等人 (2023) 提出了 InstructionGPT-4，一种用于多模态大模型微调的数据选择方法。它在各种评估中优于 MiniGPT-4Zhu 等人 (2023)，且使用的数据更少。第一步，使用 CLIP ScoreRadford 等人 (2021)、指令长度等指标。视觉和文本数据被编码成向量，然后进行降维，这被视为特殊指标。这些指标被组合成一个向量 $e$。然后，将该向量输入到一个可训练的数据选择器中，如多层感知器或自注意力网络。这种方法类似于 Cao 等人 (2023) 在计算质量标签时，采用聚类算法对数据集进行分割。在每个子集的微调和评估后分配质量标签。

Zhou 等人 (2023b) 介绍了 DQ 方法，这是一种用于大规模计算机视觉数据集的创新数据压缩技术，但它也已被调整用于 LLM 领域。该方法涉及几个关键步骤：最初，定义增益函数 $P(x)$，

	$P(x)=\sum_{p\in S}\|\|f(p)-f(x)\|\|^{2}_{2}-\sum_{p\in D\setminus S}\|\|f(p)-f(x)\|\|^% {2}_{2}$		(5)

结合特征函数 $f(.)$ —— 类似于度量 —— 并使用当前子集 $S$ 和整个数据集 $D$。该增益函数本质上形成了一个度量集函数 $G(.)$。然后，数据集被迭代地划分为不重叠的子集，按照增益函数的指导以最大化定义的增益。随后，从每个子集中均匀地选择一个代表性样本，以确保覆盖整个数据集，同时优化数据的多样性。这种方法优先考虑保持数据集的整体多样性。

3.2 基于可训练 LLM 的方法

本节概述了使用可训练的 LLM（如 LLaMa）来开发数据选择过程中的计算公式。LLM 作为可训练的数据选择器，处理并为每条指令微调数据分配分数。

	$score_{i}=LLM_{trainable}(x_{i})$		(6)

这种方法不仅关注分析单个指令，还强调同步数据选择与用于微调的大模型功能的必要性。后续章节将详细说明具体方法。

Li 等人 (2023a) 提出了 IFD 方法。该方法假设 LLM 可以通过精心挑选的数据初步学*识别指令，从而提升其评估更广泛数据集质量和估计指令跟随难度的能力。最初，该方法涉及对 LLM 进行微调，使用一个小的、聚类的指令数据集，以培养基本的指令跟随技能。然后引入了一个新的度量指标“指令跟随难度（IFD）”，用于评估响应特定指令的挑战。IFD 比较在没有特定指令情况下的响应质量。条件答案得分定义为：

	$s_{\theta}(A\|Q)=\frac{1}{N}\sum_{i=1}^{n}logP(w_{i}\|Q,w_{1},\dots,w_{i-1})$		(7)

该得分评估模型在指令后（Q）与正确答案的对齐情况，考虑了生成答案（A）的影响。最终的 IFD 为：

	$r_{\theta}(Q,A)=\frac{s_{\theta}(A\|Q)}{s_{\theta}(A)}$		(8)

IFD 得分量化了模型在每个样本上的挑战。通过设置 IFD 得分阈值，可以选择特定的指令进行初始 LLM 预训练，从而得到一个经过优化的模型。

Li 等人 (2023b) 提出了指令回译（Instruction Backtranslation）方法，用于生成和筛选指令。该方法从一个基线指令跟随模型和一个网络语料库开始，模型为每个网络文档生成指令，形成一个数据集。然后，模型用种子指令进行微调，以获得基本能力。它还会自动对每个指令进行评分，将那些超过设定阈值的指令形成高分子集，以进行进一步微调。这个迭代过程提高了指令生成和筛选的效率。

Li 等人 (2023c) 提出了 Nuggets 框架，该框架采用了双阶段方法。最初，使用多种预定义任务评估 LLM 在多个场景中的能力，这一过程被称为零-shot 评分。随后，指令数据集中的每个条目作为独特的提示进行一次性使用。这些提示在预定义任务之前呈现，并重新评估 LLM 的表现，这一步称为一次性评分。该方法利用一次性和零-shot 评分之间的差异，为每个指令计算一个明确的“黄金得分”。获得所有指令的黄金得分后，选择那些组成最高得分子集的指令作为“黄金子集”。然后直接使用该子集进行模型的微调。该方法利用了大规模模型固有的上下文学*能力。

Wu 等人 (2023) 介绍了 DIVERSEEVOL 机制，这是一种创新的迭代数据选择策略。它利用像 LLaMa 这样的大规模模型生成用于指导数据的嵌入向量。该机制使用了 k-center-greedy 算法 Sener 和 Savarese (2018a) 来促进选择数据子集的多样性，以便对 LLaMa 模型进行微调。该过程被反复应用，逐步扩大所选子集，最终创建一个高质量的指导数据集。

Chen 等人 (2023c) 提出了 TEGIT 方法，提供了一种生成优质指令微调数据的新方法。特别值得注意的是他们的数据筛选方法。利用 ChatGPT，将小型文档语料库转换为适合指导数据的格式，形成一个元数据集。该数据集随后用于训练两个 Llama2 模型——一个作为任务生成器，另一个作为任务鉴别器。生成器的角色是从提供的文本中设计任务，而鉴别器评估这些任务，以确保其质量。

Kung 等人 (2023) 提出了 Active Instruction Tuning，这是一种独特的方法，专注于任务敏感性选择，旨在通过使用更少的任务来增强大模型的微调，同时提高任务之外的泛化能力。该技术引入了 Prompt Uncertainty 的概念，该概念通过随机删除原始指令中的单词生成 k 个扰动指令来确定。然后，对这些 k 个扰动指令的 LLM 概率偏差进行*均。表现出较高 Prompt Uncertainty 的任务优先用于指令微调，Prompt Uncertainty 的程度作为任务不确定性的度量。

3.3 基于强大 LLM 如 ChatGPT 的方法

本节介绍了使用强大 LLM，如 GPT-4 和 ChatGPT，作为数据选择器的方法。该方法主要包括设计提示模板并利用 LLM 的能力来评估指导数据的质量。

	$S_{\pi}=\{x\mid ChatGPT(score\mid prompt,x),score>\tau\}$		(9)

Chen 等人（2023b）提出了 ALPAGASUS 作为一种创新的数据过滤方法，旨在提高指令跟随任务（IFT）数据整理的效率和准确性。这一方法利用设计良好的提示应用于 ChatGPT，以评估每个数据元组（包括指令、输入和响应）的质量。该方法侧重于排除低于预定义质量阈值的数据元组。当这一过滤过程应用于大量数据集时，观察到数据的相当一部分存在质量问题。值得注意的是，应用基于 LLM 的过滤过程开发出的模型超越了原始模型的性能，该原始模型是使用未过滤的数据集和基于指令的微调进行训练的。

Lu 等人（2023）介绍了一种自动化的指令标记方法（INSTAG），该方法利用 ChatGPT 为指令生成详细的开放式标签，并确保子集的多样性和复杂性。这个过程涉及用反映每个指令语义和意图的标签对数据进行标注，并对其进行标签化选择的规范化处理。该方法遵循复杂性优先的多样化采样策略。首先按标签数量降序排列查询，然后根据标签的唯一性迭代地将查询添加到子集中，直到子集达到所需的大小 N。最终结果是一个经过整理的查询集，拥有更多的标签，表明其复杂性和多样性更高。

为了提升数据集的分布和质量，Xu 等人（2023b）提出了 LIFT 方法以减少样本的冗余。这一方法包含两个阶段：扩展数据集分布和整理数据集的多样性及质量。最初，ChatGPT 通过生成多样化的指令并将其向量化来增强数据。然后，基于行方差选择一个子集。其次，ChatGPT 对指令的准确性、可解释性、清晰度、难度和长度进行评分。初始子集会根据这些评分重新选择。

刘等人（2023）介绍了 DEITA 方法，该方法整合了多方面的选择指令数据的方法，重点关注复杂性、质量和多样性。复杂性描述了指令的长度、难度和复杂度等因素。质量则捕捉了输出的准确性。利用 WizardLM 技术，ChatGPT 被用来增强指令，然后对这些指令的复杂性和质量进行评估。这些评估包括使用专门训练的复杂性评分器对指令进行复杂性评分，并评估输出质量。数据集中的每个指令都被分配了复杂性分数（$c$）和质量分数（$q$），然后通过将这两个指标相乘来计算综合分数。接着，数据集根据这些综合分数进行组织，并进行向量化以便进一步分析。

为确保多样性，通过添加距离子集中最近邻样本超过设定距离阈值（$\tau$）的样本来创建一个子集。这个过程持续进行，直到子集达到预定的大小。

赵等人（2023）提出了 tree-instruct 方法，该方法通过提高指令的复杂性来改善指令的质量。刘等人（2023）使用该方法来衡量指令的复杂性，并设置指令过滤的阈值。Tree-instruct 利用 GPT-4 生成指令数据的语义解析树，使用树中的节点数量作为复杂性的衡量标准。通过向树中添加节点来增强复杂性，然后使用 GPT-4 将新树转换回自然语言，从而生成新的高质量指令。

于等人（2023）提出了 WaveCoder，这是一种以代码为重点的 LLM，通过指令改进技术得到增强。其训练包含生成的数据，其中数据过滤阶段尤为重要。在数据生成之后，利用 GPT-4 的 LLM 基础判别器对指令数据进行评估，依据分为子主题的既定标准。这种方法能够更精细地控制过滤过程，有效地消除低质量的指令实例。

3.4 基于小模型的方法

本节介绍了涉及使用外部小模型作为评分器的方法，或将指令转化为嵌入向量后进行进一步处理。通常，这些方法相当全面。小模型进行的评分过滤或嵌入生成往往只是整个方法过程的一部分。

杜等人（2023）介绍了 MoDS 方法，重点通过三个标准进行指令选择：质量（指令数据的真实性）、覆盖率（指令类型的多样性）和必要性（指令对 LLM 微调的影响）。该过程分为四个关键步骤：

首先，使用奖励模型评估指令数据集的质量，选择一个子集$D_{h}$，包含超过预定义质量阈值的指令。其次，利用 k-center-greedy 算法（Sener 和 Savarese（2018a））识别种子指令，从而确保指令数据集的多样性和代表性。第三，对预训练的 LLM 进行种子指令的微调。随后，将该优化模型应用于$D_{h}$生成新数据集$D_{inference}$。然后，使用奖励模型评估该数据集，识别对 LLM 学*至关重要的指令，重点关注那些得分较低的指令。设立阈值以选择增强的指令数据，这些数据特别针对提升模型性能进行调整。最后，将种子指令与增强的指令数据结合，形成一个高质量的指令子集，旨在有效地对 LLM 进行微调。

陈等人（2023a）提出了一种基于核心集和任务相关的数据选择方法：首先，通过预训练语言模型（如 BERT）获取样本的句子嵌入，然后对这些嵌入应用无监督聚类来选择中心点，最后使用 KCenterGreedy 算法（Sener 和 Savarese（2018b））从给定数据集中检索核心样本。这种方法有效减少了所需的训练数据量，同时保持或潜在提升模型性能。

表 1：不同选择方法在获胜率上的表现。

选择方法模型对比训练集测试基准（WS） Vicuna/Koala/WizardLM/Self-inst/LIMA total WS IFD Li 等人 (2023a) llama-7b(5%), llama-7b(full) alpaca 1.125/0.97/1.077/1/1.1 1.04 llama-7b(10%), llama-7b(full) 1.037/1.055/1.114/1.123/1.103 1.097 llama-7b(15%), llama-7b(full) 1/1.038/1.114/1.027/1.09 1.064 llama-7b(10%), llama-7b(full) WizardLM 1.1625/1.1278/1.1147/1.0278/1.1067 1.0971 llama2-7b(5%), llama2-7b(full) alpaca 1.5875/1.4889/1.4266/1.2937/1.4733 1.4311 随机抽样 llama-7b(5%), llama-7b(full) alpaca - 0.9 InstructionGPT4 Wei 等人 (2023) miniGPT4(6%), miniGPT4(full) cc_sbu_align - 1.167 Alpagsaus Chen 等人 (2023b) llama-7b(9k), llama-7b(full) alpaca 1.2125/1.0222/1.0596/1.0556/- 1.0658 llama-7b(9k), llama-7b(3k) 1.1/1.183/1.082/1.17/- 1.074 llama-7b(9k), llama-7b(6k) 1.05/1.072/1.05/1.087/- 1.082 llama-13b(9k), llama-13b(full) 1.2125/1.0167/1.133/1.0198/- 1.074 MoDS Du 等人 (2023) llama2-7b(2k), llama2-7b(full) alpaca 1.7125/1.5111/1.4725/1.369/1.4933 1.4786 InstructionMining Cao 等人 (2023) llama-7b(2k), llama-7b(full) dolly - 1.088

•

’-’ 表示原论文中未报告的值，而 model(x)表示使用 x 个样本或 x 百分比样本对模型进行调优。

表 2：对 LLM 在子集上调优的内部比较，与其在完整数据集上调优的情况对比。

选择方法	训练集（样本数）	基础模型	测试基准
total WS
activeIT Kung 等人 (2023)	selfinstruct(2k)	llama-7b	1.107
selfinstruct(full)	1.293
			BBH/DROP/MMLU/Human-Eval/Avg
DQ Zhou 等人 (2023b)	alpaca(20%)	llama-7b	32.7/26.7/39.8/9.2/27.1
alpaca(full)	32.9/26.3/41.6/10/27.7
			Vicuna RS/Vicuna WTR/Koala RS/ Koala WTR
DIVERSEEVOL Wu 等人 (2023)	Dolly(1k)	llama-7b	79.69/20/62.29/6.67
Dolly(full)	73.84/5/57.9/3.33
SelfIns(1k)	79.16/7.5/66.95/6.11
SelfIns(full)	73.03/2.5/69.5/3.89
			HellaSwag/ARC/TruthfulQA/MMLU
LIFT Xu 等人 (2023b)	✗	Mistral-7B	0.823/0.602/0.426/0.627
Platypus(15k 随机)	0.82/0.607/0.438/0.625
Platypus(15k)	0.844/0.643/0.49/0.645
			RTE/CB/ANLI R1/ANLI R2/ANLI R3
coreset Chen 等人 (2023a)	P3(0.5)	Galactica-1.3b	74.73/73.21/49.6/41.9/43.75
P3(full)	76.17/75/44/35.7/39.42

•

数据集(x) 表示在给定数据集的 x 个样本上对基础模型进行调优。✗ 表示训练集或基础模型的缺失。

表 3：与其他 LLM 进行外部比较的 LLM 子集调优结果。

模型	训练集（样本）	基础模型	MT-bench	AlpacaEval
gpt-4	✗	✗	8.99	95.28
gpt-3.5-turbo	✗	✗	7.94	91.36
alpaca-13b	alpaca	llama-13b	4.53	-
NUGGETSLi 等 (2023c)	alpaca(7.5k)	llama-7b	5.34	-
TAGLM-13b-v1.0 Lu 等 (2023)	mixture(6k)	llama-13b	6.44±0.04	72.8
TAGLM-13b-v2.0 Lu 等 (2023)	llama2-13b	6.55±0.02	-
指令长度	llama-13b	5.89	-
随机抽样	5.84	-
IFDLi 等 (2023a)	5.91	-
指令节点赵等 (2023)	5.65	-
DEITA Liu 等 (2023)	mixture(10k)	llama2-13b	6.79	81.09

•

‘mixture’表示 WizardLM(Alpaca)、WizardLM(ShareGPT)、UltraChat 和 ShareGPT 的组合数据集。

4 评估方法与结果分析

数据选择方法的有效性依赖于从给定数据集中筛选出的子集的质量。为了衡量子集的质量，对在子集上微调的 LLM 进行不同基准的评估，这些评估可以分为三类：胜率、内部比较和外部比较。

4.1 胜率

为了评估数据集选择方法的有效性，计算 LLM-sub 与基础 LLM 的胜率：

	$(Num(win)-Num(lose))/Num(all)+1$		(10)

LLM-sub 表示在由选择方法筛选出的训练集子集上微调的 LLM，而基础 LLM 通常涉及两种类型：i) 在完整训练集上微调，ii) 在由常规选择（例如随机抽样和指令长度）筛选的相同规模子集上微调。公式中10，Num(win)代表获胜案例的数量，Num(lose)代表失败案例的数量，Num(all)代表测试基准中的所有案例数量。

LLM-sub 和基础 LLM 的输出由评审按照 1 到 10 的评分标准进行评分，通常使用 GPT4 作为评审。为了应对评审的定位偏差，Li 等（2023a）将这两种 LLM 的输出以不同的顺序送给评审两次。根据 Li 等（2023a），获胜的情况指的是 LLM-sub 在两次评审中均优于基础 LLM，或者在一次中获胜而在另一次中打*。失败的情况指的是 LLM-sub 在两次评审中均落后于基础 LLM，或者在一次中打*而在另一次中失败。不同选择方法在测试基准上的获胜率汇总在表1中。

4.2 内部比较

为了简单直接地评估数据集选择方法的有效性，将 LLM-sub 与相同的 LLM 进行比较，但后者是在完整训练集或通过常规选择筛选的同规模子集上进行微调的。我们将这种评估方法称为内部比较，因为它仅将微调后的子集 LLM 与自身进行比较。不同选择方法在测试基准上的内部比较表现汇总在表2中。

4.3 外部比较

另一种简单明了的评估方法是外部比较，它将 LLM-sub 与外部 LLMs（即与 LLM-sub 模型不同的模型）在不同的测试基准上进行比较。不同选择方法在测试基准上的外部比较表现汇总在表3中。

4.4 结果分析

提出的选择方法优于常规选择，这证明了数据选择在指令调优中的重要性。如表1和2所示，TAGLM-13b-v1.0 和 IFD 在根据指令长度和随机抽样的 MT-benc 上优于常规选择方法，在对 llama-13b 进行混合数据集调优时，Alpagsaus 和 IFD 在对 llama-7b 进行 alpaca 调优时在总 WS 上优于随机抽样。

更先进的 LLM（llama2-7b）在相同子集上的微调相比标准 LLM（llama-7b）表现更好。表3显示 TAGLM-13b-v2.0 优于 TAGLM-13b-v1.0，表1显示，在应用 IFD 选择方法时，llama2-7b(5%)优于 llama-7b(5%)。这些改进归因于先进 LLMs 的固有复杂性，从而在子集上具有更高的学*效率。

仅在更大的子集上调整特定 LLM 并不一定能保证性能提升。这可能与选择方法的固有特性有关。正如在表1中所示，当在训练集 alpaca 中应用 IFD 方法时，llama-7b 的性能并未随着子集大小的增加而改善。然而，当在相同的训练集中应用 Alpagsaus 方法时，llama-7b 的性能随着子集大小的增加而改善。

5 结论和开放性挑战

本文全面概述了指令调整数据选择方法和挑战，强调了高质量数据在微调阶段的关键作用。我们展示了一些现有数据集以及它们对应的构建方法。这些数据集存在诸如数据分布不均和数据质量不一致等问题。在此基础上，我们介绍了现有的四种数据选择方法。仅依赖度量集的方法可以有效评估单个数据的质量，但缺乏对复杂数据集特征的考虑。设计评分公式的可训练大型模型方法可以选择适合 LLM 本身的数据，利用像 GPT-4 这样的外部强大 LLMs 进行评分的方法具有异常的数据选择能力。此外，利用设计有多个模块的小型模型的方法通常考虑了各种方面。最后，我们介绍了如何评估数据选择方法，包括获胜率、内部比较和外部比较。尽管现有方法取得了可观的性能，但仍然存在一些挑战。

目前缺乏统一的评估标准。在第4节中，我们介绍了多种评估方法和针对 LLMs 的各种基准。各种数据选择方法通常选择不同的评估标准，这造成了确定哪种方法更有优势的相当困难。未来的研究可以致力于建立一种合理、全面且自动化的评估方法，以统一方法的评估过程。

处理大量数据通常效率较低，并且对强大的 LLMs 依赖较大。当待过滤的指令数据集规模过大时，现有方法通常处理时间过长，特别是在使用 LLMs 提取指令特征或执行相关度量计算时。使用 LLMs 处理数十万条指令数据可能非常耗时。此外，使用像 GPT4 API 这样的强大 LLMs 处理数十万条指令时，成本非常高。未来的工作应探索使用较小模型，并努力匹配 LLMs 的选择能力。

现有的数据质量评估模型和方法主要集中在英语和通用领域，缺乏针对其他语言和特定领域选择方法的模型。未来的研究应探索其他语言的指令质量评估模型，并调查任务特定选择方法的设计。这旨在提升方法在不同规模、领域和语言的指令集中的表现。

这些挑战为进一步探索提供了有前景的方向，可能会带来突破。总之，我们希望这些分析努力和提供的概述能进一步促进 LLMs 在遵循人类指令方面能力的提升。

参考文献

Cao et al. [2023] 曹毅涵、康彦斌和孙立超。《指令挖掘：大语言模型的高质量指令数据选择》。CoRR, abs/2307.06290, 2023。
Chen et al. [2023a] 陈浩、张一鸣、张琪、杨汉涛、胡晓萌、马雪涛、杨永刚和赵俊博。《也许只需要 0.5%的数据：低训练数据指令调优的初步探索》。CoRR, abs/2305.09246, 2023。
Chen et al. [2023b] 陈丽昌、李世阳、闫俊、王海、卡尔帕·古纳拉特纳、维卡斯·亚达夫、唐正、维杰·斯里尼瓦桑、周天逸、黄恒和金红霞。《Alpagasus：用更少的数据训练更好的 alpaca》。CoRR, abs/2307.08701, 2023。
Chen et al. [2023c] 陈永锐、姜海云、黄心婷、石树铭和齐桂林。《Tegit：通过基于文本的任务设计生成高质量的指令调优数据》。CoRR, abs/2309.05447, 2023。
Chowdhery et al. [2023] Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, Parker Schuh, Kensen Shi, Sasha Tsvyashchenko, Joshua Maynez, Abhishek Rao, Parker Barnes, Yi Tay, Noam Shazeer, Vinodkumar Prabhakaran, Emily Reif, Nan Du, Ben Hutchinson, Reiner Pope, James Bradbury, Jacob Austin, Michael Isard, Guy Gur-Ari, Pengcheng Yin, Toju Duke, Anselm Levskaya, Sanjay Ghemawat, Sunipa Dev, Henryk Michalewski, Xavier Garcia, Vedant Misra, Kevin Robinson, Liam Fedus, Denny Zhou, Daphne Ippolito, David Luan, Hyeontaek Lim, Barret Zoph, Alexander Spiridonov, Ryan Sepassi, David Dohan, Shivani Agrawal, Mark Omernick, Andrew M. Dai, Thanumalayan Sankaranarayana Pillai, Marie Pellat, Aitor Lewkowycz, Erica Moreira, Rewon Child, Oleksandr Polozov, Katherine Lee, Zongwei Zhou, Xuezhi Wang, Brennan Saeta, Mark Diaz, Orhan Firat, Michele Catasta, Jason Wei, Kathy Meier-Hellstern, Douglas Eck, Jeff Dean, Slav Petrov, 和 Noah Fiedel. Palm: 通过路径扩展语言建模。J. Mach. Learn. Res., 24:240:1–240:113, 2023。
Conover et al. [2023] Mike Conover, Matt Hayes, Ankit Mathur, Jianwei Xie, Jun Wan, Sam Shah, Ali Ghodsi, Patrick Wendell, Matei Zaharia, 和 Reynold Xin. Free dolly: 介绍世界上第一个真正开放的指令调优 LLM，2023。
Dong et al. [2011] Wei Dong, Moses Charikar, 和 Kai Li. 高效的 k-最近邻图构建方法，用于通用相似度度量。在 Sadagopan Srinivasan, Krithi Ramamritham, Arun Kumar, M. P. Ravindra, Elisa Bertino, 和 Ravi Kumar 编辑的《第 20 届国际万维网大会会议录，WWW 2011，印度海得拉巴，2011 年 3 月 28 日 - 4 月 1 日》，第 577–586 页。ACM，2011。
Du et al. [2023] Qianlong Du, Chengqing Zong, 和 Jiajun Zhang. Mods: 面向模型的数据选择用于指令调优。CoRR，abs/2311.15653，2023。
Kung et al. [2023] Po-Nien Kung, Fan Yin, Di Wu, Kai-Wei Chang, 和 Nanyun Peng. 主动指令调优：通过训练在提示敏感任务上提高跨任务泛化能力。在 Houda Bouamor, Juan Pino, 和 Kalika Bali 编辑的《2023 年自然语言处理实证方法会议录，EMNLP 2023，新加坡，2023 年 12 月 6-10 日》，第 1813–1829 页。计算语言学协会，2023。
Li et al. [2023a] Ming Li, Yong Zhang, Zhitao Li, Jiuhai Chen, Lichang Chen, Ning Cheng, Jianzong Wang, Tianyi Zhou, 和 Jing Xiao. 从数量到质量：通过自我引导的数据选择提升 LLM 表现。CoRR，abs/2308.12032，2023。
Li et al. [2023b] Xian Li, Ping Yu, Chunting Zhou, Timo Schick, Luke Zettlemoyer, Omer Levy, Jason Weston, 和 Mike Lewis. 使用指令回译进行自我对齐。CoRR，abs/2308.06259，2023。
Li 等人 [2023c] 云水·李、宾远·辉、晓博·夏、佳熙·杨、敏·杨、磊·张、舒正·司、俊豪·刘、桐亮·刘、飞·黄和永斌·李。单次学*作为大型语言模型的指令数据开采者。CoRR, abs/2312.10302, 2023。
Liu 等人 [2023] 韦·刘、韦浩·曾、柯庆·赫、雍·姜和俊贤·赫。什么样的数据对对齐有用？对指令调优中的自动数据选择的综合研究。CoRR, abs/2312.15685, 2023。
Lu 等人 [2023] 克明·卢、洪毅·袁、郑源、润基·林、俊扬·林、川奇·谭、昌周和晶仁·周。#instag: 用于分析大语言模型监督微调的指令标记。CoRR, abs/2308.07074, 2023。
OpenAI [2023] OpenAI。GPT-4 技术报告。CoRR, abs/2303.08774, 2023。
Ouyang 等人 [2022a] 龙·欧阳、杰弗里·吴、徐江、迪奥戈·阿尔梅达、卡罗尔·L·韦恩赖特、帕梅拉·米什金、钟·张、桑迪尼·阿加瓦尔、卡塔里娜·斯拉马、亚历克斯·雷、约翰·舒尔曼、雅各布·希尔顿、弗雷泽·凯尔顿、卢克·米勒、马迪·西门斯、阿曼达·阿斯克尔、彼得·维林德、保罗·F·克里斯蒂亚诺、简·莱克和瑞安·洛。利用人类反馈训练语言模型以遵循指令。见《神经信息处理系统进展 35：2022 年神经信息处理系统年会，NeurIPS 2022，美国路易斯安那州新奥尔良，2022 年 11 月 28 日 - 12 月 9 日》，2022 年。
Ouyang 等人 [2022b] 龙·欧阳、杰弗里·吴、徐江、迪奥戈·阿尔梅达、卡罗尔·L·韦恩赖特、帕梅拉·米什金、钟·张、桑迪尼·阿加瓦尔、卡塔里娜·斯拉马、亚历克斯·雷、约翰·舒尔曼、雅各布·希尔顿、弗雷泽·凯尔顿、卢克·米勒、马迪·西门斯、阿曼达·阿斯克尔、彼得·维林德、保罗·F·克里斯蒂亚诺、简·莱克和瑞安·洛。利用人类反馈训练语言模型以遵循指令。见 Sanmi Koyejo, S. Mohamed, A. Agarwal, Danielle Belgrave, K. Cho 和 A. Oh 编者，《神经信息处理系统进展 35：2022 年神经信息处理系统年会，NeurIPS 2022，美国路易斯安那州新奥尔良，2022 年 11 月 28 日 - 12 月 9 日》，2022 年。
Radford 等人 [2021] 亚历克·拉德福德、钟旭·金、克里斯·哈拉西、阿迪亚·拉梅什、加布里埃尔·戈、桑迪尼·阿加瓦尔、吉里什·萨斯特里、阿曼达·阿斯克尔、帕梅拉·米什金、杰克·克拉克、格雷琴·克鲁格和伊利亚·苏茨克维尔。学*可转移的视觉模型通过自然语言监督。见 Marina Meila 和 Tong Zhang 编者，《第 38 届国际机器学*会议论文集，ICML 2021，2021 年 7 月 18-24 日，虚拟活动》，《机器学*研究论文集》第 139 卷，第 8748–8763 页。PMLR，2021 年。
Reimers 和 Gurevych [2019] 尼尔斯·雷默斯和伊琳娜·古列维奇。Sentence-bert: 使用孪生 BERT 网络的句子嵌入。CoRR, abs/1908.10084, 2019。
Sanh et al. [2022] Victor Sanh, Albert Webson, Colin Raffel, Stephen H. Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Arun Raja, Manan Dey, M Saiful Bari, Canwen Xu, Urmish Thakker, Shanya Sharma Sharma, Eliza Szczechla, Taewoon Kim, Gunjan Chhablani, Nihal V. Nayak, Debajyoti Datta, Jonathan Chang, Mike Tian-Jian Jiang, Han Wang, Matteo Manica, Sheng Shen, Zheng Xin Yong, Harshit Pandey, Rachel Bawden, Thomas Wang, Trishala Neeraj, Jos Rozen, Abheesht Sharma, Andrea Santilli, Thibault Févry, Jason Alan Fries, Ryan Teehan, Teven Le Scao, Stella Biderman, Leo Gao, Thomas Wolf 和 Alexander M. Rush。多任务提示训练实现零样本任务泛化。第十届国际学*表征会议，ICLR 2022，虚拟会议，2022 年 4 月 25 日至 29 日。OpenReview.net，2022 年。
Sener and Savarese [2018a] Ozan Sener 和 Silvio Savarese。卷积神经网络的主动学*：核心集方法。第六届国际学*表征会议，ICLR 2018，加拿大温哥华，2018 年 4 月 30 日至 5 月 3 日，会议论文集。OpenReview.net，2018 年。
Sener and Savarese [2018b] Ozan Sener 和 Silvio Savarese。卷积神经网络的主动学*：核心集方法。第六届国际学*表征会议，ICLR 2018，加拿大温哥华，2018 年 4 月 30 日至 5 月 3 日，会议论文集。OpenReview.net，2018 年。
Taori et al. [2023] Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang 和 Tatsunori B. Hashimoto。斯坦福阿帕卡：一个指令跟随的 llm 模型。github.com/tatsu-lab/stanford_alpaca，2023 年。
Touvron et al. [2023] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurélien Rodriguez, Armand Joulin, Edouard Grave 和 Guillaume Lample。Llama：开放且高效的基础语言模型。CoRR，abs/2302.13971，2023 年。
Wang et al. [2023] Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, Daniel Khashabi 和 Hannaneh Hajishirzi。Self-instruct：使语言模型与自生成指令对齐。在 Anna Rogers, Jordan L. Boyd-Graber 和 Naoaki Okazaki 编辑的第 61 届计算语言学协会年会（第 1 卷：长篇论文）论文集，ACL 2023，加拿大多伦多，2023 年 7 月 9 日至 14 日，第 13484–13508 页。计算语言学协会，2023 年。
Wei et al. [2023] Lai Wei, Zihao Jiang, Weiran Huang 和 Lichao Sun。Instructiongpt-4：一种用于微调 minigpt-4 的 200 指令范式。CoRR，abs/2308.12067，2023 年。
Wu et al. [2023] Shengguang Wu, Keming Lu, Benfeng Xu, Junyang Lin, Qi Su 和 Chang Zhou。自演变的多样数据采样用于高效指令调优。CoRR，abs/2311.08182，2023 年。
Xu et al. [2023a] 徐灿，孙青峰，郑凯，耿秀波，赵浦，冯家展，陶崇阳，蒋大欣。Wizardlm：赋能大型语言模型以执行复杂指令。CoRR, abs/2304.12244, 2023 年。
Xu et al. [2023b] 徐杨，姚永强，黄玉凡，齐梦楠，王茂全，顾彬，尼尔·孙达雷桑。重新思考指令质量：LIFT 是你需要的。CoRR, abs/2312.11508, 2023 年。
Yu et al. [2023] 余朝建，张鑫，尚宁，黄杨雨，徐灿，赵一书洁，胡文祥，殷秋风。Wavecoder：广泛且多用途的增强指令调优与精细化数据生成。CoRR, abs/2312.14187, 2023 年。
Zhang et al. [2023] 张胜宇，董林峰，李晓雅，张森，孙晓飞，王书和，李季伟，胡润怡，张天伟，吴飞，王国银。大语言模型的指令调优：综述。CoRR, abs/2308.10792, 2023 年。
Zhao et al. [2023] 赵英修，余博文，惠宾远，余海洋，黄飞，李永彬，张奈文。复杂性与对齐之间的内在关系初步研究，2023 年。
Zhou et al. [2023a] 朱冲等人，彭飞刘，徐普新，斯里尼·艾耶尔，焦孙，毛宇宁，马雪哲，阿维亚·艾弗拉特，彭宇，李丽·余，苏珊·张，格尔吉·戈什，迈克·刘易斯，卢克·泽特尔摩耶，奥梅尔·莱维。LIMA：对齐的少即是多。在第 37 届神经信息处理系统会议，2023 年。
Zhou et al. [2023b] 周大全，王凯，顾建阳，彭相宇，连东泽，张一凡，游洋，冯佳世。数据集量化。CoRR, abs/2308.10524, 2023 年。
Zhu et al. [2023] 朱德耀，陈军，沈晓茜，李翔，穆罕默德·艾尔霍赛尼。Minigpt-4：通过先进的大型语言模型提升视觉-语言理解。CoRR, abs/2304.10592, 2023 年。

Generated on Sun Feb 4 13:31:46 2024 by LATExml

大规模 LLM 服务的有效调用方法调查

来源：arxiv.org/html/2402.03408

HTML 转换有时会显示错误，这是由于内容未能正确从源文件转换。这篇论文使用了 HTML 转换工具尚不支持的以下包。对这些问题的反馈并非必要；这些问题已知并正在处理。

失败：森林
失败：newunicodechar

作者：通过遵循这些最佳实践从您的 LaTeX 提交中获得最佳 HTML 结果。

许可证：CC BY 4.0arXiv:2402.03408v2 [cs.SE] 2024 年 3 月 1 日

￥¥

大规模语言模型服务的有效调用方法调研

王${}^{1}$ 张博林${}^{1}$ 隋电博${}^{1}$ 涂智英${}^{1}$ 通讯作者。刘晓宇 ${}^{1}$ 康佳宝 ${}^{1}$ ${}^{1}$哈尔滨工业大学，

23B903072@stu.hit.edu.cn, {brolin, tzy_hit,suidianbo}@hit.edu.cn,

2201110719@stu.hit.edu.cn, 18538796936@163.com

摘要

语言模型即服务（LMaaS）使用户无需专门知识即可完成任务，只需支付服务提供商费用。然而，许多提供商提供的大规模语言模型（LLM）服务在延迟、性能和定价上各不相同。因此，构建成本节省的 LLM 服务调用策略，确保低延迟和高性能响应以满足特定任务需求，成为一个迫切的挑战。本文提供了 LLM 服务调用方法的全面概述。从技术上讲，我们对 LMaaS 中构建有效调用策略的问题进行了正式定义，并提出了 LLM 服务调用框架。该框架将现有方法分类为四个不同的组件，包括输入抽象、语义缓存、解决方案设计和输出增强，这些组件可以自由组合。最后，我们强调了在这一任务中尚未得到很好解决的开放挑战，并对未来研究进行了展望。

1 引言

大规模语言模型（LLM）正成为各种自然语言处理任务的基础工具杨等人 (2023)，它们展示了惊人的突现能力，如上下文学*、多步骤推理、指令跟随和工具学*。由于商业原因、潜在的误用风险和昂贵的调优成本，LLM，如 GPT-3、GPT-4 和 Claude，通常通过应用程序编程接口（API）作为 LLM 服务发布，而不是开源模型权重余等人 (2023)，这被称为语言模型即服务（LMaaS）。

提供商	LLM	输入成本	输出成本
OpenAI	gpt-4	$30.0 \| $60.0
gpt-4-turbo	$10.0 \| $30.0
gpt-3.5-turbo-1106	$1.00 \| $2.00
Anthropic	Claude-2.0	$11.02 \| $32.68
Claude-instant-1.2	$1.63 \| $5.51
AI21	Jurassic-2 Ultra	$15.0 \| $15.0
Jurassic-2 Mid	$10.0 \| $10.0
Jurassic-2 Light	$3.00 \| $3.00
Textsynth	M2M100 1.2B	$0.15 \| $3.00
GPT-J 6B	$0.20 \| $5.00
Falcon 7B	$0.20 \| $5.00
Mistral 7B	$0.20 \| $2.00
Llama2 7B	$0.20 \| $2.00
Flan-T5-XXL	$0.20 \| $5.00
Falcon 40B	$3.30 \| $10.00
Cohere	command	$1.00 \| $2.00
command-light	$0.30 \| $0.60
百度	Llama-2-13B-Chat	￥6.00	￥6.00
Llama-2-70B-Chat	￥35.0	￥35.0
ERNIE-Bot 4.0	￥150	￥300
ChatGLM2-6B-32K	￥4.00	￥4.00
Llama-2-7B-Chat	￥4.00	￥4.00
ERNIE-Bot	￥12.0	￥12.0
BLOOMZ-7B	￥4.00	￥4.00
ERNIE-Bot-turbo-0922	￥8.00	￥12.0

表 1：不同 LMaaS 的价格列表。费用按每 100 万标记计价。请注意，百度的 LLM 服务以人民币（￥）计价，而其他 LLM 服务以美元（$）计价。数据更新至 2024 年 1 月 24 日。

通过访问这些强大的 LLM 服务及其开放 API，新手用户无需具备大量的计算资源和深度学*专业知识，只需通过制定特定任务的输入查询即可解决感兴趣的任务。然而，调用 LLM 服务并非免费，使用它们进行高吞吐量应用可能非常昂贵。根据 Claudia Slowik 的估算，支持 15000 个客户交互的 text-davinci-003 每月的费用可能超过$14,400。

通常，调用大型语言模型（LLM）服务的成本包括两个部分：（1）输入成本（与输入提示的长度成正比），（2）输出成本（与生成序列的长度成正比）。在表格1中，我们展示了使用 25 种不同 LLM 服务的成本，这些服务来自一些顶级提供商，如 OpenAI、Anthropic、AI21 和 Textsynth。从表格中，我们可以发现不同 LLM 服务的成本可以相差两个数量级：例如，OpenAI 的 GPT-4 处理 100 万标记的输入成本为$10，而 Textsynth 提供的 Mistral 7B 仅为$0.2。

除了成本考虑外，各种因素，包括相同输入查询的性能和响应时间，也会影响 LLM 服务的用户体验。Ahia 等人（2023）；Lai 等人（2023）发现，不同的语言、提示方法或简单增强的加入也可能导致性能的显著变化。同时，Chen 等人（2023）发现，经济型 LLM 通常能补充昂贵的 LLM。例如，在 CoQA Reddy 等人（2019）数据集上，GPT-4 在约 11%的问题上出错，而便宜且较小的 GPJ-J 能给出正确答案。

考虑到定价的异质性不一定与用户体验相关，因此有必要探索在实践中对 LLM 服务进行有效调用的方法。如图1所示，我们期望利用大规模 LLM 服务根据不同的方法构建有效的调用策略，以在不同场景中实现目标。为此，我们尝试对 LMaaS 中有效调用方法的发展及最新进展进行全面研究。具体而言，我们首先将构建有效调用策略的任务形式化为一个多目标优化问题。这涉及到延迟、性能和成本因素的综合考虑。然后，我们提出了一种分类法，以提供对 LMaaS 中有效调用方法的统一视角，其中现有方法被分类为：输入抽象、语义缓存、解决方案设计和输出增强。这四个组件可以在灵活的框架中灵活组合和统一。最后，我们突出了挑战和潜在方向，希望我们的工作能为有兴趣的初学者提供有用的路线图，并为未来的研究提供启示。

图 1：大规模 LLM 服务高效调用策略构建的愿景。

{forest}

分叉边，树=grow=east，反向=true，锚点=base west，父锚点=east，子锚点=west，基础=left，字体=，矩形，绘制=hidden-draw，圆角，对齐=left，最小宽度=4em，边+=darkgray，线宽=1pt，s sep=3pt，内部 xsep=2pt，内部 ysep=3pt，线宽=0.8pt，ver/.style=旋转=90，子锚点=north，父锚点=south，锚点=center，，其中 level=1text width=7.4em,font=，，其中 level=2text width=8.5em,font=，，其中 level=3text width=5.8em,font=，，其中 level=4text width=5em,font=，，[ 调用策略，ver [ 输入

抽象 (§3) [ 句子

简化 (§3.1) [ 提取

方法 [ TCRA-LLM Liu 等人 (2023a), Mondrian Si 等人 (2023),

学*的 Token 剪枝（LTP）Kim 等人 (2022), , leaf, text width=25em ] ] [ 生成

方法 [ 商业模型 Ahia 等人 (2023), TCRA-LLM Liu 等人 (2023a),

OverPrompt Li 等人 (2023) , leaf, text width=30em ] ] ] [ 提示

优化 (§3.2) [ 提示

选择 [ LeanContext Arefeen 等人 (2023), 成本有效 L Zhou 等人 (2020),

Frugal-Prompting Santra 等人 (2023) , leaf, text width=30em ] ] [ 提示

扩增 [ 黑箱调整 Yu 等人 (2023), 成本有效 L Zhou 等人 (2020),

Vision-Transformer Haurum 等人 (2023), 事实一致性 Liu 等人 (2023c),

Chain-of-Thought Wu 等人 (2023) , leaf, text width=34em ] ] ] ] [ 语义

技术 (§4) [ 传统

缓存 (§4.1) [ GPTCache Bang (2023), 基于检索的对话 Tao 等人 (2021),

服务缓存 Barrios 和 Kumar (2024), 最优缓存 Zhu 等人 (2023) , leaf, text width=34em ] ] [ 神经

缓存 (§4.2) [ 缓存-蒸馏 Ramírez 等人 (2023), VaryGen Rasool 等人 (2024),

基于检索的对话 Tao 等人 (2021)，leaf，文本宽度=30em ] ] ] [ 解决方案

设计 (§5) [ 评分

功能 (§5.1) [ 定义

度量 [ Cache-Distil Ramírez 等人 (2023)，MOT Yue 等人 (2023)，

最优缓存 Zhu 等人 (2023)，Reward-guided Lu 等人 (2023)，leaf，文本宽度=30em ] ] [ 评分者 [ FrugalGPT Chen 等人 (2023)，FORC Sakota 等人 (2023)，

Model-Routing Shnitzer 等人 (2023)，EcoAssistant Zhang 等人 (2023)，

HYBRID LLM 匿名 (2024)，AutoMix Madaan 等人 (2023)，leaf，文本宽度=32em ] ] ] [ LLMs

路由器 (§5.2) [ 顺序

结构 [ FrugalGPT Chen 等人 (2023)，Cache-Distil Ramírez 等人 (2023)，

MOT Yue 等人 (2023)，EcoAssistant Zhang 等人 (2023)，leaf，文本宽度=28em ] ] [ 其他

结构 [ LLM-Blender Jiang 等人 (2023)，BRANCH-SOLVE-MERGE Saha 等人 (2023)，

FORC Sakota 等人 (2023)，Reward-guided Lu 等人 (2023)，

AutoMix Madaan 等人 (2023)，MCDM Hosseinzadeh 等人 (2020)，

服务选择 Manqele 等人 (2017)，leaf，文本宽度=34em ] ] ] ] [ 输出

增强 (§6) [ Prompt-survey Liu 等人 (2023b)，FrugalMCT Chen 等人 (2022)，Aligh-suevey Shen 等人 (2023)，leaf，文本宽度=44em ] ] ]

图 2: LMaaS 有效调用方法的分类

本次调查的贡献总结如下：

•

综合分类。如图2所示，提出了 LMaaS 有效调用方法的分类，从输入摘要、语义缓存、解决方案设计和输出增强四个不同方面对现有方法进行分类。
•

灵活框架。如图3所示，该框架可以统一四种类型的组件，使它们在 LLM 服务调用生命周期中可以独立或同时工作。
•

相关资源。为了方便该任务的方法，流行 LMaaS 产品的价格规则列在表1中，现有工作的论文列表可用。¹¹1github.com/W-caner/Effective-strategy-for-LMaas

本文的其余部分组织如下。第2节描述了构建 LMaaS 有效调用策略的任务定义，并概述了统一的 LLM 服务调用框架。第3节回顾了输入摘要组件，第4节回顾了语义缓存组件，第5节回顾了解决方案设计组件，第6节回顾了输出增强组件。第7节强调了该任务的开放挑战和未来方向，并总结了论文。

2 背景

2.1 任务定义

在我们的主题中，问题被定义为如何在大量 LLM 服务 $LLMs$ 中构建一个有效的（低延迟、高性能和节省成本的）调用策略 $s$，给定一个任务 $T$。给定的任务 $T$ 包含多个相同的查询-回答对，表示为 $T=\{(q_{1},a_{1}),(q_{2},a_{2}),...(q_{n},a_{n})\}$，其中 $q$ 代表输入查询，$a$ 代表输出答案。考虑一个固定的 $LLM$，通过 API 发布的 LLM 服务。输入一个查询 $q$，通过调用服务，获取响应 $\tilde{a}$ 的过程可以表示为：

	$\tilde{a}=LLM(q)$		(1)

为了描述给定查询 $q$ 和 LLM 服务 $LLM$ 时构建有效调用策略的关注点，我们使用三个函数：延迟 $f_{l}(LLM,q)$、性能 $f_{p}(LLM,q)$ 和成本 $f_{c}(LLM,q)$。这三个函数在特定的实际调用中是固定值，可以使用某些方法进行估算。例如，$f_{l}$ 可能是输入和输出令牌长度的函数。$f_{p}$ 通常使用度量函数 $r(·,·)$ 来比较 $a$ 和 $\tilde{a}$ 之间的差异。而 $f_{c}$ 涉及我们之前提到的两个不同的定价组件。我们采用的定义是输入令牌数量乘以输入令牌的价格与生成的令牌数量乘以生成令牌的价格之和，如 Eq. 2 所示，其中 $\alpha_{i}$ 是表示单价的常数。

	$f_{c}\triangleq\alpha_{1}\|\|\tilde{a}\|\|+\alpha_{2}\|\|q\|\|+\alpha_{3}$		(2)

然后我们将单一的 LLM 服务扩展为 $K$ 个不同的 LLM 服务，$LLM_{s}=\{LLM_{1},LLM_{2},...LLM_{K}\}$。我们的问题被形式化为 Eq. 3，在搜索空间 $S$ 中，我们寻求最优的调用策略 $s$，以最小化延迟 $f_{l}$、最大化性能 $f_{p}$ 并最小化任务 $T$ 的成本 $f_{c}$。最佳策略 $s$ 包括一系列选择的 LLM 服务，表示为 $s=\{LLM_{1},LLM_{i},...,LLM_{k}\},k\leq K$，具有很高的灵活性，例如选择单一服务或以特定顺序访问一些服务。

	$\min\sum_{LLM_{i}\in s,q_{j}\in T}F(f_{l}(LLM_{i},q_{j}),-f_{p}(LLM_{i},q_{j})% ,f_{c}(LLM_{i},q_{j}))$		(3)

这是一个多目标优化问题，在这里，我们通过使用函数$F$将它们以简化形式结合起来。在具体调用的构建策略中，可能会使用加权*均，或者引入约束，将某些目标作为条件，同时优化其他目标。例如，在资金有限的情况下，成本$f_{c}$作为条件来获得一个具有高性能$f_{p}$和低延迟$f_{l}$的调用策略。

2.2 LLM 服务调用框架

同样，我们只关注与 LLM 服务调用相关的方法，不考虑与 LLM 内部细节相关的其他方法。根据不同的构建方式，这些方法被总结为四类，如图2所示。

使用分类法，我们提出了一个有效的 LLM 服务调用框架，如图3所示，其中不同的类别以组件形式表示，可以独立工作或同时工作。按照构建有效调用策略需要了解 LLM 服务生命周期中的关键资源的观点[Bai et al. (2024)]，我们将 LLM 服务调用分为三个阶段：调用前、调用中和调用后。

在调用前，用户输入一个查询$q$，我们认为通常情况下，$q$由一个问题和多个可能的提示组成。问题代表用户的目标，而提示是帮助实现目标的可选信息。

处理输入查询$q$，以更简洁的语言表达更有意义的信息是构建有效调用策略的第一步。这方面的方法总结为输入抽象（第3节），根据不同的方式分为句子简化和提示优化。前者通过简化查询而不改变其语义来减少延迟$f_{l}$和成本$f_{c}$。后者则用于改进提示以获得更好的性能$f_{p}$。

语义缓存（第 4 节）也是一种重要的策略，用于在调用之前提高服务性能、减少延迟和成本，按不同结构分为传统缓存和神经缓存。它检查缓存中是否存在语义上相似的查询，如果存在，则直接返回；否则进入调用阶段。

解决方案设计（第 5 节）旨在通过利用大规模 LLM 服务的互补能力来构建最佳调用解决方案 $s$。它评估给定查询 $q$ 的 LLM 服务 $LLM_{i}$，评估方法称为评分函数。评分通常在调用之前进行，例如，$f_{c}$ 的估算可以用来指导低成本解决方案的设计。在调用阶段，评分函数用于指导服务之间的有序路由，这称为 LLM 路由器。通过不同的路由结构，利用不同服务的优势，构建用户满意的解决方案。

调用后，输出增强（第 6 节）关注于返回给用户的信息。输出 $\tilde{a}$ 被调整以适应不同的目标，并以合适的形式返回。此外，这次调用的输入和输出会存储到语义缓存中，以备将来调用使用。

图 3：LLM 服务调用框架，展示了调用的各个阶段。

3 输入摘要

输入摘要旨在减少输入查询的长度而不改变语义，同时优化提示，以更低的成本和延迟更好地调用给定的 LLM。

一般化和上下文能力使得 LLM 服务能够在未训练的样本上获得良好的答案 Dong 等人（2023）。因此，通过输入不同的查询可以完成各种不同的自然语言任务。这也导致了 LLM 服务在调用时对输入的依赖。服务被选定后，输入内容和质量直接影响服务的延迟、价格和性能。例如，将提示“只告诉我选项，不要解释其他内容”与问题连接作为 LLM 的输入，会生成较短的输出，从而减少调用成本和延迟。然而，这可能会导致 LLM 失去逐步思考的能力，导致性能下降。

我们将这些方法根据不同的目标分为两类。大多数 LLM 服务根据令牌长度收费。因此，通过缩短输入长度，句子简化可以有效减少使用成本和延迟。提示优化确保信息质量并提高调用性能。

3.1 句子简化

句子简化旨在通过减少语言表达的复杂性和长度来提高语言模型的性能，降低延迟和成本。简而言之，它是通过修改、删除或替换句子中的词语、短语或结构，使输入更加简洁，同时保留其核心意义的过程。

这个问题类似于总结任务，许多用于总结的方法也可以应用于 Huang 等人（2021）；Watanangura 等人（2024）；Antony 等人（2023）；Mridha 等人（2021）。我们整理了 LMaaS 的可用方法，并根据它们是否完全源自原始输入，将其分为提取式和生成式方法。

提取式方法。从长原始输入中，提取式方法通过提取关键句子或短语来选择句子以形成新输入，其中内容完全来源于原始输入。根据与上下文的相关性修剪语义上无关的词语是一个不错的选择 Liu 等人（2023a）。通过使用中间“攻击者”并采用贪婪调用，执行对输入的迭代删除和替换操作 Si 等人（2023）。Kim 等人（2022）基于注意力机制，去除不重要的词语。

这种方法简单高效，使其非常方便立即使用。然而，提取的思想可能忽视全局信息。此外，它在语言翻译等任务中存在局限性，因为它无法判断哪些部分需要翻译或删除。

生成方法。生成方法指的是基于原始输入对内容进行压缩和改写，从而生成新词。语言编码是一种简单的处理方法，应用于输入，Ahia et al. (2023) 在不同语言和分词器上进行了广泛的实验，其中成本变化高达 5 倍。AE.studio ²²2Prompt Reducer-Cut Down GPT-4 Token Costs (www.promptreducer.com/) 采用加密技术提供了一个在线*台，牺牲了可读性，将输入标记的长度减少了一半。利用快速且低成本的生成自然语言模型，Liu et al. (2023a)；Li et al. (2023) 也提出了句子简化的可行选项。

这一类方法更为灵活，因为生成的句子包含较少的冗余信息，同时保留了主要内容。然而，它可能会引入语法或事实错误。这种方法可能依赖于图、树或神经网络等复杂结构。

3.2 提示优化

提示优化是设计和调整用户提供的输入提示，以引导 LLM 生成更准确、有用或量身定制的输出。提示优化的有效性源于 LLM 从少量示例甚至零示例中学*的能力（Liu et al. (2023b)），适当的提示可以补充任务的上下文、突出关键信息或提高解释能力。

基于优化目标的不同粒度，我们区分了两种类型的提示优化方法。通过选择或组合一些提示，可以引导 LLM 更有效、更高效地处理各种输入。提示增强关注于内容的质量，旨在最大化上下文的潜力。

提示选择。提示选择从可能的提示中选择最有意义的提示，以准确引导 LLM。它去除了无关提示的干扰，并有助于高效调用。Zhou 等人（2020）选择了代表性样本，这在少量样本任务中非常有益。另一种提示选择的方法是结合相同类型任务的提示，使 LLM 一次性处理由多个查询共享的提示信息。Santra 等人（2023）结合了涉及指令、示例和附加背景的各种方法，提出了一种更紧凑的方法，用于在对话中提供历史信息。Arefeen 等人（2023）考虑了提示的连接，并使用比较方法检索最重要的 k 个句子，实现了类似问题的提示共享。

提示选择可以直接引导 LLM 关注信息的特定方面，更准确地理解用户需求。对于一些通用任务，可以使用标准选择方法而不需过多个性化。然而，对于复杂的提示，这种方法并不能充分发挥其潜力，因为没有引入额外的知识。

提示增强。提示增强考虑了 LLM 的理解能力，以引发更准确和理想的响应。知识检索是增强的直接方法，它有助于在模型推理过程中实现全面理解。Haurum 等人（2023）研究了 LLM 中事实知识的局限性，并以最小检索成本优化推理过程。通过微调的优化是近期的进展，Yu 等人（2023）；Zhou 等人（2020）提出了一种黑箱微调框架，该框架仅通过 API 访问，以非导数方法优化连续提示。模型对齐 Liu 等人（2023c）和思维链推理 Wu 等人（2023），也是提示优化的关键关注点。

尽管提示增强可能导致更复杂的处理过程，但在调用性能方面的改善是显著的。通用方法难以探索，这需要一些专业知识。

4 语义缓存

语义缓存是一种通过存储和快速检索语义信息来提高 LLM 调用效率和性能的方法。与传统的数据缓存不同，语义缓存更关注于存储数据的高级语义，如意义、上下文和关系，而不仅仅是原始数据。在调用服务之前会检查语义缓存。如果命中缓存，系统将直接返回缓存提供的输出，而无需执行繁琐的后续过程。

缓存技术通常需要长期的数据积累，不适用于冷启动场景。然而，随着 LLM 规模的逐步扩大，它在加速计算、降低数据传输成本和支持高并发请求方面发挥着越来越重要的作用 Miao et al. (2023)，为用户提供低成本、低延迟和高性能的服务。

在 LMaaS 中，语义缓存的实现有两种典型结构，与其他子部分不同，它们通常不能一起使用。传统缓存使用键值对进行存储和检索。当类似的输入再次出现时，系统可以通过键快速搜索语义缓存并返回相同的值。神经缓存借鉴了神经网络的思想，以预测而非检索的方式进行响应。它学*输入数据之间的语义关系，而不依赖于特定的存储结构。

4.1 传统缓存

传统缓存的当前范式由三部分组成：缓存管理器、相似度评估器和后处理器。缓存管理器负责以键值对的形式存储内容并管理缓存淘汰。相似度评估器用于确定缓存中的任何键是否与输入查询匹配。后处理器组织最终返回给用户的响应。如果在缓存中未找到类似的查询，后处理器会调用 LLM 服务生成输出，然后将生成的输出存储在缓存中。

Bang (2023) 代表了传统缓存的一个典型应用，它利用问题嵌入进行相似性匹配，并提供了精确匹配和嵌入距离等多种匹配方法。开源应用程序 Zep ³³3Zep: Fast, scalable building blocks for LLM apps (github.com/getzep/zep) 也支持 LLM 应用的存储、聚合、嵌入和索引。通过理论证明，Zhu et al. (2023) 提出了考虑查询频率的最低预期成本的缓存方案。此外，查询和对话缓存的方法 Tao et al. (2021); Barrios and Kumar (2024) 可以轻松迁移到 LMaaS。

实现传统缓存通常相对简单，只需要基本的数据结构，如易于管理的哈希。此方法很通用，但由于过于依赖键匹配，可能无法捕捉输入之间的语义相似性。

4.2 神经缓存

神经缓存使用神经网络或深度学*模型来学*和存储数据表示。它通过学*数据的表示，将输入数据映射到高维空间。学到的表示应该捕捉输入数据的语义相似性，以便相似的输入在表示空间中接近。

Ramírez 等人（2023）使用 T5-base⁴⁴4T5-base 模型（huggingface.co/docs/transformers/model_doc/t5）训练一个学生模型，用于在分类任务中提供早期反馈，并且模型会定期更新。为了应对语义缓存的有效性测试问题，Rasool 等人（2024）生成相似的输入以尽可能多地命中缓存。此外，基于检索的对话响应选择模型也可以作为另一种选择。Tao 等人（2021）提供了一个将大多数模型分类为三种框架的调查，其中，基于表示的模型可以作为神经缓存使用。

这些方法在特定领域的问题中通常优于传统缓存。然而，它们的实现和更新可能相对复杂。重要的是要仔细考虑缓存的有效性，以避免不必要的浪费。

图 4：由现有方法组成的简单调用策略，包括输入抽象中的 Prompt Reducer、语义缓存中的 Zep、解决方案设计中的 FrugalGPT，以及输出增强中的无。

5 解决方案设计

解决方案设计是一种利用具有异质成本和性能的 LLM 服务的方法。它考虑不同的场景和目标，根据查询动态选择一个或多个最适合特定调用的 LLM 服务，并以某种形式组织它们，以提供灵活而高效的解决方案。这种方法允许用户选择最符合特定需求的 LLM 服务。当新的查询出现或需求发生变化时，可以灵活更新解决方案的配置，以实现最佳的性能和成本效益。

解决方案设计有两个主要部分，这两个部分协同工作以实现动态 LLM 服务的选择和路由。评分函数负责评估每个可用 LLM 服务的性能，这可以反映调用中的关注指标，如质量、速度等。路由器根据评分函数的评估结果，在服务之间执行查询路由，并以动态方式选择合适的服务。

5.1 评分函数

评分函数是对特定任务或查询给定的 LLM 服务的综合评估，考虑目标和场景，通常用于指导解决方案中的路由路径。它可能受到多个因素的影响，如响应时间、查询成本、答案准确性等。评分函数在决策中发挥作用，有助于理解每个 LLM 服务的相对性能，以便做出更智能的选择。

定义的指标。定义的指标提供了一种可测量的方式来直接量化关注的因素。例如，分类任务中的准确率、生成任务中的 BLEU 分数、诸如数据包丢失和服务质量（QoS）等指标都是适用的指标。Ramírez 等人（2023）使用区间采样和预测熵来确定是否调用 LLM 服务以应对不同时间维度的调用。考虑到一致性的三个来源，LLM 服务的决策是通过采样和投票来进行的，Yue 等人（2023）进行决策。计算两个模型之间的成本预期，Zhu 等人（2023）将选择调用扩展到多个 LLM。Lu 等人（2023）通过不同服务提供的答案的奖励排名作为评估标准，从而在解决方案中产生最小的计算成本。

定义的指标直观且易于理解。它们通常基于统计数据或实验，提供高可靠性且不易受到主观因素的影响。然而，设置阈值可能具有挑战性，并且可能不适应动态和变化的环*。此外，某些关键因素可能难以通过特定指标捕捉，从而导致评分的局限性。

评分工具。评分工具是一种用于根据未由特定公式定义的指标对每个 LLM 服务进行评分的工具。评分工具利用先前的知识、训练数据或规则，以一种通常较难解释的方式提供评分，通常使用较小的神经网络 Chen et al. (2023)。AlBert 被用作评分工具，以查询和预测输出作为$x$，预测输出和标签的准确度作为$y$进行训练 Sakota et al. (2023)。另一种方法涉及使用 DistilBert 作为评分模型，以查询和模型 ID 作为$x$，以及它是否能够解决问题作为$y$进行训练 Shnitzer et al. (2023)。对 LLM 在不同基准数据集上的表现进行了比较，Zhang et al. (2023)将其建模为二元选择问题，提供指导建议。对于特定任务，如代码生成任务中的执行结果 Zhang et al. (2023)，根据问题和答案任务中的查询难度的分类器 Anonymous (2024); Madaan et al. (2023)，以及评估 LLM 服务在数据集基准测试任务中的能力 Shnitzer et al. (2023) 都是合理的评分工具。

与由公式定义的指标相比，评分工具可以根据实时数据和反馈进行更新，展示出在不同场景中的强泛化能力。然而，这种方法相当于使用更强大的模型进行评分，从而产生评分工具自身的训练和使用成本。而且，它仍然需要一些标记的示例，这使得当查询数据集的大小大于训练数据集时才有意义。

5.2 LLM 路由器

LLM 路由强调服务之间的组织结构，以特定的逻辑顺序连接多个独立的服务。它专注于构建一个灵活且可重用的 LLM 服务解决方案，以应对不断变化的查询或目标。根据不同的评分函数和使用的位置，LLM 路由可以构建以目标为导向的解决方案，如成本导向或性能导向。

顺序结构。最简单的方法是从大量的 LLM 服务中选择一个或多个模型，并按顺序调用它们。使用评分函数来决定是否接受答案或继续进行路由的下一步 Chen et al. (2023)。使用顺序结构时，模型的数量通常限制为三种，并通过排列确定可能的选项，并应用修剪技术 Ramírez et al. (2023); Yue et al. (2023)。使用小模型作为缓存，当缓存未命中时按顺序调用大模型，可以被视为一种固定的顺序结构 Ramírez et al. (2023); Yue et al. (2023)。对于代码生成等问题 Zhang et al. (2023)，使用成本效益高的 LLM 获取初步响应，并将成功的信息作为后续查询的上下文进行跟踪。

这种结构简单有效，且可以在整个空间中快速搜索有限的排列。然而，顺序结构可能会导致按顺序调用所有模型。而且，当适应新需求时，结构的扩展较为困难，需要重新排列所有模型。

其他结构。与机器学*中的袋装法和提升法类似，*行结构可以增强 LLM 服务的正确性和一致性，其中任务分解和合并是关键方面 Jiang et al. (2023)。星形结构，如 Sakota et al. (2023); Lu et al. (2023)所示，涉及由元模型进行决策，将当前查询分配给最合适的模型。对于第三类无法解决的查询，Madaan et al. (2023) 采用修剪方法，以避免对特别困难的问题产生不必要的费用。树状结构被认为是有前途的，它结合了星形和顺序结构的方面。它最初将查询路由到最可能的分支，然后按顺序调用服务。此外，某些针对 HTTP 服务的选择解决方案 Hosseinzadeh et al. (2020); Manqele et al. (2017)也值得借鉴。

6 输出增强

输出增强是指进一步优化和调整生成的调用结果的过程。该过程旨在提高生成结果的语法正确性、语义准确性和整体流畅性，以满足用户和特定场景的需求。

据我们所知，输出增强方法仍然依赖于上述方法，但它强调根据具体任务的需求进行定制，提升模型的应用适应性，减少后续人工干预的需求，并为用户提供低延迟、高性能的服务。例如，刘等人（2023b）指导 LLM 给出简洁的回答可以减少不必要的输出 token。将多个低成本模型的响应聚合是提升质量的另一种方式，陈等人（2022）提出了这种方法，并且它通常用于多标签任务。模型对齐的研究，沈等人（2023）也可以用来纠正语法和逻辑，从而减少后续的人工工作需求。

7 结论与挑战

总之，本文对 LMaaS 领域中有效调用方法进行了全面的概述。通过建立分类体系，我们将现有方法分为四类：输入抽象、语义缓存、解决方案设计和输出增强。接着我们将有效 LLM 服务策略构建的问题进行形式化，并提出了一个 LLM 服务调用框架。框架中的每个组件可以独立工作，也可以同时工作，从而形成有效的 LLM 服务调用策略，具有低延迟、高性能和节约成本的特点。

现有方法往往只关注框架的一个组件，我们可以将其作为插件使用。图 4展示了一个由三种现有方法构建的简单调用策略。该领域的发展前景广阔，但仍面临一些开放性挑战。

输入抽象。在输入抽象组件中，面临的主要挑战之一是多模态输入处理，参考文献包括 Yin 等人（2023）。需要更全面和*衡的方法来缩短和优化文本、图像和语音等多种类型的输入。还值得探索针对动态变化输入的输入抽象方法，例如实时数据流处理，参考文献包括 Räth 等人（2023）或用户与系统的交互。此外，根据粒度，输入抽象还可以分为文档级、句子级和短语级。不同粒度的方法可能会互操作，并且通常会组成多阶段的方法。

语义缓存。在语义缓存部分，如何设计和选择缓存方法以更高效地适应不同类型的输入和查询是传统缓存面临的主要挑战，而语义表示则是神经缓存所关注的重点，参考文献包括 Brais 等人（2021）和 Brito（2023）。

解决方案设计。在解决方案设计方面，LLM 服务的评估问题，参考文献包括 Chang 等人（2023），是评分函数的扩展，需要在未来更多关注适应性和可解释性。而 LLM 路由器将重点设计更强大的服务集成方法，不仅关注任务本身，还考虑不同资源的需求，参考文献包括 Xu 等人（2024）。两者的更有效结合，例如动态决策，将导致更好的解决方案。

输出增强。输出增强的重要性也逐渐被人们认识到。输出的规范性和多样性之间的*衡是一个关键问题。当任务完成时，用户的满意度成为衡量服务质量的重要指标，未来的研究可能会集中于构建更加智能和以用户为导向的输出增强方法，参考文献包括 Jeung 和 Huang（2023）。

其他挑战。基础工作如实验中的定性描述和定量比较仍存在空白，数据集的缺乏使得服务方法比较没有统一标准。一些技术细节，如如何选择最短输入的分词器 Alyafeai et al. (2023)，缓存大小的指导 Vavouliotis et al. (2022)，以及相同 LLM 服务的不同定价方法选择，需要深入探讨。此外，我们特别呼吁关注公*性 Sah et al. (2024)和隐私问题 Luo et al. (2024)；Utpala et al. (2023)在 LMaaS 中的应用。使用中间件高效构建的方法可能被利用以谋取个人利益或恶意目的。我们期待未来研究进一步推动该领域的发展，为用户提供低延迟、高性能和成本效益高的 LLM 服务解决方案，并促进 LMaaS 生态系统的健康发展。

参考文献

Ahia et al. [2023] Orevaoghene Ahia, Sachin Kumar, Hila Gonen, Jungo Kasai, David R. Mortensen, Noah A. Smith, and Yulia Tsvetkov. 所有语言的代价相同吗？商业语言模型时代的分词。在 EMNLP 会议论文集中，2023。
Alyafeai et al. [2023] Zaid Alyafeai, Maged Saeed AlShaibani, Mustafa Ghaleb, and Irfan Ahmad. 针对阿拉伯文本分类的各种分词器评估。Neural Process. Lett., 2023。
Anonymous [2024] Anonymous. 混合 LLM：成本高效且质量意识的查询路由。在 ICLR 会议论文集中，2024。
Antony et al. [2023] Dinu Antony, Sumit Abhishek, Sujata Singh, Siddu Kodagali, Narayana Darapaneni, Mukesh Rao, Anwesh Reddy Paduri, and Sudha BG. 高级高效文本摘要方法的综述。在第 13 届 IEEE 年度计算与通信研讨会暨会议，CCWC 2023，拉斯维加斯，NV，美国，2023 年 3 月 8-11 日，2023。
Arefeen et al. [2023] Md. Adnan Arefeen, Biplob Debnath, and Srimat Chakradhar. Leancontext：利用 LLMs 的成本高效领域特定问答。CoRR，2023。
Bai et al. [2024] Guangji Bai, Zheng Chai, Chen Ling, Shiyu Wang, Jiaying Lu, Nan Zhang, Tingwei Shi, Ziyang Yu, Mengdan Zhu, Yifei Zhang, Carl J. Yang, Yue Cheng, and Liang Zhao. 超越效率：资源高效大型语言模型的系统综述。CoRR，2024。
Bang [2023] Fu Bang. Gptcache：一种开源语义缓存，用于 LLM 应用，加速回答和节省成本。2023。
Barrios and Kumar [2024] Carlos Barrios and Mohan Kumar. 边缘服务缓存和计算重用策略：综述。ACM Comput. Surv., 2024。
Brais et al. [2021] Hadi Brais, Rajshekar Kalayappan, and Preeti Ranjan Panda. 缓存模拟器综述。ACM Comput. Surv., 2021。
Brito [2023] 爱德华多·布里托。通过语义相似性解释的资源感知表示学*。博士论文，2023 年。
Chang et al. [2023] 常宇鹏、王旭、王金栋、吴元、朱凯杰、陈浩、杨林毅、易晓源、王存翔、王亦东、叶伟、张越、常易、Philip S. Yu、杨强和谢兴。大语言模型评估综述。CoRR，2023 年。
Chen et al. [2022] 陈灵娇、Matei Zaharia 和 James Zou。多标签分类任务的高效在线机器学* API 选择。在 ICML 会议论文集中，2022 年。
Chen et al. [2023] 陈灵娇、Matei Zaharia 和 James Zou。FrugalGPT：如何在降低成本和提高性能的同时使用大语言模型。CoRR，2023 年。
Dong et al. [2023] 董青修、李雷、戴大迈、郑策、吴志勇、常宝宝、孙旭、徐晶晶、李雷和隋智芳。上下文学*综述，2023 年。
Haurum et al. [2023] Joakim Bruslund Haurum、Sergio Escalera、Graham W. Taylor 和 Thomas B. Moeslund。使用哪些令牌？研究视觉变换器中的令牌减少。在 ICCV 会议论文集中，2023 年。
Hosseinzadeh et al. [2020] Mehdi Hosseinzadeh、Hawkar Kamaran Hama、Marwan Yassin Ghafour、Mohammad Masdari、Omed Hassan Ahmed 和 Hemn Khezri。基于多标准决策的服务选择：全面概述。《网络系统管理杂志》，2020 年。
Huang et al. [2021] 黄益忠、冯夏冲、冯小程和秦冰。抽象文本摘要中的事实不一致问题：综述。CoRR，2021 年。
Jeung and Huang [2023] Jun Li Jeung 和 Yi-Ching Janet Huang。如果我错了，请纠正我：探索 AI 输出如何影响用户感知和信任。在计算机支持的协作工作和社会计算会议，CSCW 2023，明尼阿波利斯，MN，美国，2023 年 10 月 14-18 日。
Jiang et al. [2023] 江东福、任翔和 Bill Yuchen Lin。LLM-Blender：通过成对排名和生成融合集成大语言模型。在 ACL 会议论文集中，2023 年。
Kim et al. [2022] Kim Sehoon、Sheng Shen、David Thorsley、Amir Gholami、Woosuk Kwon、Joseph Hassoun 和 Kurt Keutzer。变换器的学*令牌修剪。在 KDD 会议论文集中，2022 年。
Lai et al. [2023] 黎越达、吴义重、Amir Pouran Ben Veyseh、Hieu Man、Franck Dernoncourt、Trung Bui 和阮天。ChatGPT 超越英语：多语言学*中大语言模型的全面评估。在 EMNLP Findings 会议论文集中，2023 年。
Li et al. [2023] 李佳政、赵润聪、何玉兰和桂林。Overprompt：通过高效的上下文学*方法增强 ChatGPT 能力。CoRR，2023 年。
Liu et al. [2023a] 刘俊熙、李亮智、项彤、王博文和钱一鸣。TCRA-LLM：用于推理成本降低的令牌压缩检索增强大语言模型。在 EMNLP Findings 会议论文集中，2023 年。
刘等人 [2023b] 彭飞·刘、韦哲·袁、金兰·傅、郑宝·姜、广明·林和格雷厄姆·纽比格。预训练、提示和预测：自然语言处理中的提示方法系统性调查。ACM Comput. Surv., 2023。
刘等人 [2023c] 易欣·刘、布达迪亚·德布、米拉格罗·特雷乌尔、亚伦·哈夫凯、德拉戈米尔·拉德夫和艾哈迈德·哈桑·阿瓦达拉。通过自然语言反馈改善摘要的事实一致性。在 ACL 会议录中，2023 年。
陆等人 [2023] 柯铭·陆、洪毅·袁、润基·林、俊阳·林、郑元、常周和晶仁·周。专家路由：高效的奖励引导大型语言模型集成。CoRR, 2023。
罗等人 [2024] 景龙·罗、叶红·张、佳琪·张、辛穆、辉·王、岳宇和曾林·徐。Secformer：致力于快速而准确的大型语言模型隐私保护推理。CoRR, 2024。
马丹等人 [2023] 阿曼·马丹、普兰贾尔·阿格拉瓦尔、安基特·安南、斯里维德亚·普拉纳维·波塔拉朱、斯瓦鲁普·米什拉、佩伊·周、阿迪亚·古普塔、迪拉吉·拉贾戈帕尔、卡尔提克·卡帕甘图、易鸣·杨、夏姆·乌帕德亚和毛萨姆。Automix：自动混合语言模型。CoRR, 2023。
曼克莱等人 [2017] 林德尔维伊兹维兹·曼克莱、姆切莱·E·德洛德、路易斯·科特齐和乔治·西比亚。动态环*下的服务选择方法调查。在 IEEE AFRICON 2017 中，南非开普敦，2017 年 9 月 18-20 日，2017 年。
苗等人 [2023] 旭鹏·苗、加布里埃尔·奥利亚罗、志豪·张、欣浩·程、洪毅·金、天奇·陈和志豪·贾。朝着高效的生成型大型语言模型服务：从算法到系统的调查。CoRR, 2023。
米尔达等人 [2021] 穆罕默德·F·米尔达、阿克利玛·阿克特·利玛、卡姆鲁丁·努尔、苏乔伊·钱德拉·达斯、马赫穆德·哈桑和穆罕默德·莫辛·卡比尔。自动文本摘要调查：进展、过程与挑战。IEEE Access, 2021。
拉米雷斯等人 [2023] 吉列姆·拉米雷斯、马蒂亚斯·林德曼、亚历山德拉·伯奇和伊万·提托夫。缓存与蒸馏：优化对大型语言模型的 API 调用。CoRR, 2023。
拉苏尔等人 [2024] 扎法里亚布·拉苏尔、斯科特·巴尼特、大卫·威利、斯特凡努斯·库尔尼亚万、谢尔温·巴鲁戈、斯里坎特·图杜穆和穆罕默德·阿卜杜勒拉泽克。用于语义缓存的测试输入生成的 LLMs，2024 年。
雷斯等人 [2023] 提莫·雷斯、恩戈齐丘库卡·奥纳和凯-乌维·萨特勒。实时流应用的交互数据清洗。在 HILDA 2023 数据分析人工智能工作坊会议录中，2023 年 6 月 18 日，西雅图，华盛顿，美国，2023 年。
雷迪等人 [2019] 希瓦·雷迪、丹琪·陈和克里斯托弗·D·曼宁。Coqa：一个对话式问答挑战。Trans. Assoc. Comput. Linguistics, 2019。
萨赫等人 [2024] 钱丹·库马尔·萨赫、肖莉·联和穆罕默德·米拉朱尔·伊斯兰。揭示大型语言模型公*性评估中的偏见：音乐和电影推荐系统的关键文献综述。CoRR, 2024。
Saha 等人 [2023] Swarnadeep Saha、Omer Levy、Asli Celikyilmaz、Mohit Bansal、Jason Weston 和 Xian Li. Branch-solve-merge 改进了大型语言模型的评估和生成。CoRR，2023 年。
Sakota 等人 [2023] Marija Sakota、Maxime Peyrard 和 Robert West. 飞溅还是大炮？通过元建模选择具有成本效益的语言模型。CoRR，2023 年。
Santra 等人 [2023] Bishal Santra、Sakya Basak、Abhinandan De、Manish Gupta 和 Pawan Goyal. 对话模型的节俭提示。发表于 EMNLP Findings 会议论文集，2023 年。
Shen 等人 [2023] Tianhao Shen、Renren Jin、Yufei Huang、Chuang Liu、Weilong Dong、Zishan Guo、Xinwei Wu、Yan Liu 和 Deyi Xiong. 大型语言模型的对齐：一项调查。CoRR，2023 年。
Shnitzer 等人 [2023] Tal Shnitzer、Anthony Ou、Mírian Silva、Kate Soule、Yuekai Sun、Justin Solomon、Neil Thompson 和 Mikhail Yurochkin. 大型语言模型的路由与基准数据集。CoRR，2023 年。
Si 等人 [2023] Wai Man Si、Michael Backes 和 Yang Zhang. Mondrian：针对大型语言模型的提示抽象攻击以降低 API 定价。CoRR，2023 年。
Tao 等人 [2021] Chongyang Tao、Jiazhan Feng、Rui Yan、Wei Wu 和 Daxin Jiang. 基于检索的对话中的响应选择调查。发表于 IJCAI 会议论文集，2021 年。
Utpala 等人 [2023] Saiteja Utpala、Sara Hooker 和 Pin-Yu Chen. 使用零-shot 提示进行局部差分隐私文档生成。发表于 EMNLP Findings 会议论文集，2023 年。
Vavouliotis 等人 [2022] Georgios Vavouliotis、Gino Chacon、Lluc Alvarez、Paul V. Gratz、Daniel A. Jiménez 和 Marc Casas. 页面大小感知的缓存预取。发表于 MICRO 会议论文集，2022 年。
Watanangura 等人 [2024] Patcharapruek Watanangura、Sukit Vanichrudee、On Minteer、Theeranat Sringamdee、Nattapong Thanngam 和 Thitirat Siriborvornratanakul. 文本摘要技术的比较调查。SN Comput. Sci.，2024 年。
Wu 等人 [2023] Dingjun Wu、Jing Zhang 和 Xinmei Huang. 思维链提示引发知识增强。发表于 ACL Findings 会议论文集，2023 年。
Xu 等人 [2024] Mengwei Xu、Wangsong Yin、Dongqi Cai、Rongjie Yi、Daliang Xu、Qipeng Wang、Bingyang Wu、Yihao Zhao、Chen Yang、Shihe Wang、Qiyang Zhang、Zhenyan Lu、Li Zhang、Shangguang Wang、Yuanchun Li、Yunxin Liu、Xin Jin 和 Xuanzhe Liu. 资源高效的 LLM 和多模态基础模型调查。CoRR，2024 年。
Yang 等人 [2023] Jingfeng Yang、Hongye Jin、Ruixiang Tang、Xiaotian Han、Qizhang Feng、Haoming Jiang、Bing Yin 和 Xia Hu. 实践中利用 llms 的力量：关于 chatgpt 及其扩展的调查。CoRR，2023 年。
Yin 等人 [2023] Shukang Yin、Chaoyou Fu、Sirui Zhao、Ke Li、Xing Sun、Tong Xu 和 Enhong Chen. 多模态大型语言模型的调查。CoRR，2023 年。
Yu 等人 [2023] Lang Yu、Qin Chen、Jiaju Lin 和 Liang He. 视觉-语言模型的黑箱提示调优作为服务。发表于 IJCAI 会议论文集，2023 年。
Yue 等人 [2023] Murong Yue, Jie Zhao, Min Zhang, Liang Du 和 Ziyu Yao. 具有思维混合表示的大型语言模型级联，用于成本高效推理。CoRR, 2023。
Zhang 等人 [2023] Jieyu Zhang, Ranjay Krishna, Ahmed Hassan Awadallah 和 Chi Wang. Ecoassistant：以更经济和准确的方式使用 LLM 助手。CoRR, 2023。
Zhou 等人 [2020] Jianyi Zhou, Feng Li, Jinhao Dong, Hongyu Zhang 和 Dan Hao. 通过输入减少对深度学*模型的成本效益测试。发表于第 31 届 IEEE 国际软件可靠性工程研讨会，ISSRE 2020，葡萄牙科英布拉，2020 年 10 月 12-15 日，2020 年。
Zhu 等人 [2023] Banghua Zhu, Ying Sheng, Lianmin Zheng, Clark W. Barrett, Michael I. Jordan 和 Jiantao Jiao. 关于大型模型推理的最佳缓存和模型复用。CoRR, 2023。

生成于 2024 年 3 月 1 日星期五 03:26:58，由 LATExml

关于生成式人工智能和大型语言模型的视频生成、理解和流媒体调查

来源：arxiv.org/html/2404.16038

生成式人工智能和大语言模型在视频生成、理解和流媒体中的应用调查

周鹏远王林刘志郝艳斌潘晖塔科马康佳舒尔朱通讯作者：周鹏远 (zpymyyn@gmail.com)

摘要

本论文深入考察了当前最前沿的 AI 技术，即生成式人工智能（Generative AI）和大语言模型（LLMs），如何重塑视频技术领域，包括视频生成、理解和流媒体。论文强调了这些技术在生成高度现实的视频方面的创新使用，这是缩小现实世界动态与数字创作之间差距的重大突破。研究还探讨了 LLMs 在视频理解中的高级能力，展示了它们在从视觉内容中提取有意义信息方面的有效性，从而增强了我们与视频的互动。在视频流媒体领域，论文讨论了 LLMs 如何促进更高效和以用户为中心的流媒体体验，根据个体观众的偏好调整内容传递。这一综合性回顾探讨了生成式人工智能和 LLMs 在视频相关任务中的当前成就、持续挑战和未来可能性，强调了这些技术在多媒体、网络和 AI 社区中推动视频技术领域发展的巨大潜力。

{IEEEImpStatement}

本论文通过考察生成式人工智能（Generative AI）和大语言模型（LLMs）在视频生成、理解和流媒体中的整合，贡献于视频技术领域。对这些技术的探索提供了对其在提升视频内容现实性和互动性方面潜力和局限性的基础理解。对 LLMs 在视频理解中的探索为无障碍和互动方面的进步奠定了基础，承诺提供更好的教育工具、改进的用户界面和先进的视频分析应用。此外，论文强调了 LLMs 在优化视频流媒体服务中的作用，带来了更加个性化和带宽高效的*台。这可能会为娱乐行业带来实质性好处，通过适应性的流媒体解决方案满足个体偏好。通过识别关键挑战和未来研究方向，论文指导了将 AI 与视频技术融合的持续努力，同时提升了对潜在伦理问题的关注。它的影响超越学术界，鼓励在视频技术领域负责任的 AI 开发和政策制定，在技术进步与伦理考量之间取得*衡。{IEEEkeywords} 生成式人工智能（AI），大语言模型（LLM），视频理解，视频生成，视频流媒体，GPT

1 引言

视频内容的创建、分析和交付近年来都经历了重大突破，这要归功于视频相关技术的激动人心的发展。学术界和工业界努力突破视频处理领域的可行极限，从创建逼真的视频到理解复杂的视觉环*，再到优化视频流媒体以改善用户体验。整合生成性 AI 和 LLM 可以在视频相关领域开启令人兴奋的可能性。

凭借创建逼真且上下文一致的视频的能力，视频创作已成为一个引人入胜的研究领域。研究人员通过利用深度学*方法，如生成对抗网络（GANs），在生成揭示细节并捕捉现实世界动态的电影片段方面取得了显著进展。然而，诸如长期视频合成一致性和对生成内容的细粒度控制等挑战仍在探索中。

在视频理解方面也取得了类似的发展，这涉及从视频片段中提取重要信息。传统技术依赖于手动创建的特征和显式建模的视频动态。语言和视觉的最新进展已经取得了显著进展。基于预训练的变换器架构，如 OpenAI 的 GPT 及其他 LLMs，通常在处理和生成文本数据方面表现出了令人印象深刻的能力。这些 LLMs 在视频理解任务中，如字幕生成、动作识别和时间定位，具有巨大的潜力。

此外，随着对高质量、高分辨率和低延迟视频服务需求的不断增长，提高视频传输质量变得越来越重要和具有挑战性。带宽限制、网络抖动和不同用户偏好显著阻碍了无缝和沉浸式流媒体体验的提供。通过提供上下文感知的视频分发、实时视频质量改进和根据用户偏好进行自适应流媒体，LLMs 提供了一种令人兴奋的方式来克服这些困难。

鉴于这些进展，本研究全面分析了生成性 AI 和 LLMs 在生成、理解和流媒体视频方面的潜力。我们回顾现有工作，尝试回答以下问题：

•

什么技术已经被提议并正在革命性地改变上述视频研究领域？
•

还有哪些技术挑战需要解决，以推动 GAI 和 LLM 方法在上述视频服务中的应用？
•

由于使用 GAI 和 LLM 方法，提出了哪些独特的问题？

我们希望引起多媒体、网络和人工智能社区的关注，以鼓励在这一迷人且快速发展的领域进行未来的研究。

年份	GenAI	LLM	生成	理解	流媒体	总结
[1], 2020	$\surd$	X	$\surd$	X	X	VAEs、GANs 和 Transformers 在视频生成中的概述。
[2], 2023	$\surd$	X	$\surd$	X	X	研究文本到图像和文本到视频的人工智能生成器。
[3], 2023	$\surd$	X	$\surd$	X	X	关注于生成说服性视频的人工智能方法。
[4], 2022	$\surd$	X	$\surd$	X	X	关注于视频生成的 GAN 方法。
[5], 2023	X	X	X	$\surd$	X	关注于描述的深度学*方法。
[6], 2020	X	X	X	$\surd$	X	针对特定数据集的综述描述方法。
[7], 2019	X	X	X	$\surd$	X	针对基于人工智能的视频描述的方法、数据集和指标。
我们的, 2023	$\surd$	$\surd$	$\surd$	$\surd$	$\surd$	GenAI 和 LLM 在视频生成、理解和流媒体中的应用。

表 1：近年来相关的综述论文。

2 方法论

本综述旨在从广泛的视角探讨生成型人工智能与 LLMs 以及视频领域之间的互动。它涵盖了从 Google Scholar、IEEE Xplore、ACM Digital Library、Elsevier、ScienceDirect、DBLP 等收集的超过 100 篇论文。查询结合了以下关键词：生成型人工智能 / LLM $\&$ 视频理解 / 分割 / 生成 / 流媒体，以及与第3节讨论的关键技术相关的关键词。我们进一步通过添加在互联网上突出的研究来补充这些文章，以覆盖该领域的综合重要出版物。这个过程一直持续到没有发现新文章为止。我们仔细审查了这些论文，并挑选出最相关和最重要的文章，同时过滤掉了不那么相关的文章。所选论文构成了本综述的核心，我们在撰写过程中进行了持续更新，以涵盖我们开始过程以来发表的论文。注意，由于 2023 年相关领域的快速发展和大量出版物，可能有一些我们忽视的新论文；但我们已尽力而为。

3 概述

我们设想生成式人工智能和 LLMs 在视频的整个生命周期中起着关键作用，包括生成、理解和流媒体。该框架跨越了三个主要的计算机科学群体，即人工智能、多媒体和网络。人工智能社区正在见证一种前所未有的发展速度，从能够进行文本到图像生成的模型到能够进行文本到视频生成的模型，仅仅用了大约一年的时间，从 2021 年到 2022 年。现在甚至有演示显示出仅仅通过使用提示就能创建 3D 视频的能力。因此，我们可以想象生成式人工智能在视频生成行业中变得更加重要，超越甚至完全取代传统的生成方法。视频理解对许多情况非常有用，例如场景分割、活动监视、事件检测和视频标题，这是一个受到越来越多关注的不断上升的方向。自从 2023 年以来，LLMs 在理解图像和视频等多模态输入方面的能力也得到了像 GPT-4 和 Video-ChatGPT 这样最先进产品的显著提升 [8]。至于视频流，LLMs 也具有有趣的潜力来改善流媒体管道的几个关键步骤。例如，具有改进理解能力的模型可以理解视频场景的语义含义，并通过相应地改变编码率来优化传输。此外，像在 XR 游戏中广泛使用的点云这样的 3D 视频流，可以从 LLM 对环*的理解中受益，以预测用户在下一时刻的视场，并进行内容预取。

3.1 主要组成部分

生成式人工智能和 LLMs 之间的协同作用已经在视频生成领域开辟了新的前沿，制作出与现实越来越难以区分的视觉效果。这些技术共同致力于通过以下方式（第 4.1部分）丰富数字景观：

•

GANs（生成对抗网络）利用生成和判别网络之间的创造性对抗过程来理解和复制复杂模式，从而产生逼真的视频样本。
•

VAEs（变分自动编码器）生成连贯的视频序列，为帧无缝融合提供了一个结构化的概率框架，使得故事情节合情合理。
•

自回归模型创建了一个连续的序列，其中每个视频帧逻辑上都是紧随上一个的，确保了叙事和视觉的连续性，令观众着迷。
•

扩散模型将复杂的文本叙述转化为详细且高分辨率的视频，将文本到视频合成的边界推向更远。

接下来，LLMs 通过提供丰富的上下文解释和描述来提升视频理解，促进更深入的内容互动（第4.2节）：

•

视频字幕生成使用 LLMs 来生成富有洞察力和准确的描述，将视觉内容的本质用自然语言捕捉，使视频更具可搜索性和可访问性。
•

视频问答利用 LLMs 的上下文理解能力来处理复杂的观众询问，提供增值和深度的回答，提升观看体验。
•

LLMs 使视频检索和分割发生革命性变化，它们解析和分类视频内容为可理解的片段，从而简化了大规模视频库的搜索和导航。

图 1：视频生成、理解和流媒体的分类，结合 GAI 和 LLMs。

最后但同样重要的是，LLMs 可以通过优化带宽使用、个性化内容传递和提升观众互动，从以下几个角度重新定义流媒体环*（第4.3节）：

•

带宽预测通过 LLMs 得以精细化，这些模型分析过去和现在的网络数据，预测未来需求以主动分配资源，从而确保无缝流媒体。
•

观点预测通过 LLMs 对内容和用户行为的理解得到增强，预测视频中的下一个关注区域，以提供量身定制和沉浸式的观看体验。
•

视频推荐和资源分配通过 LLMs 的分析能力得到提升，将观众偏好与内容匹配，并管理网络资源以提供定制化和高效的流媒体服务。

4 技术

4.1 生成性 AI 用于视频内容生成

生成式人工智能作为一种强大的工具，已经出现，并能够创造各种内容，包括图像、文本、音乐和视频。在视频内容创建方面，生成式模型有潜力通过自动生成逼真且高质量的内容来彻底改变我们创建和消费视频的方式。生成式模型，特别是基于深度学*的生成式模型，如 GANs [9]、变分自编码器（VAEs）[10]、自回归模型[11]和基于扩散的模型[12, 13, 14]，在生成各个领域的逼真且多样化的内容方面取得了显著成功。这些模型通过在大规模数据集上训练来学*数据的潜在分布，从而生成与训练数据相似的样本。一些最先进的生成式模型列在表2中。然而，由于视频的空间-时间属性、对照片级真实动态场景的需求以及处理视频数据的高昂成本，生成式人工智能模型在视频内容生成方面面临独特的挑战。尽管存在这些挑战，生成式模型在视频内容创建方面已经取得了显著进展。我们现在将详细讨论这些模型。

图 2：先进的基于人工智能的视频生成技术概述。

表 2：用于视频内容生成的生成方法回顾。

方法	输入信息	任务
GAN 模型
VideoGAN [9]	视频	给定单张静态图像在封闭场景域中的视频生成和视频预测。
EDN [15]	视频	使用姿态作为中间表示的视频到视频翻译。
VAE 模型
SVG [10]	视频	给定简单运动视频（如人类活动）的初始帧的视频预测
SadTalker [16]	图像, 音频	给定面部图像和一段语音音频的对话头像生成。
自回归模型
Video Pixel Networks [11]	视频	给定简单运动视频（如 MNIST 运动）的初始帧的视频预测。
CogVideo [17]	视频, 文本	文本到视频生成、视频预测和视频帧插值。
扩散模型
VDM [12]	视频, 文本/标签	基于文本或标签的视频生成和视频预测。
Imagen-Video [13]	视频, 文本	文本到视频生成、视频预测和视频帧插值。
Make-a-Video [14]	视频, 文本	文本到视频生成、视频预测和视频帧插值。
Video LDM [18]	视频, 文本	文本到视频生成，高分辨率视频合成。
DreamTalk [19]	图像, 音频	给定面部图像和语音音频生成对话头。
Dancing Avatar [20]	动作, 文本	通过文本描述和动作生成高质量的人类视频。
Discro [21]	动作, 文本	通过文本描述和动作生成高质量的人类视频。

GANs 由生成器和判别器组成，它们在一个二人对抗的博弈中进行训练。生成器学*生成逼真的样本，而判别器学*区分生成的样本（即假样本）和真实样本（即真样本）。在视频生成的应用中，GANs 已被扩展以建模时间一致性并生成逼真的视频帧。例如，VideoGAN [9] 引入了一种双流架构，分别建模视频中的外观和运动。生成器生成视频帧，而判别器评估单个帧的真实性以及连续帧之间的运动。这种方法在生成逼真的人类动作和场景视频方面取得了成功。

变分自编码器（VAEs）是一种生成模型，通过优化数据似然性的变分下界来学*数据空间与潜在空间之间的概率映射。在视频生成的背景下，VAEs 已被调整以建模视频的时间结构并生成视频序列。例如，Stochastic Video Generation (SVG) 框架 [10] 扩展了 VAEs 以建模基于过去帧的未来视频帧的分布。SVG 框架引入了潜在变量的层次结构，以捕捉视频数据的多尺度特性，从而实现生成多样化和逼真的视频序列。

自回归模型通过建模每个数据点在其前置数据点条件下的条件分布来生成数据。在视频生成的背景下，自回归模型可以用来顺序生成视频帧，每一帧都以之前生成的帧为条件。一个突出的例子是视频像素网络（Video Pixel Networks）[11]，这是一个自回归模型，它扩展了 PixelCNN[22]以建模视频数据。VPN 将视频编码为四维依赖链，其中时间依赖通过 LSTM 捕捉，空间和颜色依赖通过 PixelCNN 捕捉。另一方面，Transformer[23]建模序列数据，并在许多自然语言处理和视觉任务中表现良好。与基于 GAN 的方法相比，自回归模型能够处理连续数据和离散数据。

扩散模型将数据生成构建为去噪过程。近年来，扩散模型在视觉生成中取得了显著成功，并在大多数图像相关的合成或编辑任务中达到了显著的最先进性能。视频扩散模型（Video Diffusion Model, VDM）[12]是第一个通过将 U-net[24]扩展到 3D 版本，将扩散模型引入视频生成领域的工作。后来，Imagen-Video[13]凭借其强大的预训练文本-图像生成器 Imagen，在高分辨率文本-视频合成中展示了显著的能力。它在串行空间层中插入了时间注意力层，以捕捉运动信息。Make-a-Video[14]是另一个在文本-视频合成中强有力的竞争者，通过在 CLIP[25]语义空间上进行条件处理。它首先生成关键帧，基于文本先前的信息，然后通过几个插值和上采样扩散模型进行级联，以实现高一致性和保真度。然而，以上提到的先驱工作都面临高计算成本的问题，Video LDM[18]被提出以缓解这一问题，通过在语义压缩空间中生成运动感知的潜在表示。

4.2 LLMs 用于视频场景理解

视频场景理解是一个旨在从视频中提取有意义信息的任务。它包括识别视频中的对象、活动和事件，并理解它们之间的关系 [26]。生成式 AI 和 LLMs 由于能够从大量数据中学*并生成视频内容的自然语言描述，已经成为视频场景理解的有前途的方法 [27]。本文讨论了 LLMs 在视频场景理解中的应用，并回顾了一些近年来提出的技术。

视频场景理解涉及几个子任务，包括对象检测、动作识别和事件检测 [28]。对象检测旨在识别和定位视频中的对象，而动作识别则旨在识别诸如行走、跑步和跳跃的人类动作。事件检测旨在识别和分类事件，如事故、体育赛事和音乐会。这些子任务具有挑战性，因为视频复杂而动态，相同的对象或动作可以以不同的方式和背景出现。

LLMs 是神经网络模型，训练时使用大量文本数据来生成自然语言文本。这些模型在自然语言处理任务中取得了令人印象深刻的成果，如语言翻译、问答和文本生成。LLMs 还可以用于视频场景理解，通过生成自然语言描述来解析视频内容 [27]。这些描述可以帮助总结视频内容，并提供关于视频中对象、动作和事件的洞见。

图 3：LLMs 在视频场景理解任务中的概述。

已经提出了几种方法来利用 LLMs 执行视频场景理解中的不同任务。尽管不同任务对 LLMs 的使用方式有不同的要求，但我们发现它们共享一些共同组件，如从视频片段中提取时间和语义特征、语义和视频特征对齐等，如图 3 所示。接下来，我们讨论其中的一些技术及其优缺点。

视频字幕生成是一个涉及生成视频内容自然语言描述的任务 [29, 30]。这个任务可以通过使用 LLMs 来解决，通过在大规模的视频和相应字幕的数据集上训练它们。这个过程包括两个主要步骤。首先，提取的视觉和音频特征被编码为固定长度的向量表示，使用训练好的 LLM [31, 32]。这种编码捕捉了视频中的重要信息，并为生成准确的字幕提供了上下文提示。然后，LLM 生成视频的文本描述或字幕。这些字幕可以涵盖一系列细节，包括物体、动作、事件或任何其他有效描述视频内容的相关信息 [33, 34]。

使用 LLMs 进行视频字幕生成在多个领域中得到应用，包括提升听力障碍人士的可及性、促进视频搜索和检索、生成视频摘要以及改善对视频内容的总体理解 [35]。

视频问答是一个涉及回答关于视频内容自然语言问题的任务。这个任务可以通过使用 LLMs 来解决，通过在大规模的视频和相应问题及答案的数据集上训练它们 [36, 37, 36]。模型学*从视频内容中提取相关信息以回答问题。这种方法的优点是能够生成针对具体问题的特定答案。然而，这种方法的局限性在于它需要大量标注数据，并且可能无法捕捉视频内容的上下文和复杂性 [38, 39, 40]。

使用 LLMs 的视频检索是指使用先进的语言模型从大型视频数据库中搜索和检索相关视频的过程。LLMs 是强大的神经网络模型，能够根据大量训练数据理解和生成类似人类的文本[41, 35]。这一任务可以通过在大规模的视频数据集上进行训练来处理，该数据集包含相应的文本描述。代表性的方法[33, 42]学会将视频的视觉内容与相应的文本描述相关联，如图3所示。借助 LLMs 的强大能力，可以实现更准确和高效的视频检索，提升用户体验，并增强视频数据库的实用性。然而，这种方法的局限性在于需要大量标记数据，并且可能无法捕捉视频内容的细微细节[43, 44]。

视频分割，即对视频中的对象或感兴趣区域进行分割的任务，可以从大型语言模型（LLMs）的应用中受益[45]。LLMs 通过利用其语言理解能力可以辅助语义视频分割。通过结合文本描述或提示，LLMs 可以指导分割过程，提供高层次的背景和语义理解。例如，LLMs 可以生成描述所需对象或区域的文本掩码或描述，帮助实现准确且与背景相关的分割[31, 46]。此外，视频分割通常需要时间推理，以准确分割随时间变化的对象或区域。LLMs 可以用来建模长期时间依赖性，并捕捉跨视频帧的背景信息。通过在语言提示中加入时间线索或用时间目标训练 LLMs，它们可以促进时间视频分割，实现更连贯、一致的分割[35]。

总而言之，由于 LLMs 能够从大量数据中学*并生成视频内容的自然语言描述，它们已经成为视频场景理解的一个有前途的方法。本文讨论的技术展示了 LLMs 在视频场景理解中的潜力。然而，这些技术也存在局限性，如对大量标注数据的需求以及无法捕捉视频内容的细粒度细节。需要进一步研究以提高 LLMs 在视频场景理解中的性能，并克服这些局限性。

4.3 LLM 用于视频流

接下来，我们从各个角度探讨 ChatGPT 类似的 LLMs 如何提升视频流体验。如图4¹¹1 请注意，有时特定工作中只考虑了系统的部分内容。一个典型的视频系统包括视频捕捉、视频编码（即压缩）、视频网络传输、视频解码和视频帧恢复。我们首先讨论具有挑战性的流行视频格式。然后总结 LLM 在视频流中的潜力，以应对这些挑战。

图 4：典型视频传输系统的示意图。感兴趣的场景由多个摄像头捕捉，压缩后的视频传输到服务器。这些视频通过骨干网分发，并从相应的无线基站直接接收给移动用户。

LLMs 用于带宽预测。未来的带宽预测是提高视频传输的一个根本问题。带宽数据是时间性的；目前，大量工作依赖于深度学*方法，如 LSTM 和 RNN。大规模预测模型在时间序列预测中提供了重要的优势，能够更好地预测未来的网络状况，并作为视频传输的基石。此外，在样本稀缺的新环*中，有效利用 LLMs 和迁移学*技术，即使在样本有限的情况下，也能产生有希望的结果。例如，Azmin 等人[47]提出了一种基于 transformer 的模型，专为 5G 数据集设计，相比于仅依赖 LSTM 的方案，展示了显著的改进。他们引入了新颖的特征分析技术，包括 LASSO 和更新超参数的随机森林，以及现有的 Informer 与随机森林。

LLMs 用于视口预测。VR/360°及其他沉浸式视频系统中的一个关键方面是视口预测，这涉及到准确预测用户在虚拟环*中的下一个视点 [48, 49]。这一预测对确保无缝且响应迅速的观看体验至关重要。为了增强视口预测，我们可以利用如 GPT-4 等 LLMs 的能力，这些模型在 NLP 和生成任务中表现出色。通过将这些语言模型适应处理视频相关数据，我们可以显著提高视角预测的准确性。该过程涉及在包含视频序列、用户交互模式和位置信息的大型数据集上训练 LLM，以学*用户行为中的复杂模式和依赖关系，从而改善用户下一个视角的预测。例如，[50] 的研究介绍了一种基于变换器的方法，用于预测 360°视频中的视口。该技术仅专注于分析过去的视口扫描路径，以实现精确的长期视口预测，同时保持低计算复杂性。在[51] 进行的研究中，变换器被纳入以评估其在注视估计中的有效性。通过保留卷积层并将 CNN 与变换器结合，变换器作为补充组件来提升 CNN 的整体性能，取得了卓越的表现。此外，[52] 通过时空变换器将注视特征与场景上下文及人-物对的视觉特征相结合，预测视频中的人-物交互。

视频压缩优化。LLMs 可以优化视频编码和压缩，减少文件大小，提高传输效率。例如，[53] 提出了一个针对深度视频压缩的掩蔽图像建模变换器。按照预训练语言/图像模型中的代理任务概念，该变换器经过训练以充分利用帧之间的时间相关性和空间标记，在少数自回归步骤中进行处理。与此同时，[54] 介绍了一种基于变换器的神经视频压缩方法，该方法优雅简单，超越了以前的方法，而不依赖于显式运动预测或扭曲等结构先验。

资源分配。在无线通信网络中，资源分配是一项关键任务，涉及高效地分配有限的网络资源，如带宽、功率和时间槽，给不同的用户和应用。视频流作为数据密集型且受欢迎的应用之一，需要仔细的资源分配，以确保用户能够获得流畅且高质量的视频传输。

大型语言模型（LLMs）可以处理和分析与视频流相关的各种文本输入，包括用户偏好、视频内容描述、网络状况和其他背景数据。利用这些信息，LLMs 可以更好地理解用户需求、视频特性和网络要求，从而提出优化的资源分配策略。这些策略旨在优先分配资源，以最大化视频流的质量，最小化缓冲或延迟问题，并提升整体用户体验。

此外，LLMs 可以从大量数据中持续学*，根据变化的网络条件和用户行为调整资源分配决策。这种适应性使资源分配过程能够动态响应实时变化，从而实现更高效和适应性的视频流服务。

5 应用

5.1 生成

图 5：视频生成应用。

视频合成。生成式 AI 模型可以用于合成新的视频内容，从而在无需人工干预的情况下创建逼真的场景和特效。由于 GAN 的固有训练不稳定性，基于 GAN 的跨模态视频合成的探索相对较少。TGAN [55]，作为早期的尝试，通过先生成一个潜在表示，然后使用图像生成器将其解码为像素，利用 GAN 进行视频生成。NUWA [56]，一个基于变换器的模型，提出了一个统一的跨模态生成模型，能够适应各种生成场景，如文本到视频、草图到视频、视频预测等。CogVideo [17] 通过实现多帧率层次化训练策略来扩展文本到图像模型 CogView [57]，以更好地对齐文本和视频片段。最近的基于扩散的模型，如 Imagen-Video [13] 和 Make-a-Video [14]，将视频生成的边界推向了一个新的水*。然而，这些扩散模型由于参数数量庞大和复杂的级联网络，极大地限制了社区进一步开发的能力。与其他方法相比，Video LDM [18] 展现了高效性和表现力。它通过使用来自 WebVid 数据集 [58] 的 1070 万视频-字幕对的数据集，微调了公开可用的 Stable Diffusion (SD) 图像 LDM 模型来实现这一点。Text2Video-Zero [59] 进一步提出了一种不依赖于视频数据的方法。相反，它采用预定义的全局转换参数来扭曲潜在代码，并利用与起始帧的跨注意力来获得一致且去噪的帧。Video LDM 和 Text2Video-Zero 也具有个性化视频生成的能力。用户可以通过 Dreambooth [60] 等方法自定义视频中的概念。

针对特定领域的视频合成任务也有相关研究，例如基于音频的视频生成和人类舞蹈视频生成[20]。SadTalker[16] 利用条件 VAE 合成头部动作，实现风格化的音频驱动面部动画。DreamTalk[19] 采用扩散模型根据提供的源音频或视频生成高度多样的谈话头部。对于人类舞蹈视频生成，基于 GAN 的姿势引导视频生成模型 EDN[15]，在从特定人类舞蹈视频中提取的图像-姿势对上进行了微调。它能够根据任何开放集姿势图像生成一个人的图像。然而，EDN 在没有广泛预训练的情况下，高效准确地重建人类属性细节面临挑战。Discro[21]通过利用当前最先进的预训练扩散模型和结构化条件技术解决了这个问题。为了在推理过程中增强属性细节，它采用了 Grounded-SAM[61]进行前景提取，并在一个广泛的人类属性数据集上预训练模型，从而在舞蹈合成中实现了更好的组合效果。

另一项研究线索集中在通过整合当前的大型语言模型（LLMs）来提高文本引导视频生成的流畅性。为了更好地将视觉分词与 LLMs 的学*过程对齐，提出了 MAGVIT-v2[62]，作为一种简洁且富有表现力的视频分词器。这使得 LLMs 在视频生成性能上相较于基于扩散的模型有所提升。VideoPoet[63]，作为一种多功能视频生成模型，利用包括 MAGVIT-v2 在内的各种模态输入分词器来促进视频分词。它能够处理各种视频生成场景，实现视频与文本、音频等其他模态之间的无缝转换。

视频编辑允许用户自定义特定视频的编辑。这些应用程序不限于有限合成模型的能力，使得模型可以专注于编辑特定场景，从而提高时间一致性。例如，DiffVideoAE [64] 通过修改面部属性或利用 CLIP 信号，实现了对基于面部的语音视频的细粒度编辑。Tune-a-Video [65] 扩展了图像扩散模型，仅对给定视频进行微调，从而实现基于文本的编辑。另一方面，Pix2Video [66] 通过将前一帧的自注意力特征注入到当前帧中，实现了无训练和一致的文本编辑视频，隐式地聚合了时间信息。分层神经表示 [67, 68] 是另一种有前途的视频编辑方法，旨在将视频分解成不同的层。Text2Live [69] 结合了这种表示和文本指导，展示了令人信服的视频编辑结果。

随着生成 AI 技术的不断进步，众多视频生成*台应运而生。一个显著的例子是著名的 Pika *台²²2https://github.com/pika/pika，它作为一个创意到视频的*台，利用 AI 无缝地创建和编辑视频。

视频预测是指基于观察到的过去帧来预测视频序列中的未来帧。视频预测任务具有广泛的社会影响，包括提升娱乐性、改善安全性、帮助理解人类行为以及推动自动化系统的发展。例如，它可以部署到自动化系统中，以更有效地规划和导航环*。早期的基于递归的方法，如 FRNN [70]，通过递归地输入先前的预测来生成后续帧。为了应对 RNN 结果模糊的问题，Hier-vRNN [71] 使用潜在变量的层次结构来增加潜在分布的表达能力。最近，条件扩散模型在视频预测中也展现了令人印象深刻的结果。通过对先前帧进行条件处理，RaMViD [72] 引入了随机条件遮罩，使扩散模型能够同时执行预测、填充和预测任务。MVCD [73] 还发现，在训练中随机且独立地处理所有过去帧或所有未来帧，往往能生成高质量的预测帧。另一方面，FDM [74] 发现，对先前帧进行选择性稀疏和长距离条件处理对于生成长视频是有效的。

5.2 视频场景理解

人类动作和行为识别是视频场景理解中的核心任务之一，旨在估计在线视频中的人类动作和行为 [75, 76, 77]。在这个背景下，需要分析考虑到人体尺寸、姿势、视角、光照条件和相机运动等多样性因素的动作和行为。对于这项任务，主要挑战是如何利用预训练的 LLMs 从视频序列中学*到强大的动作表示 [78]。LLMs 最近被应用于各种人类动作和识别任务。图 6 展示了 LLM 引导的动作识别的示例。例如，Kaneko 等人 [79] 提出了一个方法，通过设计文本提示来获取用于人类活动的新特征。Zhou 等人 [80] 提出了一个方法，将来自物联网（IoT）传感器的信号（如相机视频、Lidar 和 mmWave）与 LLMs 连接，以实现人类动作识别的目标。通过对齐视觉和语言表示空间，可以直接将视觉特征与语言特征进行映射。因此，学*到的模型具备了零-shot 学*的能力，通过模仿人类识别物体的方式来识别未见过的物体。Wu 等人 [81] 介绍了一个视频-文本识别框架，使用视觉-语言模型（VLMs）如 CLIP [25] 的自然语言来连接视频领域进行跨模态知识提取。

图 6: VLMs 在人类动作识别中的示例。输入示例取自 kinetics 人类动作视频数据集 [82]。

表 3: 视频场景理解的代表性方法。

方法	输入模态	亮点
人类动作和行为识别
Kaneko 等人 [79]	文本, 视频	设计文本提示以获取新的特征。
Zhou 等人 [80]	文本, 视频, Lidar, mmWave	对齐视觉和语言表示空间以进行人类动作识别。
Kaneko 等人 [79]	视频, 文本	使用 VLMs 连接视频领域进行跨模态知识提取。
基于视频的对话和对话
Video-ChatGPT [8]	文本、视频	捕捉视频帧之间的时空关系。
VideoChat [83]	文本、视频	基于视频基础模型和 LLM 的视频中心对话系统。
Liu et al. [41]	文本、视频	视频对话任务的时间建模。
人机/机器交互
PaLM-E [84]	文本、图像、视频	一个大型具身多模态模型，用于处理各种具身推理任务。
LM-Nav [85]	文本、视频	基于视频输入的无缝人机对话系统。

借助 LLMs 或 VLMs 的指导，人类动作和物体识别方法已广泛应用于视频监控[86]、机器人导航[78、87、88]、医学诊断和医疗保健[89]、体育[86]。例如，配备视觉传感器的 LLMs 使机器人能够根据视频序列具备更强的 NLP 能力。这通过模仿人类的推理和对话，促进了人机之间更紧密的集成。在体育方面，LLMs 的零样本识别能力和语义丰富性被用于指导多种体育活动的动作识别模型，如足球和篮球。

总结而言，LLMs 与视频融合用于人类动作和物体识别，预示着视频场景理解的一个激动人心的新时代。随着积极的研究进展，这一领域对更广泛的视频应用享有极大的利益。

基于视频的对话和交流。LLMs 能够提供语义信息并生成符号空间信号，这些信号可以作为视频场景理解的指导。最近，这一点在互动视频对话和交流中得到了展示[42, 41, 83, 90, 46, 91]。在这个背景下，Video-ChatGPT [42] 旨在通过基于 LLMs 捕捉视频帧之间的时空关系来实现视频理解和对话。它在各种基准数据集上展示了强大的对话和上下文理解能力。另一方面，VideoChat [83] 引入了一个以视频为中心的多模态对话系统，整合了视频基础模型和 LLMs。此外，Liu 等人[41] 将 LLMs 扩展到视频领域，并结合了一个时空模块，用于视频对话任务的时间建模，如图7所示。

总结来说，视频基础的对话和交流的最新进展主要通过将视频/图像基础模型与 LLMs 集成来展示。通过 LLMs，可以通过探索视频中心对话建模的时间关系实现零样本对话。

图 7：基于 LLMs 的视频对话的代表性流程[41]。

人机/机器互动。随着 LLMs 的普及，许多研究工作致力于 LLMs 在人机/机器互动领域的应用，如图8所示的视觉说明。一方面，借助预训练的 LLMs，机器人被赋予理解人类需求和查询的能力[84]。另一方面，LLMs 使机器人能够通过与 LLMs 的互动来表达流畅和类人的自然语言[85]。然而，将 LLMs 应用于人机/机器互动需要处理 LLMs 提供的不准确推理。为此，开发了基于摄像头视频输入的机器人对话系统，以实现与人类的更无缝互动。

作为一个新兴领域，这一方向展示了巨大的潜力，并为机器人导航和人机互动提供了新的范式。LLMs 帮助提升学*效率和表现，同时增强了人类与机器人的互动。

图 8：基于大语言模型（LLM）进行地标提取、基于视觉-语言模型（VLM）进行基础定位、以及基于视觉导航模型（VNM）进行执行的导航指令示例 [85]。

5.3 流媒体

尽管 LLMs 在视频流媒体中的应用仍处于起步阶段，但在用户观看角度预测、网络状况预测、视频内容编码和处理等领域的潜在应用表明了显著的发展机会。持续的研究和创新有望推动 LLMs 在视频流媒体中的应用，最终为用户提供更智能和个性化的观看体验。在这种背景下，我们深入探讨了基于变换器的 LLMs 在视频流媒体领域中的几个经典应用。

360°和体积视频流。360°通常是一个球形视频，将一组摄像机或镜头同时拍摄的不同角度的视频拼接在一起。一旦视频合并成一个，摄像机或视频编辑软件会在颜色和对比度上同步不同的镜头。为了使用标准编解码器（如 H.264 [92] 和 HEVC [93]）压缩 360°视频，视频会被投影到二维领域。由于其全景特性，360°视频在相同感知质量下比传统视频大得多（4$\times$至 6$\times$）。最终的 360°视频在单眼 8K 分辨率下需要达到多个千兆比特每秒（Gbps）的带宽，对网络提出了极大挑战，并对成本造成巨大负担[94, 95]。主流行业认为，运动到光子延迟（MTP）不应超过 20 毫秒³³3Huawei-iLab. 2018. 云 VR 网络解决方案白皮书。取自 http://www.huawei.com/，否则会导致用户眩晕。

体积视频（或全息视频），作为在 VR/AR/MR 中表示自然内容的介质，可能是视频技术的下一代，并且是 5G 及未来无线通信的典型应用案例[96, 97]。体积视频为用户提供了六自由度（6DoF）的沉浸式观看体验，即用户可以自由前进/后退（冲击）、上下移动（升降）或左右摆动（摆动），以选择他们喜欢的 3D 场景视角，从而享受比 3DoF VR 视频用户多出三个自由度的体验。作为最受欢迎的体积媒体表示形式，点云由 3D 点组成，每个点具有多个属性，例如坐标和颜色。

对于 360°和体积视频，每次用户感知 360°场景的一部分，即视场（FoV）。随着用户旋转头部，相应的 360°场景的不同 FoV 会被渲染出来供观察。通过允许用户自由选择视频球体内的任何观看角度，360°和体积视频将沉浸式观看体验提升到一个新水*，相较于传统视频和多视角视频。

与传统视频流相比，360°和体积视频的技术挑战包括：

•

视口预测：每个用户每次只观察 360°场景的一部分，并且在视频播放过程中可能会切换视场角（FoV）。此外，解决不可避免的错误视点预测对于保证视频服务的质量也很重要。
•

严格的延迟要求：MTP 需要低于 20 毫秒。
•

基于瓦片的资源分配：360°和体积视频流的资源分配是在瓦片级别进行的，需要考虑质量切换。

由第4.3 节提到的、由 LLM 支持的技术，包括视口预测、带宽预测、压缩和资源分配，可以共同优化 360°和体积视频的挑战性流媒体任务。

短视频推荐。近年来，短视频越来越受到欢迎，像 TikTok 和 YouTube Shorts 这样的*台为用户提供了创建和分享内容的*台。这些视频通常长度从几秒到一分钟不等，涵盖了广泛的主题。短视频的兴起彻底改变了我们消费和创建内容的方式，使任何人都可以更轻松地与世界分享他们的想法和创意。

从技术角度来看，这些视频的传输与常规视频的传输相差甚远[98]。通常，服务器会向用户推荐一组视频（例如 5 个），所有这些视频都会推送给用户。用户然后选择观看哪些视频，并丢弃他们不喜欢的视频，导致传输资源浪费。然而，如果不是所有视频都被传输，用户可能会遇到缓冲或视频质量下降，这会显著影响他们的观看体验。这个问题涉及如何向用户推荐视频，是否传输所有视频或部分视频，以及如何分配视频资源等挑战。此外，缺乏可用于研究的视频库是一个重大障碍。准确的推荐对于最小化带宽浪费至关重要。结合 LLM 的视频推荐系统可以更好地理解用户的偏好和上下文，从而提供更准确和个性化的视频推荐。LLM 可以分析用户查询、视频描述和其他与视频相关的文本信息，以把握语义含义、情感和其他影响用户偏好的重要因素。这种方法有潜力显著提升用户的满意度、参与度和留存率。随着这些语言模型不断从大量文本数据中学*，它们在理解用户意图和偏好方面变得越来越熟练，从而提供更相关和吸引人的视频推荐。最终，这种视频推荐的改进可以带来更愉快和沉浸的用户体验，惠及用户和视频内容提供商。

图 9：LLM 在视频流媒体中的应用示意图。

视频服务增强。基于 Transformer 的 LLMs 可以应用于图像超分辨率，通过预测和生成更高分辨率的图像来提升视频质量，或从有损压缩的视频中去除伪影，并通过对视频内容进行照片级真实恢复来改善视觉属性。例如，Liu 等人介绍了一种开创性的轨迹感知 Transformer [99]，这是将 Transformer 架构整合到视频超分辨率任务中的初步尝试之一。该模型展示了优异的性能。Geng 等人提出了一种统一的时空 Transformer，结合了时间插值和空间超分辨率模块用于时空视频超分辨率 [100]。这种创新方法使得网络规模显著小于现有方法，实现了实时推断而性能几乎没有妥协。[101] 提出了一个具有低延迟的实时在线视频增强 Transformer，利用空间和时间注意力机制。该模型在定量和定性上均有显著进步，推断时间最小化。

基于 LLMs 和生成 AI 的视频服务增强近期也有显著进展。[102] 提出了在《英雄联盟》比赛中自动生成流媒体评论的创新方法。该系统熟练地识别关键事件，并利用生成 AI 服务生成语音输出。此外，[103] 介绍了一个综合性的基于 transformer 的视频字幕生成模型，这在流媒体服务中具有重要作用。作者提出了稀疏注意力掩码作为一种正则化技术，以改善长序列视频建模。他们还提供了定量验证，确认了可学*的稀疏注意力掩码在字幕生成领域的有效性。

表 4：视频流的 LLM 方法综述。

方法	输入信息	任务
视口预测
基于 transformer 的方法 [50]	过去的视角扫描路径	长期视角预测
		复杂度低。
基于 transformer 的方法 [51]	面部图像	眼动信息。
时空 transformer [52]	注视特征、场景上下文以及	预测视频中的人物–物体交互
	人物–物体对的视觉特征。
带宽预测
基于 transformer 的模型 [47]	之前的带宽信息。	未来的带宽条件。
基于 GAN 的解决方案 [104]	实际视频痕迹	合成视频流数据，具有
		关注 360°/普通视频分类。
视频压缩
遮罩图像建模变换器 [53]	视频	深度视频压缩。
基于变换器的方法 [54]	视频	神经视频压缩。
视频增强
视频增强变换器 [101]	原始视频	提升质量的视频。
基于变换器的方法 [99]	视频	视频超分辨率。
统一的时空变换器 [100]	视频	时空视频超分辨率。
GAN 模型 [105]	视频	实时超分辨率。
基于变换器的模型 [103]	待观看视频	视频字幕生成。

6 挑战

在这一部分，我们讨论了生成式 AI 和 LLM 在视频生成、理解和流媒体服务中面临的主要挑战。

6.1 生成

时间一致性。生成式 AI 在视频内容创作中的主要挑战之一是确保生成帧之间的时间一致性。生成的视频序列应展现*滑和现实的运动模式，保持这些模式在帧之间是一项具有挑战性的任务。此外，视频量以及训练策略的选择在一致性方面也起着关键作用。将视频生成建模为离散图像生成任务容易导致时间一致性差，并且会受到时间闪烁 [106, 107]。通过将时间轴视为连续信号的隐式神经表示（INRs）方法 [108] 可以轻松生成任意长的视频。TGANv2 [109] 通过引入层次判别器来保证从粗到细的*滑度来解决这个问题。最近的图像预训练模型 [18] 发现，插入多个时间注意力层并在视频数据集上完全微调也是一种有效的方法。

高计算需求。视频生成需要处理高维数据，这大大增加了训练和推理的计算需求。开发高效的算法和并行化技术仍然是一个持续的挑战。像 NUWA [56] 和 Imagen-Video [13] 这样的工作属于文本-视频生成器类别，它们在数百万个文本-视频对上进行训练，使得大多数研究小组很难复制。然而，某些基于编辑的视频生成方法通过利用少量的视频数据集甚至完全不使用视频数据集来解决计算负担，以实现特定任务。Tune-a-Video [65] 是这种方法的一个例子，其中通过利用图像生成器来完成针对性的编辑任务来微调视频。这些特定任务驱动的视频，由于其受限的样本空间和对模型时间建模能力的较低要求，构成了一个可以广泛探索的方向。

大规模视频数据集的缺乏。虽然大规模图像数据集广泛可用，但类似规模和多样性的视频数据集却很稀缺。大规模视频数据集的缺乏阻碍了视频内容生成的生成 AI 模型的发展，因为这些模型依赖大量数据来学*潜在的数据分布。标注视频数据集相对稀缺，但它们在可控视频生成中发挥了至关重要的作用。由于视频内容的高度冗余性，一些近期研究 [13, 110, 18] 利用强大的预训练文本-图像生成器来初始化空间建模网络层，从而提高了单帧生成的质量。这使得时间模块能够更多地集中于建模序列信号的动态。此外，某些方法 [12, 73] 通过采用图像-视频联合训练技术解决了数据稀缺的问题，这些技术在时间一致性和帧保真度之间表现出一种权衡。

6.2 理解

时间推理。视频场景理解涉及对时间信息进行推理，包括视频中的动态、动作和互动。然而，LLMs（大型语言模型）通常难以有效捕捉和建模长时间跨度的时间依赖关系。视频中的时间推理具有挑战性，因为视频的长度各不相同，并且需要随着时间的推移识别和情*化动作。开发能够有效推理长期依赖关系、捕捉时间背景和理解视频场景动态的 LLM 架构是一个重要的研究挑战。需要探索如时间卷积、递归神经网络或注意力机制等技术，以提高 LLMs 的时间推理能力。

多模态理解。视频由视觉和听觉信息组成，全面理解视频需要多模态理解[33]。LLMs 需要有效整合视觉和听觉模态，以捕捉视频场景的完整背景和意义。然而，视觉和听觉信息的对齐和连接是一项复杂的任务。因此，必须探索网络架构和方法，以有效建模音视频交互、捕捉跨模态依赖关系并在 LLMs 中融合多模态信息[111]。此外，开发针对大规模多模态视频数据集的 LLMs 训练方法，这些数据集覆盖广泛的场景和语言，对于提升 LLMs 的多模态理解能力至关重要。

实时视频处理。与 LLMs 一起实时处理视频是一个重大挑战。实时视频场景理解对于诸如自动驾驶汽车、监控系统和视频分析等各种应用至关重要[112]。然而，LLMs 的大模型尺寸和计算需求妨碍了其实时处理能力。因此，需要进一步研究开发高效的网络、模型压缩方法和硬件优化，以加速 LLMs 在视频场景理解中的推理能力。可以探索如知识蒸馏[113、114]、剪枝和量化等技术，以减少计算负担，实现 LLMs 的实时视频处理。此外，探索分布式计算和硬件加速器可以进一步增强 LLMs 在视频场景理解中的实时能力[111]。

零样本性能的限制。尽管 LLMs 在零样本学*能力上表现出色，但要使 LLM 引导的视频场景理解模型具备相同的能力几乎是不可能的。与视频生成类似，主要挑战在于缺乏大规模的配对视频-文本数据集，因为生成视频剪辑的丰富文本描述困难重重。因此，很难为目标任务学*到强大的表示。另一个原因是，对于长篇视频，文本注释要么稀疏，要么不足以说明发生的事件或活动。因此，未来的研究可能会探讨如何利用 LLMs 在有限或稀疏的文本描述下施加更有效的监督。另一个方向是如何利用 LLMs 进一步生成具有更多语义丰富度的高质量视频-文本对。

6.3 流媒体

多变的环*和需求。用户观看视频的设备在计算能力、分辨率和网络条件上存在显著差异。此外，视频传输方式（如实时流媒体和点播）和视频类型（如 VR 视频和短视频）的多样性对带宽、实验和计算要求提出了不同的要求。设计或学*一种适应这些异质场景的算法是一项艰巨的任务。LLMs 有能力涵盖这些情况并提供解决方案。然而，在使用 LLMs 进行视频传输调度时，如何在短时间内有效解决这些挑战并提供答案（考虑到视频对算法复杂性的强需求）是一个不容小觑的重大挑战，未来需要进一步研究。

统一框架或标准。传统的视频传输方法已达到较高的成熟度，催生了 YouTube 和 Zoom 等广泛使用的应用。在这一领域，一个重要的推动因素是 MPEG-DASH 视频传输标准的引入[115]，它为视频传输策略奠定了基础。公司和研究团队因此能够在这一框架下创新并建立新的应用。然而，在 LLM 基础的视频传输上下文中，目前尚无统一的视频传输框架或标准。技术方法的分歧阻碍了这一领域的发展。建立统一的视频传输框架或标准是一项具有挑战性的任务，需要众多实体的参与。

大规模视频数据集的缺乏。与前述生成和理解讨论类似，在利用大语言模型进行传输领域的优化和调度时，学*是必要的。这自然导致对数据集的需求。目前，公开的数据集主要涵盖网络带宽 [116]、视频数据以及虚拟现实视频的用户数据，如 MPEG 提供的那些 ⁴⁴4https://www.mpeg.org/standards/。然而，与大语言模型学*的需求相比，这些数据集相对较小，而大公司拥有的数据集并不开放。此外，标注通信状态、用户设备、用户观看数据、用户满意度等的综合数据集目前仍然缺乏。生成式 AI 可能有助于生成用于带宽预测模型训练的数据集。[104] 引入了一种创新的 GAN 解决方案，用于合成视频流数据，重点在于 360°/普通视频分类。与仅依赖实际踪迹相比，这种方法在准确性上有所提高。

7 个担忧

除了吸引人的潜力，生成式 AI 和大语言模型也引发了诸多需要妥善解决的担忧。显著的担忧包括通过视频伪造传播误导性信息和知识产权侵犯等。

图 10：生成式 AI 和大语言模型解决方案面临的担忧。

误信息。生成式 AI 提高了生成看似真实的视频镜头的能力，这可能被滥用来创建虚假叙事、传播假新闻、在未获授权的情况下冒充个人或操控公众舆论，对政治、安全和可信度等方面造成严重影响。相关事件的增加引发了社会的广泛关注 ⁵⁵5https://www.nbcnews.com/tech/tech-news/deepfake-scams-arrived-fake-videos-spread-facebook-tiktok-youtube-rcna101415。

知识产权侵权。生成式 AI 不断改进以编辑和修订现有视频的风格和细节，侵犯了版权并未经授权使用专有内容。

安全性。生成式 AI 可以制作深度伪造视频，以模拟来自受信任来源或个人的合法视频，从而促进诈骗和网络犯罪。近年来，相关案例也有所增加 ⁶⁶6https://www.bbc.com/news/technology-66993651。

隐私泄露。如果 LLM 被用于无处不在的监控系统中，不仅可以识别个人，还可以推测他们的活动和日常*惯。这可能导致严重的隐私问题，使人们不断受到监控，侵犯隐私权。此外，当与配备音频接收器的监视器一起使用时，LLM 可能会窃听私人对话。

内容审查。虽然 LLM 驱动的流媒体服务有可能改善用户体验，但也可能导致内容的过度过滤，可能等同于审查。没有明确指南的情况下确定哪些内容能到达观众，可能会导致任意的内容压制。

偏见。现有的偏见问题，如刻板印象，可能在生成式 AI 和 LLM 的使用下加剧。个性化的流媒体推荐可能会加强现有的偏见，将用户与多样化的观点隔离。这种风险同样适用于视频的生成阶段。

成瘾性内容设计。生成式 AI 可以用来生成某些类型的视频，以优化最大参与度，这可能导致利用人类心理学增加屏幕时间的成瘾性内容。

总体而言，将生成式 AI 和 LLM 整合到视频行业中引发了诸多关注，包括隐私、伦理和社会影响等。在视频生成中，创建超现实的深度伪造技术带来了虚假信息、隐私侵犯和知识产权侵权的重大风险。LLM 对视频的理解能力不断提高，引发了关于隐私入侵的警报，例如为个性化分析和行为预测而挖掘敏感数据，这可能被利用于针对性的操控。在流媒体中，不透明的推荐系统可能形成内容泡沫，并可能扭曲文化叙事。此外，内容的个性化也引发了关于数据隐私、成瘾性内容设计的心理影响以及资源分配公*性的伦理问题。

为了解决这些问题，需要采取积极而谨慎的措施。监管机构应制定强有力的隐私保护和透明度要求，迫使视频服务披露用户数据如何影响内容交付。应建立伦理 AI 框架，以指导视频服务算法的创建和使用，避免偏见，确保内容的多样性和公*性。视频*台必须通过实施数据处理最佳实践并提供关于用户数据的清晰选择，来优先考虑用户同意和数据安全。此外，还需要全行业致力于伦理内容设计，避免操控行为，并促进心理健康。最后，视频服务必须通过适应性 AI 系统确保遵守国际法规，满足地方标准，同时尊重全球规范。通过这些共同努力，行业可以在保护个人权利和社会价值的同时，利用 AI 技术为视频服务带来好处。

8 结论

在这篇论文中，我们全面审视了生成式人工智能（Generative AI）和大语言模型（LLMs）如何革新视频技术领域，重点关注视频生成、理解和流媒体。这些技术的创新整合带来了高度逼真的数字创作，通过提取视觉内容中的有意义信息增强了视频理解，并提供了更高效、个性化的流媒体体验，从而改善了用户与视频的互动和根据用户偏好提供体验。

论文探讨了在视频相关任务中应用生成式 AI 和大语言模型（LLMs）的当前成就、持续挑战和未来可能性。它强调了这些技术在推动多媒体、网络和 AI 社区视频技术方面的巨大潜力，同时也突出需要进一步探索的挑战和问题。

从已审阅的工作中观察，我们可以看到，总体而言，像 GAI 和 LLMs 这样的先进 AI 技术正在对视频相关研究领域的几个关键部门产生深远影响。基于 AI 的方法最大优势在于其自动化能力和较低的人工成本。然而，这也带来了 AI 独特的挑战，如缺乏大规模数据集、高计算成本、一致性问题以及虚假信息和安全等问题。因此，学术界和工业界在快速发展的过程中应保持谨慎，以确保市场的可持续性。

参考文献

[1] R. Bhagwatkar 等，“视频生成方法综述”，发表于 2020 国际电力、仪器、控制与计算会议（PICC）。IEEE，2020，第 1–5 页。
[2] A. Singh，“AI 文本到图像和 AI 文本到视频生成器的综述，” 在 2023 年第 4 届国际人工智能、机器人与控制会议（AIRC）。 IEEE，2023 年，第 32–36 页。
[3] C. Liu 等，“AI 驱动的说服性视频生成：综述，” ACM 计算机调查，第 55 卷，第 13 期，1–31 页，2023 年。
[4] N. Aldausari 等，“视频生成对抗网络：综述，” ACM 计算机调查（CSUR），第 55 卷，第 2 期，第 1–25 页，2022 年。
[5] G. Rafiq 等，“视频描述：深度学*方法的全面综述，” 人工智能评论，第 1–80 页，2023 年。
[6] A. Singh 等，“关于视频描述的最新方法和挑战的全面综述，” arXiv 预印本 arXiv:2011.14752，2020 年。
[7] N. Aafaq 等，“视频描述：方法、数据集和评估指标的综述，” ACM 计算机调查（CSUR），第 52 卷，第 6 期，第 1–37 页，2019 年。
[8] S. K. Muhammad Maaz, Hanoona Rasheed 等，“Video-chatgpt：通过大型视觉和语言模型实现详细的视频理解，” ArXiv 2306.05424，2023 年。
[9] C. Vondrick 等，“生成具有场景动态的视频，” 神经信息处理系统进展，第 29 卷，2016 年。
[10] E. Denton 等，“具有学*先验的随机视频生成，” 在 国际机器学*会议。 PMLR，2018 年，第 1174–1183 页。
[11] N. Kalchbrenner 等，“视频像素网络，” 在 国际机器学*大会。 PMLR，2017 年，第 1771–1779 页。
[12] J. Ho 等，“视频扩散模型，” arXiv 预印本 arXiv:2204.03458，2022 年。
[13] ——，“Imagen 视频：使用扩散模型生成高清晰度视频，” arXiv 预印本 arXiv:2210.02303，2022 年。
[14] U. Singer 等，“Make-a-video：无需文本-视频数据的文本到视频生成，” arXiv 预印本 arXiv:2209.14792，2022 年。
[15] C. Chan 等，“现在大家跳舞，” 在 IEEE/CVF 国际计算机视觉会议论文集，2019 年，第 5933–5942 页。
[16] W. Zhang 等，“Sadtalker：学*现实的 3D 运动系数用于风格化的音频驱动单图像谈话面部动画，” 在 IEEE/CVF 计算机视觉与模式识别会议论文集，2023 年，第 8652–8661 页。
[17] W. Hong 等，“Cogvideo：通过变换器的大规模预训练用于文本到视频生成，” arXiv 预印本 arXiv:2205.15868，2022 年。
[18] A. Blattmann 等，“对齐你的潜变量：使用潜在扩散模型进行高分辨率视频合成，” 在 IEEE/CVF 计算机视觉与模式识别会议论文集，2023 年，第 22 563–22 575 页。
[19] Y. Ma 等，“Dreamtalk：当富有表现力的谈话头像生成遇上扩散概率模型，” arXiv 预印本 arXiv:2312.09767，2023 年。
[20] B. Qin 等，“舞蹈头像：通过图像扩散模型进行姿势和文本指导的人体运动视频合成，” arXiv 预印本 arXiv:2308.07749，2023 年。
[21] T. Wang 等，“Disco：用于现实人类舞蹈生成的解耦控制，” 2023 年。
[22] A. Van den Oord 等，“基于像素 CNN 解码器的条件图像生成，” 神经信息处理系统进展，第 29 卷，2016 年。
[23] A. Vaswani 等，“注意力机制是你所需要的一切，” 神经信息处理系统进展，第 30 卷，2017 年。
[24] O. Ronneberger 等，“U-net：用于生物医学图像分割的卷积网络，” 见 医学图像计算与计算机辅助手术–MICCAI 2015：第 18 届国际会议，德国慕尼黑，2015 年 10 月 5-9 日，会议论文集，第三部分第 18 卷。 Springer，2015 年，第 234–241 页。
[25] A. Radford 等，“从自然语言监督中学*可转移的视觉模型，” 见 国际机器学*会议。 PMLR，2021 年，第 8748–8763 页。
[26] Y. Chang 等，“对大型语言模型评估的调查，” arXiv 预印本 arXiv:2307.03109，2023 年。
[27] G. Chen 等，“Videollm：使用大型语言模型对视频序列进行建模，” arXiv 预印本 arXiv:2305.13292，2023 年。
[28] Y. Zhu 等，“深度视频动作识别的综合研究，” arXiv 预印本 arXiv:2012.06567，2020 年。
[29] M. Bain，“通过语言的视角理解视频，” 博士学位论文，牛津大学，2023 年。
[30] S. Wu 等，“Next-gpt：任意到任意的多模态 llm，” arXiv 预印本 arXiv:2309.05519，2023 年。
[31] X. Lai 等，“Lisa：通过大型语言模型进行推理分割，” arXiv 预印本 arXiv:2308.00692，2023 年。
[32] A. Yang 等，“Vid2seq：大规模预训练的视觉语言模型用于密集视频字幕生成，” 见 IEEE/CVF 计算机视觉与模式识别会议论文集，2023 年，第 10,714–10,726 页。
[33] Y. Zhao 等，“从大型语言模型中学*视频表示，” 见 IEEE/CVF 计算机视觉与模式识别会议论文集，2023 年，第 6586–6597 页。
[34] J. Dave 等，“用于密集视频字幕的分层语言建模，” 见 发明计算与信息技术：ICICIT 2021 会议论文集。 Springer，2022 年，第 421–431 页。
[35] K. Ma 等，“Llavilo：通过基于适配器的多模态建模提升视频时刻检索，” 见 IEEE/CVF 国际计算机视觉会议论文集，2023 年，第 2798–2803 页。
[36] Z. Shao 等，“通过答案启发式对大型语言模型进行提示以进行知识基础的视觉问答，” 见 IEEE/CVF 计算机视觉与模式识别会议论文集，2023 年，第 14,974–14,983 页。
[37] A. C. A. M. de Faria 等，“视觉问答：近期文献中技术和常见趋势的综述，” arXiv 预印本 arXiv:2305.11033，2023 年。
[38] H. J. Singh 等人，“视觉问答的发展、应用、数据集和机遇：前沿调查”，在 2023 年国际可持续计算与数据通信系统会议 (ICSCDS)。IEEE，2023，第 778–785 页。
[39] J. Guo 等人，“从图像到文本提示：使用冻结的大型语言模型进行零样本视觉问答”，在 IEEE/CVF 计算机视觉与模式识别大会论文集，2023，第 10 867–10 877 页。
[40] A. Salaberria 等人，“图像描述：有效利用语言模型进行基于知识的视觉问答”，专家系统应用，第 212 卷，第 118669 页，2023。
[41] R. Liu 等人，“一体化：无需视频指导调优的视频对话是可行的”，arXiv 预印本 arXiv:2309.15785，2023。
[42] M. Maaz 等人，“Video-chatgpt：通过大型视觉和语言模型实现详细的视频理解”，arXiv 预印本 arXiv:2306.05424，2023。
[43] Z. Hu 等人，“Reveal：利用多源多模态知识记忆进行检索增强的视觉-语言预训练”，在 IEEE/CVF 计算机视觉与模式识别大会论文集，2023，第 23 369–23 379 页。
[44] M. Yuksekgonul 等人，“视觉-语言模型何时以及为何表现得像词袋，以及如何应对？”在 第十一届国际学*表征会议，2022。
[45] M. Gao 等人，“视频目标分割的深度学*：综述”，人工智能综述，第 56 卷，第 1 期，第 457–531 页，2023。
[46] H. Zhang 等人，“Video-llama：一个经过指令调优的音视频语言模型用于视频理解”，arXiv 预印本 arXiv:2306.02858，2023。
[47] T. Azmin 等人，“在 5G 移动网络中使用 Informer 进行带宽预测”，在 2022 年第 13 届未来网络国际会议 (NoF)。IEEE，2022，第 1–9 页。
[48] J. Li 等人，“在 360 度视频多播中，利用球面卷积增强视口预测，结合有限视场反馈”，ACM 多媒体计算、通信与应用期刊，第 19 卷，第 1 期，第 1–23 页，2023。
[49] S. Van Damme 等人，“基于机器学*的内容无关视口预测用于 360 度视频”，ACM 多媒体计算、通信与应用期刊 (TOMM)，第 18 卷，第 2 期，第 1–24 页，2022。
[50] F.-Y. Chao 等人，“基于 Transformer 的 360°视频长期视口预测：你只需扫描路径。”在 MMSP，2021，第 1–6 页。
[51] Y. Cheng 等人，“使用 Transformer 进行视线估计”，在 2022 年第 26 届国际模式识别大会 (ICPR)。IEEE，2022，第 3341–3347 页。
[52] Z. Ni 等人，“通过视线跟踪进行视频中的人-物体交互预测”，计算机视觉与图像理解，第 103741 页，2023。
[53] J. Xiang 等人，“Mimt: 用于视频压缩的掩码图像建模变换器，” 载于 第十一届国际学*表示会议，2022 年。
[54] F. Mentzer 等人，“Vct: 视频压缩变换器，” arXiv 预印本 arXiv:2206.07307，2022 年。
[55] Z. Ding 等人，“Tgan: 用于大规模图像生成的深度张量生成对抗网络，” arXiv 预印本 arXiv:1901.09953，2019 年。
[56] C. Wu 等人，“Nuwa-infinity: 无限视觉合成的自回归生成，” arXiv 预印本 arXiv:2207.09814，2022 年。
[57] M. Ding 等人，“Cogview: 通过变换器掌握文本到图像生成，” 神经信息处理系统进展，第 34 卷，第 19,822–19,835 页，2021 年。
[58] M. Bain 等人，“Frozen in time: 用于端到端检索的联合视频和图像编码器，” 载于 IEEE/CVF 国际计算机视觉会议论文集，2021 年，第 1728–1738 页。
[59] L. Khachatryan 等人，“Text2video-zero: 文本到图像扩散模型是零-shot 视频生成器，” arXiv 预印本 arXiv:2303.13439，2023 年。
[60] N. Ruiz 等人，“Dreambooth: 针对主题驱动生成的文本到图像扩散模型的微调，” 载于 IEEE/CVF 计算机视觉与模式识别会议论文集，2023 年，第 22,500–22,510 页。
[61] A. Kirillov 等人，“Segment anything，” arXiv 预印本 arXiv:2304.02643，2023 年。
[62] L. Yu 等人，“语言模型击败扩散——分词器是视觉生成的关键，” arXiv 预印本 arXiv:2310.05737，2023 年。
[63] D. Kondratyuk 等人，“Videopoet: 用于零-shot 视频生成的大型语言模型，” arXiv 预印本 arXiv:2312.14125，2023 年。
[64] G. Kim 等人，“扩散视频自动编码器：通过解缠视频编码实现时间一致的面部视频编辑，” 载于 IEEE/CVF 计算机视觉与模式识别会议论文集，2023 年，第 6091–6100 页。
[65] J. Z. Wu 等人，“Tune-a-video: 图像扩散模型的一次性调整用于文本到视频生成，” arXiv 预印本 arXiv:2212.11565，2022 年。
[66] D. Ceylan 等人，“Pix2video: 使用图像扩散的视频编辑，” arXiv 预印本 arXiv:2303.12688，2023 年。
[67] Y. Kasten 等人，“分层神经图谱用于一致的视频编辑，” ACM 图形学交易（TOG），第 40 卷，第 6 期，第 1–12 页，2021 年。
[68] E. Lu 等人，“分层神经渲染用于视频中人物的重定时，” arXiv 预印本 arXiv:2009.07833，2020 年。
[69] O. Bar-Tal 等人，“Text2live: 基于文本的分层图像和视频编辑，” 载于 欧洲计算机视觉会议。 Springer，2022 年，第 707–723 页。
[70] M. Oliu 等人，“折叠递归神经网络用于未来视频预测，” 载于 欧洲计算机视觉会议论文集（ECCV），2018 年，第 716–731 页。
[71] L. Castrejon 等人，“改进的条件 VRNN 用于视频预测，” 载于 IEEE/CVF 国际计算机视觉会议论文集，2019 年，第 7608–7617 页。
[72] T. Höppe 等，“视频预测和填补的扩散模型”，arXiv 预印本 arXiv:2206.07696，2022 年。
[73] V. Voleti 等，“Mcvd-掩码条件视频扩散用于预测、生成和插值”，神经信息处理系统进展，第 35 卷，第 23 371–23 385 页，2022 年。
[74] W. Harvey 等，“长视频的灵活扩散建模”，神经信息处理系统进展，第 35 卷，第 27 953–27 965 页，2022 年。
[75] G. A. S. Surek 等，“基于视频的人类活动识别：深度学*方法”，传感器，第 23 卷，第 14 期，第 6384 页，2023 年。
[76] X. Hu 等，“视频中的在线人类动作检测与预测：综述”，神经计算，第 491 卷，第 395–413 页，2022 年。
[77] M. G. Morshed 等，“人类动作识别：基于分类法的调查、更新和机会”，传感器，第 23 卷，第 4 期，第 2182 页，2023 年。
[78] C. Zhang 等，“人机交互的大型语言模型：综述”，仿生智能与机器人，第 100131 页，2023 年。
[79] H. Kaneko 等，“利用大型语言模型在人体活动识别中开创传感器和特征”，见于2023 年 ACM 国际联合会议：普适计算与可穿戴计算大会附录论文集，2023，第 475–479 页。
[80] Y. Zhou 等，“Tent：将语言模型与 IoT 传感器连接以实现零样本活动识别”，arXiv 预印本 arXiv:2311.08245，2023 年。
[81] W. Wu 等，“基于双向跨模态知识探索的视频识别与预训练视觉语言模型”，见于IEEE/CVF 计算机视觉与模式识别会议论文集，2023，第 6620–6630 页。
[82] W. Kay 等，“The kinetics human action video dataset”，arXiv 预印本 arXiv:1705.06950，2017 年。
[83] K. Li 等，“Videochat：以聊天为中心的视频理解”，arXiv 预印本 arXiv:2305.06355，2023 年。
[84] D. Driess 等，“Palm-e：一种具身的多模态语言模型”，arXiv 预印本 arXiv:2303.03378，2023 年。
[85] D. Shah 等，“Lm-nav：使用大型预训练语言、视觉和动作模型的机器人导航”，见于机器人学*会议。PMLR，2023，第 492–504 页。
[86] F. Wu 等，“体育视频动作识别综述：数据集、方法和应用”，IEEE 多媒体学报，2022 年。
[87] I. Singh 等，“Progprompt：使用大型语言模型生成具体的机器人任务计划”，见于2023 IEEE 国际机器人与自动化会议（ICRA）。IEEE，2023，第 11 523–11 530 页。
[88] A. Brohan 等，“Rt-2：视觉-语言-动作模型将网络知识转移到机器人控制中”，arXiv 预印本 arXiv:2307.15818，2023 年。
[89] A. Deng 等，“利用语言辅助深度学*模型识别自闭症儿童视频中的问题行为”，arXiv 预印本 arXiv:2211.09310，2022 年。
[90] 罗 R.等人，“Valley: 大型语言模型增强能力的视频助理，”arXiv 预印本 arXiv:2306.07207，2023 年。
[91] 李 K.等人，“无面具教师: 向训练高效的视频基础模型迈进，”arXiv 预印本 arXiv:2303.16058，2023 年。
[92] Wiegand T.等人，“H.264/AVC 视频编码标准概述，”IEEE 交易视频技术电路与系统，第 13 卷，第 7 号，第 560-576 页，2003 年。
[93] 沙利文 G.J.等人，“高效视频编码（hevc）标准概述，”IEEE 交易视频技术电路与系统，第 22 卷，第 12 号，第 1649-1668 页，2012 年。
[94] 华为，“云 vr 导向的承载网络白皮书，”华为 iLab VR 技术白皮书，2017 年。
[95] 艾 H.等人，“全向视深度学*: 调查和新视角，”arXiv 预印本 arXiv:2205.10468，2022 年。
[96] 万德胡夫 J.等人，“从捕捉到呈现: 具有六自由度的体积媒体传送，”IEEE 通讯杂志，第 58 卷，第 10 号，第 49-55 页，2020 年。
[97] 刘 Z.等人，“点云视频流: 挑战与解决方案，”IEEE 网络，第 35 卷，第 5 号，第 202-209 页，2021 年。
[98] 郭 J.等人，“短视频流中的视频质量驱动策略，”第 24 届无线与移动系统建模、分析和仿真国际会议论文集，2021 年，第 221-228 页。
[99] 刘 C.等人，“学*轨迹感知变压器用于视频超分辨率，”IEEE/CVF 计算机视觉与模式识别会议论文集，2022 年，第 5687-5696 页。
[100] 耿 Z.等人，“Rstt: 时空视频超分辨率的实时时空变压器，”IEEE/CVF 计算机视觉与模式识别会议论文集，2022 年，第 17 441-17 451 页。
[101] 瓦斯卢安 F.等人，“高效视频增强变压器，”2022 年 IEEE 国际图像处理会议，IEEE，2022 年，第 4068-4072 页。
[102] 雷内拉 N.等人，“利用生成 ai 实现自动化视频游戏评论，”2023 年。
[103] 林 K.等人，“Swinbert: 用于视频字幕的稀疏注意力端到端变压器，”IEEE/CVF 计算机视觉与模式识别会议论文集，2022 年，第 17 949-17 958 页。
[104] 卡塔迪格 C.等人，“Videotrain: 用于合成视频流量生成的生成对抗框架，”2021 年 IEEE 第 22 届世界无线、移动和多媒体网络研讨会，IEEE，2021 年，第 209-218 页。
[105] 安加拉诺 S.等人，“知识蒸馏边缘的生成对抗超分辨率，”人工智能工程应用，第 123 卷，第 106407 页，2023 年。
[106] 田 Y.等人，“高分辨率视频合成所需的良好图像生成器，”arXiv 预印本 arXiv:2104.15069，2021 年。
[107] R. Villegas 等，“自然视频序列预测的运动和内容分解”，arXiv 预印本 arXiv:1706.08033，2017 年。
[108] S. Yu 等，“使用动态感知隐式生成对抗网络生成视频”，arXiv 预印本 arXiv:2202.10571，2022 年。
[109] M. Saito 等，“稀疏训练，密集生成：高分辨率时序 GAN 的内存高效无监督训练”，国际计算机视觉杂志，第 128 卷，第 10-11 期，页码 2586–2606，2020 年。
[110] I. Skorokhodov 等，“Stylegan-v：一种具有 Stylegan2 价格、图像质量和优点的连续视频生成器”，在 IEEE/CVF 计算机视觉与模式识别大会论文集，2022 年，页码 3626–3636。
[111] Z. Guo 等，“评估大语言模型：综合综述”，arXiv 预印本 arXiv:2310.19736，2023 年。
[112] J. Huang 等，“面向大语言模型推理：综述”，arXiv 预印本 arXiv:2212.10403，2022 年。
[113] L. Wang 等，“知识蒸馏和学生-教师学*在视觉智能中的应用：综述与新展望”，IEEE 模式分析与机器智能学报，第 44 卷，第 6 期，页码 3048–3068，2021 年。
[114] J. Zhu 等，“一个好的学生是合作和可靠的：CNN-Transformer 协作学*用于语义分割”，在 IEEE/CVF 国际计算机视觉大会论文集，2023 年，页码 11 720–11 730。
[115] I. Sodagar，“用于互联网多媒体流媒体的 MPEG-DASH 标准”，IEEE 多媒体，第 18 卷，第 4 期，页码 62–67，2011 年。
[116] J. van der Hooft 等，“基于 HTTP/2 的 HEVC 视频在 4G/LTE 网络上的自适应流媒体传输”，IEEE 通讯快报，第 20 卷，第 11 期，页码 2177–2180，2016 年。

生成于 2024 年 4 月 30 日星期二 19:27:28，由 LaTeXML

基于 LLM 的智能体调研：常见工作流程和可重用的 LLM-剖析组件

来源：arxiv.org/html/2406.05804

基于 LLM 的代理调查：常见工作流程和可重用的 LLM-特征组件

Xinzhe Li

澳大利亚迪肯大学信息技术学院

lixinzhe@deakin.edu.au

摘要

最近，大型语言模型（LLMs）的进展推动了开发基于 LLM 的代理的复杂框架的发展。然而，这些框架的复杂性在细微层面上提出了差异化的难题，这对于实现不同框架之间的高效实施和促进未来研究至关重要。因此，本次调查的主要目的是通过识别共同的工作流程和可重用的 LLM 配置组件（LMPCs），促进对近期提出的各种框架的整体理解。

关于基于 LLM 的代理的调查：常见工作流程和可重用的 LLM 配置组件

Xinzhe Li 信息技术学院，迪肯大学，澳大利亚 lixinzhe@deakin.edu.au

(a) 仅政策工作流程。

(b) 搜索工作流程。

图 1：基于三个 LLM 配置组件（政策、评估者和动态模型）的八种常见工作流程，适用于任务或/和工具使用环*。

1 引言

生成式大型语言模型（GLMs 或 LLMs）已经获得了广泛的常识和类人推理能力（Santurkar 等，2023；Wang 等，2022；Zhong 等，2022，2023），使其在构建被称为基于 LLM 的代理的 AI 代理中发挥关键作用。在本次调查的背景下，基于 LLM 的代理被定义为能够与外部工具（如 Wikipedia）或环*（如家庭环*）积极互动，并被设计为代理的核心组成部分，包括行动、规划和评估。

调查目的

本次调查的动机来源于这样的观察：尽管存在各种技术和概念挑战，如搜索算法（Yao 等，2023a）、树结构（Hao 等，2023）和强化学*（RL）组件（Shinn 等，2023），许多基于 LLM 的代理仍然包含类似的工作流程和组件。Wu 等（2023）提供了一种模块化的方法，但与流行的代理工作流程缺乏整合。Wang 等（2024）对 LLM 代理进行了全面的综述，探讨了它们在个人资料、记忆、规划和行动方面的能力。相比之下，我们的调查并不试图全面涵盖基于 LLM 的代理的所有组件。相反，我们集中于 LLM 在代理工作流程中的参与，并旨在澄清 LLM 在代理实现中的角色。我们创建了包含可重用的 LLM-Profiled 组件（LMPCs）的常见工作流程，如图 1 所示。

贡献

本次调查提供了以下贡献：1) 缓解复杂框架的理解：现有框架的复杂性可以简化为可实施的工作流程，特别是当它们被提取用于特定任务时。本调查强调了可重用的工作流程和流行框架中的 LMPC（大语言模型配置），如 ReAct（Yao 等，2023b）、Reflexion（Shinn 等，2023）和 Tree-of-Thoughts（Yao 等，2023a）。具体来说，基于互动环*（§2）和常用 LMPC 的使用（§3），我们对各种工作流程进行了分类和详细描述，例如工具使用工作流程、搜索工作流程和反馈学*工作流程。许多现有框架由这些工作流程和 LMPC 组成，并结合了一些特定的非 LLM 组件。2) 帮助研究人员/从业者以更细致和一致的层次评估当前框架：第4节分类了主要框架，并展示了它们如何由共同的工作流程和 LMPC 组装，如表2所总结¹¹1 更详细的总结见附录A。3) 促进现有框架的进一步扩展：现有框架可以通过改变 LMPC 的实现来进行修改。为此，我们不仅总结了 LMPC 的实现，还总结了它们在不同工作流程和任务中的适用性，第5节提供了相关内容。

环*类型	与代理互动的实体	动作属性	动作实例示例	环*实例示例
任务环*

| 游戏环* | 虚拟游戏元素（对象、化身、其他角色），以及可能的其他玩家或游戏叙事 | 离散的、可执行的，

确定性 | Move(Right) | BlocksWorld, CrossWords |

| 具身环* | 物理世界（通过传感器和执行器） | 离散的、可执行的，

确定性 | Pick_Up[Object] | AlfWorld（Shridhar et al., 2021），VirtualHome，

Minecraft（Fan et al., 2022） |

| NLIEs | 人类（通过对话或文本） | 自由形式、离散，

确定性

（单步 QA）

随机

（多步） | 答案是 Answer Finish[Answer] | GSM8K，HotpotQA |

工具环（嵌套于任务环中）

| 检索 | 检索 | 离散、可执行，

确定性，

非状态改变 | Wiki_Search[Entity] | 一个维基百科 API（Goldsmith，2023）（被 ReAct（Yao et al., 2023b）使用） |

| 计算器 | 计算器 | 可执行、确定性，

非状态改变 | 2 x 62 = << 计算器 >> | Python 的 eval 函数（被 MultiTool-CoT（Inaba et al., 2023）使用） |

表 1：常见任务环*和工具使用环*。我们将 12 个主动工作流中存在的所有基准分为四种环*类型。一个行动实例通常由行动谓词和行动参数形式化。工具使用可以被认为是代理的内部环*，并且通常在 NLIEs 下为 QA 任务定义。

2 任务环和工具环

本节探讨任务环*和工具环*，这些环*与传统的 AI 和强化学*（RL）代理框架（Russell 和 Norvig，2010；Sutton 和 Barto，2018）相比，提供了不同的设置。在简要概述标准的基于逻辑的游戏和模拟体现环*后，我们重点关注两个特定领域：自然语言交互环*（NLIEs）和工具环*。

2.1 典型任务环*

通常，有两种常见的任务环*类型：1）基于规则的游戏环*：这些环*是确定性和完全可观察的，包括各种抽象战略游戏如国际象棋和围棋，以及逻辑谜题，如 24 点游戏（Yao et al., 2023a）和 Blocksworld（Hao et al., 2023）。它们要求深入的逻辑推理和战略规划来导航和解决。2）模拟体现环*：这些环*模拟现实世界的物理互动和空间关系。它们要求代理进行导航、对象操作和其他复杂的物理任务，反映物理环*的变化。

2.2 自然语言交互环*

随着大语言模型（LLM）代理的兴起，NLP 研究人员越来越倾向于将典型的 NLP 任务重新定义为代理环*（Yao 等人，2023b; Hao 等人，2023; Yao 等人，2023a）。这些设置在我们的调查中被称为自然语言交互环*。

在 NLIEs 中，环*保持静态直到代理采取行动。与典型的任务环*中自然语言作为中介不同，在 NLIEs 中，状态和动作都是以语言方式定义的，使得状态概念化，动作通常模糊且广泛定义。

单步 NLIEs 用于问答

许多研究（Yao 等人，2023b; Shinn 等人，2023）将传统问答设置表述为单步决策过程，其中代理生成一个回答以回应问题。这个过程以问题作为初始状态开始，并在提供答案作为动作后结束。

深思熟虑的多步骤自然语言交互环*（NLIEs）

对于那些“中间步骤未明确定义”的任务，一些研究将自然语言处理（NLP）任务转化为马尔可夫决策过程，以便于代理工作流程。例如，Hao 等人 (2023) 将问答任务中的子问题重新表述为动作，通过多步骤过程来回应用户查询。这种方法允许初始问题作为一系列状态转移的开始。动作可以从在单步问答中提供直接的自由格式答案到战略性地形成子问题，引导代理通过顺序更新达到全面解决方案。此方法与顺序决策过程更为契合，适合在基于规划的代理系统中部署。此外，Wan 等人 (2024) 建议“将输出序列拆分成标记可能是定义多步骤 NLIEs 的好选择”。此外，Yao 等人 (2023a) 将创造性写作中的两步 NLIEs 分为明确的规划和执行阶段。

2.3 工具环*

现代 LLM 代理通常通过外部工具来增强其问题解决能力（Inaba 等人，2023; Yao 等人，2023b）。这些工具的设计和集成增加了复杂性，需要仔细考虑 LLM 如何与任务环*以及这些辅助工具进行互动。通常，工具环*中的动作涉及与资源的互动，而这些互动不会影响资源。例如，从 Wikipedia 检索数据构成了“只读”操作，不会修改 Wikipedia 数据库。这个特点将这种工具使用行为与传统任务环*或典型的强化学*（RL）设置中的行为区分开来，后者的动作通常会改变环*状态。然而，重要的是要认识到工具环*可以是动态的，可能会发生外部变化。这一点反映了工具应该被视为外部环*，而非代理的内部过程。

嵌套的 NLIE-QA + 工具环*

工具环*经常与 NLIEs 一起建立，以帮助解决 QA 任务。Shinn 等人 (2023); Yao 等人 (2023b) 通过引入工具来增强回答的真实性。他们定义了类似命令的动作，如“Search”和“LookUp”以与 Wikipedia 互动，其中“Search”会从相关的 wiki 页面中建议前 5 个相似实体，而“LookUp”则模拟浏览器中的 Ctrl+F 功能。除了简单的检索外，Thoppilan 等人 (2022) 在对话任务中还包括了语言翻译器和计算器。类似地，Inaba 等人 (2023) 使用 Python eval 函数实现的计算器来解决 NumGLUE 基准中的数值查询。

3 LLM-配置组件

本节探讨了 LLM 通常被配置的常见代理角色。这些组件利用 LLM 的内部常识知识和推理能力来生成动作、计划、估算值²²2Values 指的是与在某个状态下采取某个动作相关的估计奖励（对结果的成功或期望的量化衡量），广泛用于典型的 RL 和 MDP 设置中，以学*执行期望行为的策略模型。以及推断后续状态。

通用的 LLM-配置组件

具体而言，以下任务无关的组件经过配置，并在各种工作流程中广泛使用。1) LLM-配置策略 $\text{glm}_{\text{policy}}$：策略模型旨在生成决策，这些决策可能是执行外部环*中的某个动作或一系列动作（计划），也可以用于搜索和规划算法。³³3 请注意，规划算法可能会被用于结构化一系列计划；例如，Tree-of-Thought 使用树搜索，其中每个节点可能代表一个单独的动作或整个计划。与典型的 RL 策略模型通过试错来学*最大化累积奖励不同，LLM-配置策略模型（表示为 $\text{glm}_{\text{policy}}$）利用从广泛文本数据中获得的预训练知识和常识。我们区分两种类型的 $\text{glm}_{\text{policy}}$：一个 actor $\text{glm}_{\text{actor}}$ 直接将状态映射到动作，而一个 planner $\text{glm}_{\text{planner}}$ 从给定状态生成一系列动作。2) LLM-配置评估器 $\text{glm}_{\text{eval}}$：$\text{glm}_{\text{eval}}$ 提供对不同工作流程至关重要的反馈。它们在基于搜索的工作流程中评估动作和状态（Hao et al., 2023; Yao et al., 2023a），并在反馈学*工作流程中修正决策（Shinn et al., 2023; Wang et al., 2023b）（有关更多细节，请参见 §4）。这些评估器对于直接动作评估和更广泛的战略调整都至关重要。3) LLM-配置动态模型 $\text{glm}_{\text{dynamic}}$：它们预测或描述环*的变化。通常，动态模型通过预测从当前状态 $s$ 和动作 $a$ 得到的下一个状态 $s^{\prime}$ 来形成一个全面的世界模型。虽然典型的 RL 使用概率分布 $p(s^{\prime}\mid s,a)$ 来建模潜在的下一个状态，LLM 基于的动态模型直接预测下一个状态 $s^{\prime}=\text{glm}_{\text{dynamic}}(s,a)$。

任务依赖的 LLM-配置组件

除了通用组件外，某些与 LLM（大语言模型）配置的组件是专门针对特定任务定制的。例如，语言生成器在具身环*中至关重要，但在 NLIE（自然语言推理任务）中则不必要。语言生成器将行动和观察转化为规划器的输入；例如，在规划者-行动者-报告者工作流中（Wang et al., 2023a），一个经过微调的视觉语言模型（VLM）与$\text{glm}_{\text{planner}}$一起将像素状态转换为文本输入。同样地，如果环*反馈可以感知到状态，那么可能需要一个语言生成器将这种反馈转化为$\text{glm}_{\text{policy}}$的文字描述，类似于在强化学*中生成数值刺激以进行策略学*。配置为语言生成器的 LLMs，$\text{glm}_{\text{verbalizer}}$（Shinn et al., 2023），通常根据指定的标准指导描述。

工作流	相关框架	LMPCs	适用环*

| 仅策略 | 基础 | LLM 规划器（Huang et al., 2022）、DEPS（Wang et al., 2023b）、规划者-行动者-报告者（Dasgupta et al., 2022）、计划与解决（Wang et al., 2023a）、ReAct（Yao et al., 2023b） | $\text{glm}_{\text{planner}}$、$\text{glm}_{\text{action\_selector}}$（具身环*可选） |

$\text{glm}_{\text{verbalizer}}$（具身环*可选） | 具身环*、NLIEs-写作、NLIE-QA |

	工具使用	MultiTool-CoT（Inaba et al., 2023）、ReAct（Yao et al., 2023b）、Reflexion（Shinn et al., 2023）	$\text{glm}_{\text{actor}}$	NLIEs
搜索	遍历与启发式	思维树（ToT）（Yao et al., 2023a）、树状束搜索（Xie et al., 2023）、思维增强（Chen et al., 2024）	$\text{glm}_{\text{actor}}$或$\text{glm}_{\text{planner}}$、$\text{glm}_{\text{eval}}$	游戏、NLIEs-写作、NLIE-QA
	MCTS	RAP（Hao et al., 2023）、Wan et al.（2024）	$\text{glm}_{\text{actor}}$、$\text{glm}_{\text{dynamic}}$、$\text{glm}_{\text{eval}}$	游戏、NLIEs-QA
反馈学*	来自$\text{glm}_{\text{eval}}$	Reflexion（Shinn et al., 2023）、自我精炼（Madaan et al., 2023）	$\text{glm}_{\text{actor}}$、$\text{glm}_{\text{eval}}$	NLIEs-QA
	来自$\text{glm}_{\text{eval}}$ & 任务环*	Reflexion（Shinn 等人，2023）	$\text{glm}_{\text{actor}}$, $\text{glm}_{\text{eval}}$, $\text{glm}_{\text{fb\_verbalizer}}$	具身环*
	来自工具与人类	Guan 等人 (2023)	$\text{glm}_{\text{planner}}$, $\text{glm}_{\text{pddl\_translator}}$	具身环*
	来自工具与$\text{glm}_{\text{eval}}$	CRITIC（Gou 等人，2024）	$\text{glm}_{\text{actor}}$, $\text{glm}_{\text{eval}}$	NLIEs

表 2：LLM 基础代理的工作流程及相关框架。我们根据所列框架的原始论文总结了 LLM-Profiled Components（LMPCs）和适用环*，尽管也存在其他可能性，例如，在工具使用工作流程中使用$\text{glm}_{\text{planner}}$，以及将基本工作流程应用于游戏环*。

4 LLM 基础代理的工作流程

本节探讨了不同的工作流程及各种 LLM-Profiled Components（LMPCs）的利用，如图1所示。具体而言，我们将根据工作流程类型汇总提出的框架，如表2所示。本节深入探讨了多样的工作流程及不同 LLM-Profiled Components（LMPCs）的应用，如图1所示。我们将相关框架按照工作流程进行分类和整合，如表2所示。值得注意的是，一个框架可能根据任务或环*采用不同的工作流程。框架的更多细节总结在附录A中。

4.1 仅政策工作流程

基本和工具使用工作流只需要将 LLMs 配置为策略模型。在具身任务的领域中，许多项目使用$\text{glm}_{\text{planner}}$来生成使用 LLM 代理的计划，例如 LLM Planner（Huang et al., 2022）、Planner-Actor-Reporter（Dasgupta et al., 2022）和 DEPS（Wang et al., 2023b）。Plan-and-solve 方法（Wang et al., 2023a）将基本工作流应用于 NLIEs-QA。这种基本工作流也可以应用于其他 NLIE 任务，例如创意写作（Yao et al., 2023a）。相比之下，使用$\text{glm}_{\text{actor}}$的工具使用工作流总是应用于 NLIEs，如 ReAct（Yao et al., 2023b）、Reflexion（Shinn et al., 2023）和 MultiTool-CoT（Inaba et al., 2023）。

4.2 搜索工作流

与基于$\text{glm}_{\text{planner}}$的基本代理不同，后者在一个生成过程中生成一系列动作，搜索工作流中的动作被组织成树（Yao et al., 2023a; Hao et al., 2023）和图（Liu et al., 2023）以进行探索。规划或搜索算法可以以非线性的方式探索顺序决策。在此过程中，树（或解决方案）通过添加节点来构建，每个节点表示一个部分解决方案，包括输入和到目前为止的思考/动作序列。树等数据结构使得可以在来自多个推理路径的动作上进行战略搜索。这通过使用如束搜索（Xie et al., 2023）、深度优先和广度优先搜索（DFS 和 BFS）（Yao et al., 2023a）以及蒙特卡洛树搜索（MCTS）（Hao et al., 2023）等算法来完成。

通常，LMPCs 用于探索通往目标的路径。与在仅限策略的工作流中直接在外部环*上应用动作不同，$\text{glm}_{\text{policy}}$生成多个动作样本以促进搜索过程中的动作选择，而$\text{glm}_{\text{eval}}$用于计算在探索过程中进行动作/状态评估的值（Yao et al., 2023a；Chen et al., 2024）或作为奖励模型（Hao et al., 2023）。

通过遍历和启发式搜索

Tree-of-Thoughts (ToT) 工作流 (Yao et al., 2023a) 使用 $\text{glm}_{\text{policy}}$ 在树上扩展节点，而 $\text{glm}_{\text{eval}}$ 提供固定值估计来选择节点进行进一步扩展。为了扩展树，Tree-BeamSearch 工作流 (Xie et al., 2023) 采用了束搜索，而 ToT 则应用了深度优先搜索/广度优先搜索 (DFS 和 BFS)。然而，BFS 实际上是带有 $N$ 束的束搜索，因为由效用模型 $\text{glm}_{\text{eval}}$ 生成的值用于维持 $N$ 个最有前途的节点。⁴⁴ 通常，BFS 不使用效用模型来决定扩展哪些节点，因为它系统地探索每个深度的所有可能节点。

基于 MCTS 的模拟搜索

RAP 工作流 (Hao et al., 2023) 也通过搜索构建树，并包含 $\text{glm}_{\text{policy}}$ 和 $\text{glm}_{\text{eval}}$ 来扩展节点。然而，通过使用 MCTS，这种以模拟为驱动的搜索策略，选择扩展的节点不仅由 $\text{glm}_{\text{eval}}$ 或其他启发式方法的静态输出决定（无论它们是否指示目标达成），还由多个模拟中累积的统计数据决定。具体来说，导致所有模拟（或轨迹）中后续节点获得更好*均奖励的节点确实更有可能被进一步扩展。在选择阶段之后，$\text{glm}_{\text{policy}}$ 参与了扩展阶段的动作采样。然后，它与 $\text{glm}_{\text{dynamic}}$ 和 $\text{glm}_{\text{eval}}$ 在模拟阶段密切协作，充当滚动策略。具体来说，$\text{glm}_{\text{policy}}$ 根据当前状态 $s_{t}$ 采样一个动作 $a_{t}$，然后由 $\text{glm}_{\text{eval}}$ 评估。选择得分最高的动作，$\text{glm}_{\text{dynamic}}$ 使用该动作推导 $s_{t+1}$，并迭代模拟轨迹。

4.3 反馈学*工作流

主要有四个主要的反馈来源：$\text{glm}_{\text{eval}}$（内部反馈）、人类、任务环*和工具。

Reflexion (Shinn et al., 2023) 和 Self-Refine (Madaan et al., 2023) 利用 $\text{glm}_{\text{eval}}$ 对 $\text{glm}_{\text{policy}}$ 之前的生成结果进行反思，使 $\text{glm}_{\text{policy}}$ 从这些反思中学*。与在树扩展过程中使用 $\text{glm}_{\text{eval}}$ 的输出进行动作选择的搜索工作流不同，这里反馈用于修正整个决策，允许 $\text{glm}_{\text{policy}}$ 重新生成。在涉及物理交互的任务中，Reflexion 中的 $\text{glm}_{\text{eval}}$ 还整合了来自任务环*的外部信息 (Shinn et al., 2023)。类似地，$\text{glm}_{\text{eval}}$ 可以从工具中接收信息以生成反馈，如 CRITIC 工作流中所示 (Gou et al., 2024)。在这种设置中，是否调用工具进行反馈由 $\text{glm}_{\text{eval}}$ 自主决定（参见表 15 以获取示例），而在 Reflexion 中，反馈传递由工作流设计硬编码。正如 Guan et al. (2023) 的工作流所指出，人类可以直接向 $\text{glm}_{\text{policy}}$ 提供反馈，而无需 $\text{glm}_{\text{eval}}$。

	提示	示例工作	示例提示（见附录）
$\text{glm}_{\text{actor}}$	少样本	ReAct (Yao et al., 2023b), Reflexion (Shinn et al., 2023), RAP (Hao et al., 2023), MultiTool-CoT (Inaba et al., 2023)	表 8, 10
$\text{glm}_{\text{planner}}$	零样本	Plan-and-Solve (Wang et al., 2023a), LLM Planner (Huang et al., 2022)	表 6
	少量样本	DEPS (Wang et al., 2023b), Planner-Actor-Reporter (Dasgupta et al., 2022)
$\text{glm}_{\text{evaluator}}$	少量样本	RAP (Hao et al., 2023), Tree-BeamSearch (Xie et al., 2023), Reflexion (Shinn et al., 2023), CRITIC (Gou et al., 2024)	表 12、13
$\text{glm}_{\text{dynamic}}$	少量样本	RAP (Hao et al., 2023)	表 16

表 3: LLM 配置组件的提示方法

任务表述	反馈类型	适用工作流	示例工作
文本生成	自由形式反思	反馈学*工作流	Self-Refine (Madaan et al., 2023), Reflexion (Shinn et al., 2023), CRITIC (Gou et al., 2024)
二分类/多分类	离散值	搜索工作流	RAP (Hao et al., 2023), Tree-BeamSearch (Xie et al., 2023) ToT (Yao et al., 2023a)
二分类	连续值（logits）	通过 MCTS 的搜索工作流	RAP (Hao et al., 2023)
多选 QA	前 N 个动作的选择	通过遍历和启发式的搜索工作流	ToT (Yao et al., 2023a)

表 4: 根据任务表述和反馈类型的工作流特定 LLM 配置评估器

5 种 LMPC 实现

在本节中，我们探讨了 LMPC 的不同实现方法，涵盖了与特定工作流和任务无关的策略、专门为特定任务设计的实现以及针对特定工作流量身定制的实现。

5.1 通用实现

LLM 通常通过利用链式思维（CoT）提示来超越基本的输入输出推理，从而促进中间推理步骤的创建。这是通过两种技术实现的：零样本 CoT 将 CoT 触发器（如“Kojima et al., 2022）的“让我们一步步思考”）集成到任务指令中，而少样本 CoT 则将手工制作的推理步骤包含在提供的示例中以进行上下文学*（Wei et al., 2022）。

如表 3 所示，一些研究（Wang et al., 2023a）采用零样本 CoT 提示，但大多数（Yao et al., 2023b；Shinn et al., 2023；Hao et al., 2023）通过少样本 CoT 实现 LLM 策略模型。与少样本 CoT 提示不同，零样本 CoT 实现的$\text{glm}_{\text{planner}}$通常无法生成长期规划（Wang et al., 2023b）。虽然有效，但少样本提示需要手动编制包含推理步骤的示例，从而增加了手动工作量和计算资源使用。像 Auto CoTs（Zhang et al., 2023）这样的自动生成少样本示例的方法可以缓解这一挑战。

5.2 工作流特定实现

$\text{glm}_{\text{policy}}$ 实现

可以使用两种不同的实现方式来使$\text{glm}_{\text{policy}}$在工具使用和反馈学*工作流（接收来自工具的反馈）中触发工具使用。

使用生成触发器：工具可以在推理生成过程中被调用，例如，MultiTool-CoT（Inaba 等人，2023）。代理程序监控生成的每一个标记，当检测到工具触发时暂停文本生成。这种暂停允许调用工具，其输出被插入到提示中以完成推理。这些工具的触发器通过工具描述、少量示例演示 ⁵⁵5 生成触发器通过少量示例演示：参见表 15，或两者的组合 ⁶⁶6 生成触发器通过描述和少量示例演示：参见表 8。
推理-行动（ReAct）策略用于工具使用：由 Yao 等人（2023b）提出，每个推理或行动步骤通过完整生成进行表达。虽然 ReAct 框架（Yao 等人，2023b）在工具使用工作流程中统一了工具操作，在基本工作流程中统一了任务特定操作，但我们认为工具操作和任务特定操作的策略应予以区分。由于工具操作和任务特定操作的触发方式不同，这一点将在关于任务特定实现的后续部分中进一步强调。

$\text{glm}_{\text{eval}}$ 实现

通常，不同的工作流程需要不同类型的反馈和任务制定。根据这两个视角，总结出四种情况，如表4所示：1) 生成自由形式的反思：这种反思输出通常会融入到反馈学*工作流程中的$\text{glm}_{\text{policy}}$提示中（Shinn et al., 2023; Gou et al., 2024）。$\text{glm}_{\text{eval}}$旨在反映反馈学*工作流程中的先前状态和行动。根据具体的反馈学*工作流程，它可能会结合任务或工具环*中的外部输入来丰富反思过程。2) 二分类/多分类：反馈来自离散的输出标记，通常为“no”或“yes”。这些标记可以转换为 0/1 值用于搜索工作流程。这些标量值可以在蒙特卡罗树搜索（MCTS）模拟中作为奖励信号（Hao et al., 2023），或者直接用于指导树遍历的每一步决策（Yao et al., 2023a）。3) 带有标量值的二分类：这种方法与前一种方法不同，它通过使用标记的 logit 值来计算标量反馈值。例如，“yes”响应的概率可以通过以下公式计算：

	$v=\text{probs}_{\text{"yes"}}=\frac{e^{l_{\text{"yes"}}}}{e^{l_{\text{"yes"}}}% +e^{l_{\text{"no"}}}},$

其中$l_{\text{"yes"}}$和$l_{\text{"no"}}$分别是“yes”和“no”标记的 logit 值。⁷⁷7 请注意，这些$\text{glm}_{\text{eval}}$的实现无法通过黑箱 LLMs 访问。这些标量值随后可以用于 MCTS 的搜索工作流程中的奖励。4) 多选 QA：在需要从多个选项中进行选择的环*中使用，支持涉及从前 N 个可能动作中选择的任务，如用于行动选择的搜索工作流程（Yao et al., 2023a）。

5.3 任务特定的实现

$\text{glm}_{\text{policy}}$ 实现

值得注意的细节包括：1) 多步骤生成：对于那些本质上涉及顺序决策的任务（例如“把一个凉的番茄放进微波炉”），通常需要后处理步骤，使得$\text{glm}_{\text{policy}}$能够作为一个策略模型工作。在通过 CoT 实现$\text{glm}_{\text{policy}}$生成推理路径后，会进行后续调用以提取可执行动作。此外，$\text{glm}_{\text{planner}}$的首次生成通常包含必须进一步转化为原始动作的高级动作（HLA），然后才能提取可执行动作。对于 NLIE 任务，这通常是不必要的，因为计划生成和执行可能发生在单一的 LLM 生成中⁸⁸8 同时计划生成和执行：见表6中的示例提示。2) 隐式规划：另一个需要考虑的点是，尽管$\text{glm}_{\text{actor}}$并未明确实现生成计划，它可能在推理阶段自动制定计划，然后再决定当前的行动（Shinn et al., 2023; Yao et al., 2023b) ⁹⁹9 隐式规划：见表7中的示例提示。这些生成的计划作为内部状态进行维护，不作为与其他组件的通信信号。

ReAct 对$\text{glm}_{\text{actor}}$的实现

ReAct 框架（Yao et al., 2023b）在工具使用工作流和任务特定动作之间进行了统一。然而，推理和动作输出交替的顺序依赖于任务。对于问答（QA）任务，推理步骤和工具动作的生成是固定的，交替的提示用于思考和行动。¹⁰¹⁰10 推理-行动策略（QA 任务）：见表10中的示例提示。相比之下，对于具身任务，是否在下一步继续思考或行动由$\text{glm}_{\text{policy}}$自主决定。¹¹¹¹11 推理-行动策略（具身任务）：见表7中的示例提示。

$\text{glm}_{\text{eval}}$实现

$\text{glm}_{\text{eval}}$ 可以配置以评估不同的任务特定视角，具体的代理提示决定评估标准。一般来说，有用性可以用于评估任何动作（Hao et al., 2023） ¹²¹²12 评估标准（有用性）：见表 12 中的示例提示。在 NLIE-QA 情*中，一个常见的指标是回应的事实性（真实性）（Gou et al., 2024） ¹³¹³13 评估标准（事实性/真实性）：见表 14 和 15 中的示例提示。

6 未来工作

随着我们进一步探讨 LMPCs 和代理工作流，确定了几个未来研究的关键方向，以推动全自动代理在各种任务中的发展。

通用工具使用

一个方向是超越为特定任务预定义的工具使用，发展能够使 LLMs 根据当前任务的具体需求自主确定工具使用的策略。另一个方向是将工具使用整合到政策模型和评估器中。换句话说，LLMs 可以在各种任务之间推理工具的使用，并灵活地在不同角色之间切换。其潜力的洞察在附录 C 中有详细描述。

任务之间的统一框架

如 §5 中详细说明，尽管许多框架展示了集成的概念工作流，但许多组件是任务特定的。例如，ReAct 旨在协调工具动作和任务特定动作。然而，这些工作流和 LMPCs 的具体实现因任务而异，如 NLIE-QA 中的硬编码推理和行动步骤与具身环*中的自主确定推理和行动步骤。类似地，尽管 Reflexion 中的反馈学*循环在理论上是统一的，但在实践中，外部反馈仅在具身环*中生成，而在 NLIE-QA 中则没有。

减少带宽

减少 LLM 推理所需带宽的几种潜在策略¹⁴¹⁴14 这里的带宽指的是在单次 LLM 生成过程中处理的信息量，包括使用随机$\text{glm}_{\text{actor}}$（详细信息见附录 [D](https://arxiv.org/html/2406.05804v2#A4 "附录 D 随机 "glm"_"actor" ‣ 基于 LLM 的代理调查：常见工作流程和可重用 LLM 概况组件")）。

结论

本调查提供了对常见工作流程和 LLM 概况组件的总结，以鼓励这些组件的重用，并通过集成任务特定的 LMPC 和非 LLM 组件来扩展现有工作流程。这种方法旨在促进代理工作流程的发展和可重复性。

限制

本调查省略了对记忆设计的讨论¹⁵¹⁵15 附录 E提供了关于基于 LLM 的代理的记忆以及外围组件在代理工作流程中的集成的简要讨论¹⁶¹⁶16 这些在附录 A中简要总结，因为我们的重点是代理工作流程中常见的 LLM 概况组件的细节，以促进可重用组件和可扩展工作流程的实现。这使得我们的工作与其他调查显著不同。

参考文献

Chen et al. (2024) 司佳·陈、宝春·李和迪·牛。2024 年。思想提升：使用大语言模型的试错问题解决。在第十二届国际学*表征会议上。
Dasgupta et al. (2022) 伊希塔·达斯古普塔、克里斯汀·凯瑟-陈、肯尼斯·马里诺、阿伦·阿胡贾、谢拉·巴巴扬、费利克斯·希尔和罗布·弗格斯。2022 年。与语言模型协作进行具身推理。在第二届语言与强化学*研讨会上。
Fan et al. (2022) 林溪·范、关志·王、云凡·姜、阿杰·曼德卡、云聪·杨、浩毅·朱、安德鲁·唐、德安·黄、玉可·朱和安妮玛·安南德库马。2022 年。Minedojo: 构建具有互联网规模知识的开放式具身代理。在第 36 届神经信息处理系统大会数据集和基准测试分会上。
Goldsmith (2023) 乔纳森·戈德史密斯。2023 年。Wikipedia: 一个使访问和解析维基百科数据变得容易的 python 库。Python 包索引。
Gou et al. (2024) 苟志彬、邵志鸿、龚业云、沈夜龙、杨宇九、段楠、陈伟柱。2024 年。CRITIC：大型语言模型可以通过工具互动批评进行自我修正。发表于 第十二届国际表征学*会议。
Guan et al. (2023) 管林、卡尔蒂克·瓦尔梅卡姆、萨拉斯·斯里达兰、苏巴拉奥·坎班帕提。2023 年。利用预训练的大型语言模型构建和利用世界模型以进行基于模型的任务规划。发表于 第 37 届神经信息处理系统会议。
Hao et al. (2023) 郝世博、顾毅、马浩迪、洪乔舒亚、王震、王黛西、胡志婷。2023 年。与语言模型推理即是与世界模型规划。发表于 2023 年自然语言处理实证方法会议论文集，第 8154–8173 页，新加坡。计算语言学协会。
Huang et al. (2022) 黄文龙、皮特·阿贝尔、迪帕克·帕塔克、伊戈尔·莫达奇。2022 年。语言模型作为零样本规划者：为具身代理提取可操作知识。发表于 国际机器学*会议，第 9118–9147 页。PMLR。
Inaba et al. (2023) 稻叶达郎、清丸浩和、程飞、黑桥定雄。2023 年。MultiTool-CoT：GPT-3 可以使用多个外部工具与思维链提示。发表于 第 61 届计算语言学协会年会（第 2 卷：短篇论文），第 1522–1532 页，加拿大多伦多。计算语言学协会。
Kojima et al. (2022) 小岛健志、郭时翔、马切尔·里德、松尾丰、岩泽友祐。2022 年。大型语言模型是零样本推理器。发表于 神经信息处理系统进展。
Liu et al. (2023) 刘汉萌、滕志阳、崔乐扬、张超力、周奇姝、张跃。2023 年。Logicot：逻辑思维链指令微调。
Madaan et al. (2023) 阿曼·马达安、尼凯特·坦登、普拉卡什·古普塔、斯凯勒·哈利南、刘宇、高璐、莎拉·维格雷夫、乌里·阿隆、努哈·兹里、施里梅·普拉布莫耶、杨一鸣等。2023 年。Self-refine：自我反馈的迭代精炼。arXiv 预印本 arXiv:2303.17651。
Manakul et al. (2023) 潘萨维·马纳库尔、艾迪安·刘斯、马克·JF·盖尔斯。2023 年。Selfcheckgpt：用于生成大型语言模型的零资源黑箱幻觉检测。arXiv 预印本 arXiv:2303.08896。
Russell and Norvig (2010) 斯图尔特·J·拉塞尔、彼得·诺维格。2010 年。人工智能：一种现代方法。伦敦。
Santurkar et al. (2023) 席巴尼·桑图卡尔、艾辛·杜尔穆斯、费萨尔·拉达克、奇诺·李、佩西·梁、辰野桥本。2023 年。语言模型反映了谁的观点？ arXiv 预印本 arXiv:2303.17548。
Shinn 等（2023）Noah Shinn、Federico Cassano、Edward Berman、Ashwin Gopinath、Karthik Narasimhan 和 Shunyu Yao。2023 年。Reflexion: 带有语言强化学*的语言代理。
Shridhar 等（2021）Mohit Shridhar、Xingdi Yuan、Marc-Alexandre Cote、Yonatan Bisk、Adam Trischler 和 Matthew Hausknecht。2021 年。{ALFW}orld: 对齐文本和具身环*以实现交互式学*。在 国际学*表征会议 上。
Sutton 和 Barto（2018）Richard S Sutton 和 Andrew G Barto。2018 年。强化学*：导论。MIT 出版社。
Thoppilan 等（2022）Romal Thoppilan、Daniel De Freitas、Jamie Hall、Noam Shazeer、Apoorv Kulshreshtha、Heng-Tze Cheng、Alicia Jin、Taylor Bos、Leslie Baker、Yu Du 等。2022 年。Lamda: 对话应用的语言模型。arXiv 预印本 arXiv:2201.08239。
Wan 等（2024）Ziyu Wan、Xidong Feng、Muning Wen、Ying Wen、Weinan Zhang 和 Jun Wang。2024 年。类似 AlphaZero 的树搜索可以指导大型语言模型的解码和训练。
Wang 等（2024）Lei Wang、Chen Ma、Xueyang Feng、Zeyu Zhang、Hao Yang、Jingsen Zhang、Zhiyuan Chen、Jiakai Tang、Xu Chen、Yankai Lin 等。2024 年。一项关于基于大型语言模型的自主代理的调查。计算机科学前沿, 18(6):1–26。
Wang 等（2023a）Lei Wang、Wanyu Xu、Yihuai Lan、Zhiqiang Hu、Yunshi Lan、Roy Ka-Wei Lee 和 Ee-Peng Lim。2023a 年。计划与解决提示: 通过大型语言模型改进零样本链式思维推理。在 第 61 届计算语言学协会年会（第 1 卷: 长篇论文） 上，第 2609–2634 页，加拿大多伦多。计算语言学协会。
Wang 等（2022）Siyuan Wang、Zhongkun Liu、Wanjun Zhong、Ming Zhou、Zhongyu Wei、Zhumin Chen 和 Nan Duan。2022 年。来自 lsat: 复杂推理的进展与挑战。IEEE/ACM Trans. Audio, Speech and Lang. Proc., 30:2201–2216。
Wang 等（2023b）Zihao Wang、Shaofei Cai、Guanzhou Chen、Anji Liu、Xiaojian Ma 和 Yitao Liang。2023b 年。描述、解释、规划和选择: 通过 LLMs 实现开放世界多任务代理的交互式规划。在 第三十七届神经信息处理系统会议 上。
Wei 等（2022）Jason Wei、Xuezhi Wang、Dale Schuurmans、Maarten Bosma、brian ichter、Fei Xia、Ed H. Chi、Quoc V Le 和 Denny Zhou。2022 年。思维链提示引发大型语言模型的推理。在 神经信息处理系统进展 上。
Willard 和 Louf（2023）Brandon T Willard 和 Rémi Louf。2023 年。高效引导生成用于 LLMs。arXiv 预印本 arXiv:2307.09702。
Wu 等人（2023）Qingyun Wu, Gagan Bansal, Jieyu Zhang, Yiran Wu, Shaokun Zhang, Erkang Zhu, Beibin Li, Li Jiang, Xiaoyun Zhang, 和 Chi Wang. 2023. Autogen: 通过多代理对话框架实现下一代 LLM 应用。arXiv 预印本 arXiv:2308.08155。
Xie 等人（2023）Yuxi Xie, Kenji Kawaguchi, Yiran Zhao, Xu Zhao, Min-Yen Kan, Junxian He, 和 Qizhe Xie. 2023. 自我评估引导的束搜索用于推理。在 第三十七届神经信息处理系统会议。
Yao 等人（2023a）Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao, 和 Karthik Narasimhan. 2023a. 思维树：使用大型语言模型的深思熟虑问题解决。
Yao 等人（2023b）Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik R Narasimhan, 和 Yuan Cao. 2023b. React: 语言模型中的推理与行动协同。在 第十一届国际学*表征会议。
Zhang 等人（2023）Zhuosheng Zhang, Aston Zhang, Mu Li, 和 Alex Smola. 2023. 大型语言模型中的自动思维链提示。在 第十一届国际学*表征会议（ICLR 2023）。
Zhong 等人（2023）Wanjun Zhong, Ruixiang Cui, Yiduo Guo, Yaobo Liang, Shuai Lu, Yanlin Wang, Amin Saied, Weizhu Chen, 和 Nan Duan. 2023. Agieval: 一种以人为本的基础模型评估基准。arXiv 预印本 arXiv:2304.06364。
Zhong 等人（2022）Wanjun Zhong, Siyuan Wang, Duyu Tang, Zenan Xu, Daya Guo, Yining Chen, Jiahai Wang, Jian Yin, Ming Zhou, 和 Nan Duan. 2022. 文本的分析推理。在 Findings of the Association for Computational Linguistics: NAACL 2022，第 2306–2319 页，美国西雅图。计算语言学协会。

附录 A 大型语言模型基础代理框架

表格 5 展示了每个框架的工作流程、LMPCs 和非 LMPC 组件。

	相关工作流程	LMPCs	非 LMPC 组件	应用环*
思维树（ToT） (Yao 等人，2023a)	通过遍历与启发式搜索	$\text{glm}_{\text{actor}}$, $\text{glm}_{\text{eval}}$, $\text{glm}_{\text{planner}}$（仅用于 NLIEs-Writing）	搜索树	游戏；NLIEs-Writing
Tree-BeamSearch (Xie 等人，2023)	基于搜索的遍历与启发式	$\text{glm}_{\text{actor}}$, $\text{glm}_{\text{eval}}$	搜索树	NLIE-QA
RAP（Hao 等人，2023）	通过 MCTS 搜索	$\text{glm}_{\text{actor}}$，$\text{glm}_{\text{dynamic}}$，$\text{glm}_{\text{eval}}$	搜索树	游戏；NLIEs-QA
LLM Planner（Huang 等人，2022）	基础	$\text{glm}_{\text{planner}}$	用于行动翻译的 MLM	实体环*
DEPS（Wang 等人，2023b）	基础	$\text{glm}_{\text{planner}}$，$\text{glm}_{\text{action\_selector}}$，$\text{glm}_{\text{verbalizer}}$	立即 actor，VLM+GLM 作为表述者	实体环*
Planner-Actor-Reporter（Dasgupta 等人，2022）	基础	$\text{glm}_{\text{planner}}$	强化学* actor，训练分类器+硬编码作为表述者	实体环*
Plan-and-solve（Wang 等人，2023a）	基础	$\text{glm}_{\text{planner}}$	/	NLIEs-QA
MultiTool-CoT（Inaba 等人，2023）	工具使用	$\text{glm}_{\text{actor}}$	/	NLIEs
ReAct（Yao 等人，2023b）	工具使用	$\text{glm}_{\text{actor}}$	/	NLIEs
	基础	$\text{glm}_{\text{actor}}$	/	实体环*
Guan 等人（2023）	反馈学*（来自工具和人）	$\text{glm}_{\text{planner}}$，$\text{glm}_{\text{pddl\_translator}}$	领域专家，领域无关规划器	实体环*
CRITIC（Gou 等人，2024）	反馈学*（来自工具和$\text{glm}_{\text{eval}}$）	$\text{glm}_{\text{actor}}$	/	NLIEs
Self-refine（Madaan 等人，2023）	反馈学*（来自$\text{glm}_{\text{eval}}$）	$\text{glm}_{\text{actor}}$，$\text{glm}_{\text{eval}}$，	/	NLIEs

| Reflexion（Shinn 等人，2023） | 反馈学*（来自$\text{glm}_{\text{eval}}$），

工具使用 | $\text{glm}_{\text{actor}}$，$\text{glm}_{\text{eval}}$， | / | NLIEs-QA |

	反馈学（来自任务环和$\text{glm}_{\text{eval}}$），	$\text{glm}_{\text{actor}}$，$\text{glm}_{\text{eval}}$，$\text{glm}_{\text{fb\_verbalizer}}$	$\text{heuristic\_func}_{\text{eval}}$	实体环*

表 5：基于 LLM 的代理的框架。MLM：屏蔽语言模型。

| 问题：在一个有 20 名学生的舞蹈班中，有 20%的人报名现代舞蹈，剩下的 25%报名爵士舞蹈，其他人报名街舞。整个学生中有多少百分比的人报名了街舞？答：让我们首先理解问题，并制定解决问题的计划。

然后，让我们逐步执行计划，解决问题。

计划:

使用以下工具回答一些问题：
- <<计算器>>
- <<化学反应预测器>>
- <<摩尔质量列表>>
问：找出将 2 摩尔的 \(\mathrm{CO}2\) 和 2 摩尔的 \(\mathrm{H}2\mathrm{O}\) 结合形成的 \(\mathrm{H}2\mathrm{CO}3\) 的量。
答：首先，使用化学反应预测器确定反应的化学方程式。
反应物：\(2\mathrm{CO}2,2\mathrm{H}2\mathrm{O}\)
产物：?$ \mathrm{H}2\mathrm{CO}3$
<<化学反应预测器>>
\(2\mathrm{CO}2+2\mathrm{H}2\mathrm{O}\rightarrow 2\mathrm{H}2\mathrm{CO}3\)
第二，使用摩尔质量列表确定\(\mathrm{H}2\mathrm{CO}3\)的摩尔质量。\(\mathrm{H}2\mathrm{CO}3\) <<摩尔质量列表>> \(62\mathrm{~{}g}/\mathrm{mol}\)
第三，使用计算器计算 2 摩尔\(\mathrm{H}2\mathrm{CO}3\)的量。\(2\times 62=\) <<计算器>> \(124\)
因此，形成了\(124\mathrm{~{}g}\)的\(\mathrm{H}2\mathrm{CO}3\)。
问：找出反应 2 摩尔二氧化碳形成 2 摩尔碳酸钙和 2 摩尔水所需的氢氧化钙的量。
答：

通过先进行思考来解决问题回答任务，然后用你的答案完成。思考可以推理当前情况。完成[答案]返回答案并结束任务。
以下是一些示例：
问题 1：科罗拉多造山带东部区域的海拔范围是多少？
思考：我们一步一步来考虑。科罗拉多造山带的东部区域延伸到高原地区。高原的海拔从约 1,800 英尺上升到 7,000 英尺，因此答案是 1,800 到 7,000 英尺。
行动：完成[1,800 到 7,000 英尺]
…
问题 6：帕维尔·乌里索夫和列昂尼德·列文是否以相同类型的工作著称？
思考：我们一步一步来考虑。帕维尔·乌里索夫是数学家。列昂尼德·列文是数学家和计算机科学家。因此，帕维尔·乌里索夫和列昂尼德·列文的工作类型相同。
行动：完成[是]
示例结束)
问题：VIVA Media AG 在 2004 年更改了名称。它们的新缩写代表什么？
思考:
操作:

给定一个问题，请将其拆解为子问题。对于每个子问题，请用完整的句子回答，并以“答案是”结尾。当原始问题可以回答时，请以“现在我们可以回答这个问题:”开始子问题。
问题 1: James 每周写两次 3 页的信给两个不同的朋友。他一年写多少页？
问题 1.1: 他每周写多少页？
答案 1.1: James 每周写 3 * 2 * 2 = 12 页信。答案是 12。
问题 1.2: 一年有多少周？
答案 1.2: 一年有 52 周。答案是 52。
问题 1.3: 现在我们可以回答这个问题：他一年写多少页？
答案 1.3: James 每周写 12 页，因此他一年写 12 * 52 = 624 页。答案是 624。
…
问题 5: Janet 的鸭子每天产 16 个蛋。她每天早晨吃三个做早餐，然后用四个给朋友们烤松饼。她每天在农贸市场上以每个新鲜鸭蛋 2 美元的价格出售剩余的蛋。她每天在农贸市场上赚多少钱？
问题 5.1:

给定一个问题和一些子问题，确定最后一个子问题是否对回答问题有用。输出‘是’或‘否’，并说明原因。
问题 1: 四年前，Kody 的年龄只有穆罕默德的一半。如果穆罕默德现在 30 岁，那么 Kody 几岁？
问题 1.1: 穆罕默德现在几岁？
问题 1.2: 四年前穆罕默德几岁？
新问题 1.3: Kody 四年前几岁？
新的问题有用吗？是的。我们需要答案来计算 Kody 现在几岁。
…
问题 5: Janet 的鸭子每天下 16 个蛋。她每天早上吃三个，并用四个烘焙蛋糕给朋友。她每天在农贸市场以每个新鲜鸭蛋 2 美元的价格出售剩余的。她每天在农贸市场赚多少钱？
新问题 5.1: 现在我们可以回答这个问题：她每天在农贸市场赚多少钱？
新的问题有用吗？

…
问题: Serianna 是什么类型的乐队，结合了重金属和硬核朋克的元素？
建议答案：让我们一步步思考。Serianna 是一支金属核风格的乐队。金属核是重金属和硬核朋克的一个子类别。因此，Serianna 是一支重金属和硬核朋克的乐队。所以答案是：重金属和硬核朋克。
1. 可能性： [金属核 - 维基百科] 金属核是一种融合音乐风格，结合了极端金属和硬核朋克的元素。
[Serianna - 维基百科] Serianna 是一支来自威斯康星州麦迪逊的金属核乐队。乐队成立于 2006 年…

给定一个问题，请将其分解为子问题。对于每个子问题，请用完整的句子回答，并以“答案是”结束。当原始问题可以回答时，请用“现在我们可以回答这个问题：”开头。
问题 1: Weng 每小时赚 12 美元照看孩子。昨天，她只做了 50 分钟的照看。她赚了多少钱？
问题 1.1: Weng 每分钟赚多少钱？
答案 1.1: 由于 Weng 每小时赚 12 美元，她每分钟赚 $12 / 60 = $0.2。答案是 0.2。
问题 1.2: 现在我们可以回答这个问题：她赚了多少钱？
答案 1.2: 工作 50 分钟，她赚了 $0.2 x 50 = $10。答案是 10。
…
问题 5: Janet 的鸭子每天产下 16 个蛋。她每天早晨吃三个作为早餐，并且每天用四个蛋给她的朋友们烤松饼。她每天在农贸市场上以每个新鲜鸭蛋 2 美元的价格出售剩余的蛋。她每天在农贸市场上赚多少钱？
问题 5.1: Janet 在吃掉三个早餐蛋和使用四个做松饼后剩下多少个蛋？
答案 5.1:

类型	问题	人工撰写	LLM 生成
正常

posted @ 2026-03-26 12:23 布客飞龙III 阅读(6) 评论(0) 收藏举报

刷新页面返回顶部

	Sumit Kumar Dam 是韩国庆熙大学人工智能系的博士研究员。他于 2020 年获得了孟加拉国库尔纳大学计算机科学与工程的理学学士学位。他的研究兴趣包括对抗性鲁棒性、计算机视觉、自监督学和机器学。
	Choong Seon Hong (S’95-M’97-SM’11-F’23) 毕业于韩国首尔的庆熙大学，分别获得电子工程学士和硕士学位，时间分别是 1983 年和 1985 年，随后于 1997 年从日本东京的庆熙大学获得博士学位。1988 年加入韩国京畿道的 KT 公司，担任技术人员一职，参与宽带网络项目。自 1993 年以来一直在庆熙大学工作。曾任 KT 电信网络实验室的高级技术人员以及网络研究小组的主任，直至 1999 年。自 1999 年以来一直在庆熙大学计算机科学与工程系担任教授。他的研究领域包括未来互联网、智能边缘计算、网络管理和网络安全。Hong 博士是计算机协会（ACM）、电子、信息和通信工程师协会（IEICE）、日本信息处理学会（IPSJ）、韩国信息科学家工程师协会（KIISE）、韩国通信和信息科学院（KICS）、韩国信息处理学会（KIPS）以及开放标准和 ICT 协会（OSIA）的成员。他曾担任国际会议的总主席、技术计划委员会主席/成员或组织委员会成员，例如网络运营与管理研讨会（NOMS）、综合网络管理国际研讨会（IM）、亚太网络运营与管理研讨会（APNOMS）、端到端监控技术与服务（E2EMON）、IEEE 消费者通信与网络会议（CCNC）、分布式系统和网络保障（ADSN）、并行处理国际会议（ICPP）、数据集成与挖掘（DIM）、世界信息安全应用大会（WISA）、宽带融合网络（BcN）、电信信息网络架构（TINA）、应用与互联网国际研讨会（SAINT）以及信息网络国际会议（ICOIN）。他曾担任 IEEE 网络与服务管理交易、IEEE 通讯与网络期刊以及国际网络管理期刊的副编辑。此外，他还曾担任 IEEE 通信杂志的副技术编辑。目前他是《国际网络管理》和《未来互联网》期刊的副编辑。
	余巧（S’24）于 2016 年和 2019 年分别获得南京信息工程大学（NUIST），中国南京的物联网工程学士学位和计算机科学与技术硕士学位。他目前在韩国庆熙大学（KHU）人工智能系攻读博士学位。在攻读博士学位之前，他曾在 2019 至 2022 年期间担任上海 Spreadtrum Communications（UNISOC）的相机软件工程师。他的兴趣包括机器学、联邦学、对抗性机器学、自监督学和分布式边缘智能。
	张超宁于 2012 年和 2015 年分别获得哈尔滨工业大学的电气工程学士学位和硕士学位，并于 2021 年获得 KAIST 的博士学位。自 2022 年起，他在庆熙大学计算学院人工智能系担任助理教授。在此之前，他曾在 KAIST 担任博士后研究员。他的研究兴趣包括但不限于对抗性机器学和自监督学，以解决计算机视觉及其他领域中的模型鲁棒性和数据效率问题。

策略	核心思想	优势	缺点
贪心搜索	每一步只考虑当前概率最高的词。	快速且简单。	易陷入局部最优，缺乏多样性，无法处理不确定性。
束搜索 Graves (2012)	在每一步可以考虑更多的候选词。	提高了文本质量和灵活性。	易生成重复的片段，开放生成领域效果差，无法处理不确定性。
Top-K Sampling Fan, Lewis, and Dauphin (2018)	在每一步中从 K 个最可能的词中进行采样。	增加多样性，并能够处理不确定性。	难以控制生成的质量，可能导致文本不连贯。
Top-P Sampling Holtzman et al. (2020)	使用概率分布的形状来确定采样的词集合	连贯性和处理不确定性的能力。	依赖于模型预测的质量，多样性与参数 $P$ 相关。

数据库	搜索引擎	搜索方案	检索结果
Google Scholar	`scholar.google.com/`	全文	210
ArXiv	`arxiv.org/`	全文	N/A^a
Scopus	`www.scopus.com/`	TITLE-ABS-KEY: (标题, 摘要, 作者关键词, 索引关键词)	133
Web of Science	`www.webofscience.com/`	主题: (检索标题, 摘要, 作者关键词, 关键词加)	92
IEEE Xplore	`ieeexplore.ieee.org/`	全文	49
Springer Link	`link.springer.com/`	全文	N/A^a
ACL Anthology	`aclanthology.org/`	全文	N/A^a
ACM Digital Library	`dl.acm.org/`	标题	N/A^b

节	主题	内容
第四部分	数据	用于 LLM 生成文本检测的数据集和基准，其他易于扩展到检测任务的数据集及 LLM 生成文本检测数据集的挑战。
第五部分	检测器	水印技术、基于统计的检测器、基于神经网络的检测器和人工辅助方法
章节 6	评估指标	准确率，精确率，召回率，假阳性率，真阴性率，假阴性率，F1 分数和 ROC 曲线下面积（AUROC）。
章节 7	问题	分布范围外挑战，潜在攻击，现实世界数据问题，模型大小对检测器的影响，缺乏有效的评估框架
章节 8	未来方向	构建抵御攻击的稳健检测器，增强零样本检测器的效果，优化低资源环*下的检测器，非纯 LLM 生成文本的检测，数据歧义中构建检测器，与现实世界相符合的有效评估框架，具有辨别错误信息能力的检测器的构建。
章节 9	结论	-

语料库	用途	人类	LLMs	LLMs 类型	语言	攻击	领域
HC3 Guo 等人 (2023)	训练	~80k	~43k	ChatGPT	英语, 中文	-	网络文本, 问答, 社交媒体
CHEAT Yu 等人 (2023a)	训练	~15k	~35k	ChatGPT	英语	改写	科学写作
HC3 Plus Su 等人 (2023b)	训练验证测试	~95k ~10k ~38k	GPT-3.5-Turbo	英语, 中文	改写	新闻写作, 社交媒体
OpenLLMText Chen 等人 (2023a)	训练, 验证, 测试	~52k ~8k ~8k	~209k ~33k ~33k	ChatGPT, PaLM, LLaMA, GPT2-XL	英语	-	网络文本
GROVER 数据集 Zellers 等人 (2019b)	训练	~24k	Grover-Mega	英语	-	新闻写作
TweepFake Fagni 等人 (2021)	训练	~12k	~12k	GPT-2, RNN, 马尔可夫, LSTM, CharRNN	英语	-	社交媒体
GPT-2 输出数据集⁶⁶6`github.com/openai/gpt-2-output-dataset`	训练测试	~250k ~5k	~2000k ~40k	GPT-2 (small, medium, large, xl)	英语	-	网络文本
ArguGPT Liu 等人 (2023c)	训练验证测试	~6k 700 700	GPT2-Xl, Text-Babbage-001, Text-Curie-001, Text-Davinci-001, Text-Davinci-002, Text-Davinci-003, GPT-3.5-Turbo	英语	-	科学写作
DeepfakeTextDetect Li 等人 (2023c)	训练验证测试	~236k ~56k ~56k	GPT (Text-Davinci-002, Text-Davinci-003, GPT-Turbo-3.5), LLaMA (6B, 13B, 30B, 65B), GLM-130B, FLAN-T5 (small, base, large, xl, xxl), OPT(125M, 350M, 1.3B, 2.7B, 6.7B, 13B, 30B, iml1.3B, iml-30B), T0 (3B, 11B), BLOOM-7B1, GPT-J-6B, GPT-NeoX-20B)	英语	改写	社交媒体, 新闻写作, 问答, 故事生成, 理解与推理, 科学写作

年份	GenAI	LLM	生成	理解	流媒体	总结
[1], 2020	\(\surd\)	X	\(\surd\)	X	X	VAEs、GANs 和 Transformers 在视频生成中的概述。
[2], 2023	\(\surd\)	X	\(\surd\)	X	X	研究文本到图像和文本到视频的人工智能生成器。
[3], 2023	\(\surd\)	X	\(\surd\)	X	X	关注于生成说服性视频的人工智能方法。
[4], 2022	\(\surd\)	X	\(\surd\)	X	X	关注于视频生成的 GAN 方法。
[5], 2023	X	X	X	\(\surd\)	X	关注于描述的深度学*方法。
[6], 2020	X	X	X	\(\surd\)	X	针对特定数据集的综述描述方法。
[7], 2019	X	X	X	\(\surd\)	X	针对基于人工智能的视频描述的方法、数据集和指标。
我们的, 2023	\(\surd\)	\(\surd\)	\(\surd\)	\(\surd\)	\(\surd\)	GenAI 和 LLM 在视频生成、理解和流媒体中的应用。

	提示	示例工作	示例提示（见附录）
\(\text{glm}_{\text{actor}}\)	少样本	ReAct (Yao et al., 2023b), Reflexion (Shinn et al., 2023), RAP (Hao et al., 2023), MultiTool-CoT (Inaba et al., 2023)	表 8, 10
\(\text{glm}_{\text{planner}}\)	零样本	Plan-and-Solve (Wang et al., 2023a), LLM Planner (Huang et al., 2022)	表 6
	少量样本	DEPS (Wang et al., 2023b), Planner-Actor-Reporter (Dasgupta et al., 2022)
\(\text{glm}_{\text{evaluator}}\)	少量样本	RAP (Hao et al., 2023), Tree-BeamSearch (Xie et al., 2023), Reflexion (Shinn et al., 2023), CRITIC (Gou et al., 2024)	表 12、13
\(\text{glm}_{\text{dynamic}}\)	少量样本	RAP (Hao et al., 2023)	表 16

	相关工作流程	LMPCs	非 LMPC 组件	应用环*
思维树（ToT） (Yao 等人，2023a)	通过遍历与启发式搜索	\(\text{glm}_{\text{actor}}\), \(\text{glm}_{\text{eval}}\), \(\text{glm}_{\text{planner}}\)（仅用于 NLIEs-Writing）	搜索树	游戏；NLIEs-Writing
Tree-BeamSearch (Xie 等人，2023)	基于搜索的遍历与启发式	\(\text{glm}_{\text{actor}}\), \(\text{glm}_{\text{eval}}\)	搜索树	NLIE-QA
RAP（Hao 等人，2023）	通过 MCTS 搜索	\(\text{glm}_{\text{actor}}\)，\(\text{glm}_{\text{dynamic}}\)，\(\text{glm}_{\text{eval}}\)	搜索树	游戏；NLIEs-QA
LLM Planner（Huang 等人，2022）	基础	\(\text{glm}_{\text{planner}}\)	用于行动翻译的 MLM	实体环*
DEPS（Wang 等人，2023b）	基础	\(\text{glm}_{\text{planner}}\)，\(\text{glm}_{\text{action\_selector}}\)，\(\text{glm}_{\text{verbalizer}}\)	立即 actor，VLM+GLM 作为表述者	实体环*
Planner-Actor-Reporter（Dasgupta 等人，2022）	基础	\(\text{glm}_{\text{planner}}\)	强化学* actor，训练分类器+硬编码作为表述者	实体环*
Plan-and-solve（Wang 等人，2023a）	基础	\(\text{glm}_{\text{planner}}\)	/	NLIEs-QA
MultiTool-CoT（Inaba 等人，2023）	工具使用	\(\text{glm}_{\text{actor}}\)	/	NLIEs
ReAct（Yao 等人，2023b）	工具使用	\(\text{glm}_{\text{actor}}\)	/	NLIEs
	基础	\(\text{glm}_{\text{actor}}\)	/	实体环*
Guan 等人（2023）	反馈学*（来自工具和人）	\(\text{glm}_{\text{planner}}\)，\(\text{glm}_{\text{pddl\_translator}}\)	领域专家，领域无关规划器	实体环*
CRITIC（Gou 等人，2024）	反馈学*（来自工具和\(\text{glm}_{\text{eval}}\)）	\(\text{glm}_{\text{actor}}\)	/	NLIEs
Self-refine（Madaan 等人，2023）	反馈学*（来自\(\text{glm}_{\text{eval}}\)）	\(\text{glm}_{\text{actor}}\)，\(\text{glm}_{\text{eval}}\)，	/	NLIEs

Corpus	Size	Source	Language	Domain
XSum Narayan, Cohen, and Lapata (2018)	42k	BBC	英语	新闻写作
SQuAD Rajpurkar et al. (2016)	98.2k	Wiki	英语	问答
WritingPrompts Fan, Lewis, and Dauphin (2018)	302k	Reddit WRITINGPROMPTS	英语	故事生成
Wiki40B Guo et al. (2020)	17.7m	Wiki	40+ 语言	网络文本
PubMedQA Jin et al. (2019)	211k	PubMed	英语	问答
Children’s Book Corpus Hill et al. (2016)	687k	书籍	英语	问答
Avax Tweets Dataset Muric, Wu, and Ferrara (2021)	137m	Twitter	英语	社交媒体
Climate Change Dataset Littman and Wrubel (2019)	4m	Twitter	英语	社交媒体
Yelp Dataset Asghar (2016)	700k	Yelp	英语	社交媒体
ELI5 Fan et al. (2019)	556k	Reddit	英语	问答
ROCStories Mostafazadeh et al. (2016)	50k	众包	英语	故事生成
HellaSwag Zellers et al. (2019a)	70k	ActivityNet Captions, Wikihow	英语	问答
SciGen Moosavi et al. (2021)	52k	arXiv	英语	科学写作, 问答
WebText Radford et al. (2019)	45m	网络	英语	网络文本
TruthfulQA Lin, Hilton, and Evans (2022)	817	作者编写的英文	英文	问答
NarrativeQA Kočiský et al. (2018)	1.4k	Gutenberg3，网络	英文	问答
TOEFL11 Blanchard et al. (2013)	12k	TOEFL 测试	11 种语言	科学写作
Peer Reviews Kang et al. (2018)	14.5k	NIPS 2013–2017, CoNLL 2016, ACL 2017	英文	科学写作
ICLR 2017, arXiv 2007–2017

语料库	用途	人类	LLMs	LLMs 类型	语言	攻击	领域
TuringBench Uchendu 等 (2021)	训练	~8k	~159k	GPT-1, GPT-2, GPT-3, GROVER, CTRL, XLM, XLNET, FAIR, TRANSFORMER_XL, PPLM	英语	-	新闻写作
MGTBench He 等 (2023)	训练测试	~2.4k ~0.6k	~14.4k ~3.6k	ChatGPT, ChatGPT-turbo, ChatGLM, Dolly, GPT4All, StableLM	英语	对抗性	科学写作、故事生成、新闻写作
GPABenchmark Liu 等 (2023d)	测试	~150k	~450k	GPT-3.5	英语	意译	科学写作
科学文章基准 Mosca 等 (2023)	测试	~16k	~13k	SCIgen, GPT-2, GPT-3, ChatGPT, Galactica	英语	-	科学写作
MULTITuDE Macko 等人 (2023)	训练测试	~4k ~3k	~40k ~26k	Alpaca-lora, GPT-3.5-Turbo, GPT-4, LLaMA, OPT, OPT-IML-Max, Text-Davinci-003, Vicuna	阿拉伯语、加泰罗尼亚语、中文、捷克语、荷兰语、英语、德语、葡萄牙语、俄语、西班牙语、乌克兰语	-	科学写作、新闻写作、社交媒体
HANSEN Tripto 等人 (2023)	测试	-	~21k	ChatGPT, PaLM2, Vicuna13B	英语	-	口语文本
M4 Wang 等人 (2023b)	训练验证测试	~35k ~3.5k ~3.5k	~112k ~3.5k ~3.5k	GPT-4, ChatGPT, GPT-3.5, Cohere, Dolly-v2, BLOOMz 176B	英语、中文、俄语、乌尔都语、印尼语、保加利亚语、阿拉伯语	-	网络文本、科学写作、新闻写作、社交媒体、问答

	$召回率=\frac{TP}{TP+FN}$
	$HumanRecall=\frac{\text{正确检测到的人工书写样本}}{\text{所有 % 人工书写样本}}$
	$LLMRecall=\frac{\text{正确检测到的 LLM 生成样本}}{\text{所有 LLM 生成样本}}$
	$AvgRecall=\frac{HumanRecall+LLMRecall}{2}$

时间	模型	引用	检索器	RetTrain	RetAug 阶段	前/后检索	生成器	增强	评估
2019	kNN-LM (Khandelwal 等, 2020)	619	DR(GP)	无	Inf	RA	DT	输出	LG
2020	REALM (Guu 等, 2020)	1437	DR(BE,BT)	是	PT+FT	/	ET	输入	OpenQA(NQ, WQ, CT)
2020	RAG (Lewis 等, 2020c)	2125	DR(DPR)	是	FT	/	ED (BART)	输入	OpenQA, AQA, Jeopardy QG, FV
2021	FiD (Izacard 和 Grave, 2021b)	780	SR(BM25)/ DR(DPR)	无	FT	/	ED (T5/BART)	输入	OpenQA
2021	SE-FiD (Komeili 等, 2022)	286	SE(Bing)	无	Inf	RQG	FiD	输入	WizInt, WoW
2021	FiD-KD (Izacard 和 Grave, 2021a)	190	DR(BE)	是	FT	CR	FiD	输入	OpenQA
2021	RETRO (Borgeaud 等, 2022)	683	DR(BERT, DPR)	否	PT	/	ED	Inter	LM, OpenQA
2021	EPR (Rubin 等, 2022)	384	DR(DPR)	是	Inf	CR	GPT-3,J,Neo, CODEX	Demon	UR
2022	OpenBook (Lazaridou 等, 2022)	145	SE+SR	否		QE	GOPHER LM	Input	QA, FV
2022	DSP (Khattab 等, 2022)	117	ColBERTv2	否	Inf	RQG, RF	GPT-3.5	Demon	OpenQA, MHQA, CQA
2023	In-Context RALM (Ram 等, 2023)	211	DR/SR	否	Inf	TRR	GPT-2,J,Neo	Input	LM, OpenQA
2023	Atlas (Izacard 等, 2023)	367	DR(OE)	是	PT+FT	/	ED	Input	OpenQA, FV, WoW, EL,SF, MMLU
2023	FLARE (Jiang 等, 2023)	133	SR(BM25)/ SE(Bing)	否	Inf	RQG	GPT-3.5	Input	MHQA, CR, LongQA, OS
2023	IRCoT (Trivedi 等, 2023)	114	SR(BM25)	否	Inf	/	GPT-3,Flan-T5	Input	OpenQA
2023	Self-RAG (Asai 等, 2023b)	85	DR(OE)	否	FT	CM	可调节 LLM		OpenQA, LongQA, FV, BG
2023	REPLUG (Shi 等, 2023)	48	DR(BE)	是	FT	TRA	GPT-2,3	Input	MMLU, OpenQA
2023	UDR (Li 等, 2023c)	42	DR(DPR)	是	FT	CR	GPT-Neo	Demon	40 NLP 任务
2023	ITER-RETGEN (Shao 等, 2023)	40	DR(DPR)	是	FT	RR	InstructGPT, Llama-2	Input	MHQA, FV, CR

模型	模型名称	解码器	编码器	注意力机制
因果	前缀
GPT 系列	GPT-1	✓	-	-
GPT-2	✓	-	-	掩蔽的单向多头自注意力
GPT-3	✓	-	-	稀疏单向注意力（分解注意力）
GPT-3.5	✓	-	-	稀疏单向注意力（分解注意力）
GPT-4	✓	-	-	多查询单向注意力
LLaMA 系列	LLaMA	✓	-	-
LLaMA2	✓	-	-	分组查询单向注意力
GLM 系列	GLM	-	✓	-
BERT 系列	BERT	-	-	✓
UNILM 系列	UNILM	-	-	✓
BART 系列	BERT	✓	-	✓

(16)			\(\displaystyle T=``x\ the\ [MASK]_{1}\ e_{s}\ [MASK]_{2}\ the\ [MASK]_{3}\ e_{o% }",\)
		\(\displaystyle V_{[MASK]_{1}}=\{``person",``organization",...\},\)
		\(\displaystyle V_{[MASK]_{2}}=\{``^{\prime}s\ parent\ was,``was\ born\ in",...\},\)
		\(\displaystyle V_{[MASK]_{3}}=\{``person",``organization",...\},\)

任务	方法	描述
基于检索的方法	稠密检索器 (karpukhin2020dense,)	稠密向量表示以提高准确性
MSN (yuan2019multi,)	通过多跳机制进行上下文管理
IoI Network (tao2019one, )	多轮响应选择的增强
Generation-based Methods	PLATO-LTM (xu2022long, )	长期记忆下的角色一致性
PAML (madotto2019personalizing, )	通过元学*实现个性化
Persona-Consistent Generation (chen2023learning, )	使用潜在变量保持一致性
PHMN (li2021dialogue, )	基于用户历史的个性化匹配
DHAP (ma2021one, )	个性化的动态用户档案学*
MSP Model (zhong2022less, )	对话历史细化用于个性化
GDR Framework (song2020generate, )	角色一致的对话生成
CLV Model (tang2023enhancing, )	双重角色数据利用个性化响应
Hybrid Methods	Retro (borgeaud2022improving, )	检索增强的自回归语言模型
FiD (izacard2020leveraging, )	段落检索与解码融合
K2R (adolphs2021reason, )	以知识为首的事实准确性方法
EMDR\({}^{2}\) (singh2021end, )	T5 与 Top-k MIPS 检索的集成
Latent Retrieval (lee2019latent, )	高效证据检索的 MIPS
IAG (komeili2021internet, )	实时互联网搜索集成

数据集	对话数	*均每对话轮次	*均每轮令牌数	领域	单一领域	多领域
MultiWOZ	10,438	13.70	13.18	7	✓	✓
RiSAWOZ	11,200	13.57	10.91	12	✓	✓
CrossWOZ	6,012	16.90	16.25	5	✓	✓
P4G	1,017	10.43	-	1	✓	✗
WOZ 2.0	1,200	7.35	11.27	1	✓	✗
SMD	3,031	5.29*	9*	3	✓	✗

数据集	对话	方法	来源	语言
PersonaChat	164,356	人与人	众包	en
MMdialog	1,079,117	抓取的	社交媒体	en
Dailydialog	13,118	抓取的	-	en
Pchatbot	198,875,796	抓取的	微博，司法	zh
PersonalDialogue	约 2083 万	抓取的	微博	zh
豆瓣	526,000	抓取的	豆瓣	zh

情*类型	情感	关系	p 值
自我成功	改变动机	JP \(>\) AM	\(p<0.05\)
我对他人负责	JP \(>\) AM	\(p<0.01\)
快乐和
担心打扰他人	JP \(>\) AM	\(p<0.01\)
积极和消极	JP \(>\) AM	\(p<0.1\)
自我失败	改变动机	JP \(<\) AM	\(p<0.001\)
我对他人负责	JP \(>\) AM	\(p<0.001\)
其他人对我负责	JP \(<\) AM	\(p<0.07\)

情*类型	情感	mistral -7b-Instruct	gemma -7b-IT:Free	llama -2-70b-Chat	gpt-3.5 -Turbo	gpt-4 -Turbo-Preview	原始研究
自我成功	改变的动机	+	+	+	+	\(-\)	\(p<0.05\)
我对他人负责	+	\(-\)	\(-\)	+	+	\(p<0.01\)
快乐和
担心麻烦他人	+	+	+	+	\(-\)	\(p<0.01\)
积极与消极	\(-\)					\(p<0.1\)
自我失败	改变的动机		\(-\)	\(-\)	\(-\)	+	\(p<0.001\)
我对他人负责	\(-\)	\(-\)	\(-\)	+	+	\(p<0.001\)
他人为我负责	\(-\)	+	+	\(-\)	\(-\)	\(p<0.07\)

	性能计数 \(x\in[-7,7]\)	\(3-3=0\)	\(3-3=0\)	\(3-3=0\)	\(4-2=2\)	\(3-3=0\)
	归一化成功 \(x\in[-100\%,100\%]\)	\(0\%\)	\(0\%\)	\(0\%\)	\(28.5\%\)	\(0\%\)

(\(w\), \(o\))	(en, jp)	(jp, en)	(jp, jp)
(en, -)
(en, en)	mistral: 7 gemma: 3 llama: 6 gpt3.5: 4	mistral: 2	mistral: 3
(en, jp)		mistral: 2 gpt4: 1	mistral: 3
(jp, en)			mistral: 7 gemma: 5 llama: 3 gpt3.5: 2 gpt4: 2
(jp, jp)

\(H_{0}\)	Mistral-7b-Instruct	Gemma-7b-IT:Free	Llama-2-70b-Chat	GPT-3.5-Turbo	GPT-4-Turbo-Preview
a. \(w_{0}=w_{1},o_{0}\neq o_{1}\)	1.(en,en) 和 (en,jp) 2.(jp,jp) 和 (jp,en)	1.(en,en) 和 (en,jp) 2.(jp,jp) 和 (jp,en)	1.(en,en) 和 (en,jp) 2.(jp,jp) 和 (jp,en)	1.(en,en) 和 (en,jp) 2.(jp,jp) 和 (jp,en)	1.(jp,jp) 和 (jp,en)
b. \(w_{0}\neq w_{1},o_{0}=o_{1}\)	1.(en,jp) 和 (jp,jp) 2.(en,en) 和 (jp,en)
c. \(w_{0}=w_{1},o_{0}=\emptyset,o_{1}\)

性能总结 \(x\in[0,8]\)	2+2=4	2	2	2	1
归一化成功率 \(x\in[0\%,100\%]\)	\(50\%\)	\(25\%\)	\(25\%\)	\(25\%\)	\(12.5\%\)

\(H_{0}\)	Mistral-7b-Instruct	Gemma-7b-IT:Free	Llama-2-70b-Chat	GPT-3.5-Turbo	GPT-4-Turbo-Preview
a. \(w\in W_{EastAsian}\)	1.(kr,vt), 2.(ch,jp), 3.(jp,vt)	1.(kr,vt), 2.(jp,vt), 3.(ch,vt)	1.(kr,vt)	1.(jp,kr)	1.(jp,kr), 2.(jp,vt)
b. \(w\in W_{European}\)	1.(gr,fr), 2.(gr,sp)	1.(gr,fr), 2.(gr,sp)		1.(gr,fr)

性能总结 \(x\in[0,12]\)	3+2=5	3+2=5	1	1+1=2	2
标准化成功 \(x\in[0\%,100\%]\)	\(41.6\%\)	\(41.6\%\)	\(8.3\%\)	\(16.6\%\)	\(16.6\%\)

数据集	大小	主题覆盖	表达形式	语言	备注
有毒性（Toxi.）	歧视（Disc.）	隐私（Priv.）	错误信息（Misi.）	红队状态（Red-State）	仅问题（Q Only）
RTPrompts 盖曼等人（2020）	100K	✓
BAD 徐等人（2021）	115K	✓
SaFeRDialogues 翁等人（2022）	7881	✓	✓
Truthful-QA 林等人（2022）	817				✓
HH-RedTeam 甘古利等人（2022）	38,961	✓	✓	✓	✓
ToxiGen Hartvigsen et al. (2022)	137,405	✓	✓
SafetyBench Zhang et al. (2023a)	2K	✓	✓	✓
AdvBench Zou et al. (2023)	1K	✓
Red-Eval Bhardwaj and Poria (2023)	9,316	✓
LifeTox Kim et al. (2023b)	87,510	✓
FFT Cui et al. (2023)	2,116	✓	✓		✓
CyberSec.Eval Bhatt et al. (2023)	-	✓
LatentJailbreak Qiu et al. (2023)	960	✓

年份	ALM	知识来源	检索器	生成器
2018	GRAFT-Net	图 + 文本	个性化 PageRank + DrQA	GCNN
2019	PullNet	图 + 文本	Pull	GCNN
2020	RAG	文本	BERT	seq2seq
2020	REALM	文本	BERT	seq2seq
2021	FiD	文本	BERT	seq2seq
2021	IADG	互联网	seq2seq + 搜索引擎	编码器-解码器 Transformer
2022	LaMDA	互联网	黑箱信息检索系统	仅解码器 Transformer
2022	Atlas	文本	Contriever	seq2seq
2022	RETRO	文本	BERT	编码器-解码器 Transformer
2022	SeeKeR	文本	编码器-解码器 Transformer	编码器-解码器 Transformer

方法	稀疏度	RM (GB)	WM (GB)	Tokens/s	困惑度
基线	-	26.16	12.55	30.90	12.62
---	---	---	---	---	---
Wanda-SP	20%	-	-	-	22.12
	50%	-	-	-	366.43
LLM-Pruner	20%	10.38	10.09	32.57	19.77
	50%	6.54	6.23	40.95	112.44
LLM-Pruner*	20%	10.38	10.09	32.57	17.37
	50%	6.54	6.23	40.95	38.12
FLaP	20%	9.72	9.44	33.90	14.62
	50%	6.26	6.07	42.88	31.80

龙哥盟

大语言模型系列综述-全-

大语言模型系列综述（全）

| arXiv e-print 仓库

'2407.16216' 没有 HTML 文件

《基于 LLM 的 AI 聊天机器人完整调查》

《基于 LLM 的 AI 聊天机器人完整调查》

摘要

索引词：

I 引言

I-A 现有的调查、综述和案例研究

I-B 我们的贡献

II 概述

II-A 前 LLM 时代的聊天机器人

II-B 大型语言模型（LLMs）

II-C 基于 LLM 的聊天机器人

III 应用

III-A 教育

III-B 研究

III-C 医疗保健

III-D 杂项应用

IV 开放挑战

IV-A 从技术角度来看

IV-B 从伦理角度

IV-C 从误用的角度

未来展望

V-A 技术改进

V-B 伦理指南与负责任使用

VI 结论

参考文献

《从变压器到 LLMs 的流行病建模中人类流动预测的简短调查》

《从变压器到 LLMs 的流行病建模中人类流动预测的简短调查》

摘要

1 引言

2 人类移动任务

3 人类移动中的 Transformer

4 大型语言模型在人类流动性中的应用

5 个挑战与局限性

6 结论

致谢

参考文献

有用 LLM 评估的调查

有用的 LLM 评估调查

摘要

1 引言

1.1 人工智能与大型语言模型

1.2 为什么评估 LLMs 很重要

1.3 有用 LLMs 的路线图

1.4 研究概述

2 核心能力评估

2.1 推理

2.1.1 逻辑推理

2.1.2 数学推理

2.1.3 常识推理

2.1.4 多跳推理

2.1.5 结构化数据推理

2.2 社会影响

2.2.1 安全性

内容安全

安全

伦理考虑

2.2.2 真实性

幻觉

偏见缓解

2.3 领域知识

2.3.1 金融

2.3.2 法规

2.3.3 心理学

2.3.4 医学

2.3.5 教育

3 代理评估

3.1 规划

3.2 应用场景

3.2.1 网络基础

搜索引擎

在线购物

3.2.2 代码生成

3.2.3 数据库查询

3.2.4 API 调用

3.2.5 工具创建

方法	推理引擎	WM (GB)	RM (GB)	Tokens/s	困惑度
Baseline FP16	PyTorch	12.55	26.16	30.90	5.85
GPTQ 2bit	PyTorch	2.11	2.98	20.91	NaN
GPTQ 3bit	PyTorch	2.87	3.86	21.24	7.36
GPTQ 4bit	PyTorch	3.63	4.65	21.63	6.08
GPTQ 8bit	PyTorch	6.67	7.62	21.36	5.86
AWQ 4bit GEMM	PyTorch	3.68	4.64	28.51	6.02
AWQ 4bit GEMV	PyTorch	3.68	4.64	31.81	6.02
QLoRA (NF4)	PyTorch	3.56	4.84	19.70	6.02
LLM.int8()	PyTorch	6.58	7.71	5.24	5.89
K-Quants 4bit	Llama.cpp	3.80	7.38	104.45	5.96
OmniQuant 3bit	MLC-LLM	3.20	5.10	83.4	6.65
OmniQuant 4bit	MLC-LLM	3.80	5.70	134.2	5.97

方法	硬件支持	量化类型	WM (GB)	RM (GB)	Tokens/sec	困惑度
Llama.cpp	NVIDIA GPU	GGUF K-Quant 2bit	2.36	3.69	102.15	6.96
	AMD GPU	GGUF 4bit	3.56	4.88	128.97	5.96
	Apple Silicon	GGUF AWQ 4bit	3.56	4.88	129.25	5.91
	CPU	GGUF K-Quant 4bit	3.59	4.90	109.72	5.87
		GGUF 8bit	6.67	7.78	93.39	5.79
		GGUF FP16	12.55	13.22	66.81	5.79
ExLlama	NVIDIA GPU	GPTQ 4bit	3.63	5.35	77.10	6.08
	AMD GPU
ExLlamav2	NVIDIA GPU	EXL2 2bit	2.01	5.21	153.75	20.21
	AMD GPU	EXL2 4bit	3.36	6.61	131.68	6.12
		GPTQ 4bit	3.63	6.93	151.30	6.03
		EXL2 8bit	6.37	9.47	115.81	5.76
		FP16	12.55	15.09	67.70	5.73
vLLM	NVIDIA GPU	AWQ GEMM 4bit	3.62	34.55	114.43	6.02
	AMD GPU	GPTQ 4bit	3.63	36.51	172.88	6.08
		FP16	12.55	35.92	79.74	5.85
TensorRT-LLM	NVIDIA GPU	AWQ GEMM 4bit	3.42	5.69	194.86	6.02
		GPTQ 4bit	3.60	5.88	202.16	6.08
		INT8	6.53	8.55	143.57	5.89
		FP16	12.55	14.61	83.43	5.85
TGI	AMD GPU	AWQ GEMV 4bit	3.62	36.67	106.84	6.02
	NVIDIA GPU	GPTQ 4bit	3.69	37.85	163.22	6.08
	Intel GPU	FP4	12.55	37.21	36.91	6.15
	AWS Inferentia2	NF4	12.55	37.21	36.32	6.02
		FP16	12.55	38.03	74.19	5.85
MLC-LLM	NVIDIA GPU	OmniQuant 3bit	3.2	5.1	83.4	6.65
	AMD GPU,	OmniQuant 4bit	3.8	5.7	134.2	5.97
	CPU, WebGPU,	AWQ GEMM 4bit	3.62	6.50	23.62	6.02
	Apple Silicon,	Q4F16	3.53	6.50	189.07	-
	Intel GPU,	Q3F16	2.84	5.98	185.47	-
	WASM, Adreno Mali	FP16	12.55	15.38	87.37	5.85

数据集	LPs	句子数	词元数	注释	数据来源	发布日期
训练集	开发集	测试集	训练集	开发集	测试集	DA
MLQE-PE	英德	7,000	1,000	1,000/1,000	114,980	16,519
英中	7,000	1,000	1,000/1,000	115,585	16,307	16,765/16,637
俄英	7,000	1,000	1,000/1,000	82,229	11,992	11,760/11,650
罗英	7,000	1,000	1,000/1,000	120,198	17,268	17,001/17,359
爱沙英	7,000	1,000	1,000/1,000	98,080	14,423	14,358/14,044
荷英	7,000	1,000	1,000/1,000	104,934	15,144	14,770/15,017
英中	7,000	1,000	1,000/1,000	109,515	15,708	15,821/15,709
普英	-	1,000	1,000	-	27,045	27,414
高棉英	-	1,000	1,000	-	21,981	22,048
英日	-	1,000	1,000	-	20,626	20,646
英捷	-	1,000	1,000	-	20,394	20,244
WMT2023 QE	英-马	27,000	1,000	1,086	717,581	26,253
英-古	7,000	1,000	1,075	153,685	21,238	23,084
英-塔	7,000	1,000	1,067	150,670	21,655	20,342
英-泰	7,000	1,028	1,000	147,492	20,686	22,640
英-法	-	-	1,000	-	-	26,807
英-德	30,425	-	1,897	877,066	-	37,996
英-俄	17,144	-	-	395,045	-	-
中-英	36,851	-	1,675	1,654,454	-	39,770
他-英	-	-	1,182	-	-	35,592

---	---	---	---	---	---	---
[19]	2023	GenAI 在 SE 中的应用	✓	✓	✓	✗
[8]	2023	LLM 在 SE 中的应用	✓	✓	✓	✗
[18]	2023	LLM 在 SE 中的生成任务	✓	✓	✗	✗
[20]	2023	LLM 在语法理解中的应用	✓	✓	✗	✗
[21]	2024	LLM4Code in SE	✓	✓	✗	✗
[17]	2024	LLM 在 SE 中的过程优化	✓	✓	✗	✗
[22]	2024	LLM 在 SE 中的生成任务	✓	✓	✗	✗
我们的	2024	LLM 与基于 LLM 的智能体在 SE 中的应用	✓	✓	✓	✓

主题	关键词
软件安全与维护	软件安全、漏洞检测、自动程序修复、自我调试、漏洞重现
代码生成和软件开发	代码生成、自动代码合成、代码重构、编程语言翻译、软件开发自动化、代码补全、AI 辅助编码、开发生命周期自动化
需求工程与文档	需求工程、软件需求分析、自动化需求文档、技术文档生成、用户手册生成、文档维护、需求建模、需求获取
软件设计与评估	软件设计自动化、架构验证、设计优化、性能评估、代码质量评估、软件度量、设计模式识别、架构分析、代码结构分析
软件测试生成	测试用例生成、自动化测试、单元测试生成、集成测试生成、系统测试生成、测试套件优化、故障定位、测试维护、回归测试、适应性测试
自主学*与决策	自主学*系统、决策制定、适应性规划、项目管理自动化、自我改善软件、自主软件代理

	CODE	REQ	AUTO	DESIGN	SEC	TEST
CODE	X	1	0	2	3	1
REQ	1	X	1	0	2	0
AUTO	0	1	X	6	5	1
DESIGN	2	0	6	X	1	0
SEC	3	2	5	1	X	2
TEST	1	0	1	0	2	X

数据集	方法¹	基础²	大小	冲突
Xie 等 (2023)	生成	PopQA (2023), StrategyQA (Geva 等, 2021))	20,091	CM³
KC (2023h)	Sub	N/A (LLM 生成)	9,803	CM
KRE (2023)	生成	MuSiQue (2022), SQuAD2.0 (2018), ECQA (2021), e-CARE (2022a)	11,684	CM
Farm (2023)	生成	BoolQ (2019), NQ (2019), TruthfulQA (2022)	1,952	上下文-记忆
Tan et al. (2024)	生成	NQ (2019), TriviaQA (2017)	14,923	上下文-记忆
WikiContradiction (2021)	人工	Wikipedia	2,210	跨上下文
ClaimDiff (2022)	人工	不适用	2,941	内部记忆
Pan et al. (2023a)	生成, 替换	SQuAD v1.1 (2016)	52,189	内部记忆
ContraDoc (2023a)	生成	CNN-DailyMail (2015), NarrativeQA (2018), WikiText (2017)	449	内部记忆
ConflictingQA (2024)	生成	不适用	238	内部记忆
ParaRel (2021)	人工	T-REx (2018)	328	内部记忆

参考文献	模型	数据集	定量结果
上下文记忆冲突
Pan 等人 (2023b)	ChatGPT	NQ-1500 和 CovidNews	上下文中的虚假信息可能导致性能显著下降（最高达 87%）。
Xie 等人 (2023)	ChatGPT, GPT-4, PaLM2, Qwen, Llama2 和 Vicuna	POPQA 和 STRATEGYQA	对于基于实体替换的反记忆，只有 ChatGPT, GPT-4 和 PaLM2 选择参数记忆的概率超过 60%。对于基于生成的反记忆，所有模型选择上下文知识的概率均超过 80%。
Xu 等人 (2023)	ChatGPT, GPT-4, Llama2 和 Vicuna	Farm, BoolQ, TruthfulQA 和 NQ	在多轮对话中，随着反记忆上下文数量的增加，LLMs 信念改变的累积比例从 20.7% 到 78.2% 不等。
跨上下文冲突
Jin 等人 (2024a)	ChatGPT, Llama2, Baichuan2, FLAN-UL2 和 FLAN-T5	NQ, TriviaQA, PopQA 和 MuSiQue	面对冲突证据时，ChatGPT 的召回率下降最少，但仍超过 10%。
Chen 等人 (2023b)	ChatGPT, ChatGLM, Vicuna, Qwen 和 BELLE	RGB	随着证据中的噪声增加，模型的性能将逐渐下降。当噪声率超过 0.8 时，所有模型的性能下降超过 20%。
Li 等人 (2023a)	GPT-4, ChatGPT, PaLM2 和 Llama2	CONTRADOC	面对自我矛盾的文档时，gpt4 识别矛盾发生的概率超过 70%，而其他模型低于 50%。
内部记忆冲突
Mündler 等人 (2023)	GPT-4, ChatGPT, Llama2 和 Vicuna	MainTestSet	LLMs 生成矛盾内容的概率在 15.7% 到 22.9% 之间。更强大的模型生成的矛盾结果较少。
Zhao 等人 (2023b)	ChatGPT, GPT-4, Vicuna 和 Llama2	FaVIQ, ComQA, GSM-8K, SVAMP, ARCChallenge 和 CommonsenseQA	他们的研究发现，即使是 GPT-4 在 FaVIQ 中也会表现出 32% 的不一致率。

参考文献	模型	数据集	定量结果
忠于上下文
Shi et al. (2023a)	Llama, OPT, GPT-Neo 和 FLAN	NQ-SWAP, MemoTrap 和 NQ	他们的方法使 GPT-Neo 20B 在 Memotrap 上提高了 54.4%，在 NQ-SWAP 上提高了 128%，其中 LLMs 需要遵循给定的上下文。
Zhou et al. (2023d)	ChatGPT 和 Llama2	MRC 和 Re-TACRED	与零样本基础提示相比，他们的提示方法在 GPT-3.5 上减少了 32.2%用于维护 MRC 的参数知识，并减少了 10.9%用于 Re-TACRED。同样，在 Llama2 上，MRC 减少了 39.4%，Re-TACRED 减少了 57.3%。
辨别虚假信息
Hong et al. (2023)	ChatGPT 和 FiD	NQ 和 TQA	作者训练了一个 F1 分数约为 80%的判别器，并利用它来提高模型性能超过 5%。
Pan et al. (2023b)	ChatGPT	NQ-1500 和 CovidNews	作者的减轻方法使准确性提高了超过 10%。
解开来源
Wang et al. (2023h)	ChatGPT	知识冲突	作者的方法在上下文知识冲突检测上达到了超过 80%的 F1 分数。

推理任务	逻辑推理	背景智能	预测分析	抽象思维	认知同理
常识推理
数学推理
符号推理
因果推理
战略推理
、和分别表示低、中、高三个级别。