生成式-AI-是声明式的

生成式 AI 是声明式的

原文:towardsdatascience.com/generative-ai-is-declarative/

ChatGPT 于 2022 年推出,引发了生成式 AI 的繁荣。在这两年里,学者、技术专家和沙发上的专家们撰写了大量关于生成式 AI 技术基础和当前及未来生成式 AI 模型潜在能力的文章。

关于我们如何与这些工具互动——人机界面——的讨论出奇地少。我们与 AI 模型互动的点至少与创建它们的算法和数据一样重要。“没有失败可能性的成功不是成功,没有媒介抵抗的艺术不是艺术”(雷蒙德·钱德勒)。沿着这个思路,研究人机交互及其内在的优缺点是有用的。如果我们理解了“媒介的抵抗”,那么产品经理可以更明智地决定如何将生成式 AI 融入他们的产品中。高管可以更明智地决定投资哪些能力。工程师和设计师可以围绕工具的限制构建,并展示其优势。普通人可以知道何时使用生成式 AI,何时不使用。

想象一下走进一家餐厅点一个芝士汉堡。你不需要告诉厨师如何磨碎牛肉,如何设置烤架的温度,或者如何烤面包。相反,你只是描述你想要的东西:“我想要一个五分熟的芝士汉堡,加上生菜和番茄。”厨师解释你的要求,处理实施,并交付你想要的结果。这就是声明式交互的本质——关注“是什么”而不是“如何”。

现在,想象一下与一个像 ChatGPT 这样的大型语言模型(LLM)互动。你不需要提供如何生成响应的逐步指令。相反,你描述你想要的结果:“一个让我们能够对我们网站上的购买按钮进行 A/B 测试的用户故事。”LLM 解释你的提示,填补缺失的细节,并给出响应。就像点一个芝士汉堡一样,这是一种声明式交互模式。

解释制作芝士汉堡的步骤是一种命令式交互。我们的 LLM 提示有时感觉像是命令式的。我们可能会把提示语说成一个问题:“地球上最高的山是什么?”这相当于描述“‘地球上最高的山是什么?’这个问题的答案”。我们可能会把提示语说成一系列指令:“写一份关于所附报告的摘要,然后像产品经理一样阅读它,然后对报告写一些反馈。”但,再次强调,我们是在描述一个过程的结果,并提供了关于该过程的一些背景。在这种情况下,它是一系列描述性的结果——报告然后是反馈。

这是一种更有用的思考 LLMs 和生成式 AI 的方式。在某种程度上,它更准确;幕后的神经网络模型并不能解释为什么如何产生一个输出而不是另一个。更重要的是,当我们把这些模型视为声明式时,生成式 AI 的局限性和优势就更有意义,也更可预测。

LLMs 作为一种声明式交互模式

计算机科学家使用“声明式”这个术语来描述编程语言。SQL 是其中最常见的一种。代码描述了输出表和数据库中的过程确定如何检索和组合数据以产生结果。LLMs 与 SQL 或点芝士汉堡等声明式交互有许多共同的好处。

  1. 关注期望的结果:就像你描述你想要的芝士汉堡一样,你描述 LLMs 的输出。例如,“用三个要点总结这篇文章”关注的是结果,而不是过程。

  2. 实现的抽象化:当你点一份芝士汉堡时,你不需要知道厨师是如何准备的。当你向服务器提交 SQL 代码时,服务器会确定数据存储的位置、如何获取它以及如何根据你的描述进行聚合。作为用户的你不需要知道这些。在使用 LLMs 时,你不需要知道模型是如何生成响应的。底层机制被抽象化了。

  3. 填补缺失的细节:如果你在你的芝士汉堡中没有指定洋葱,厨师就不会加。如果你在 SQL 代码中没有指定字段,它就不会出现在输出表中。这就是 LLMs 与 SQL 等声明式编程语言略有不同之处。如果你要求 ChatGPT 创建一张“带有生菜和番茄的芝士汉堡”的图片,它可能也会展示一个放在芝麻面包上的汉堡,或者包括腌黄瓜,即使这些细节没有在你的描述中。LLMs 会根据上下文使用“平均”或“最可能”的细节来推断你省略的细节,并加入一些随机性。要求六次展示芝士汉堡图片;它可能展示三个带有切达奶酪的汉堡,两个带有瑞士奶酪,和一个带有胡椒杰克奶酪的汉堡。

与其他声明式交互形式一样,LLMs 存在一个关键的限制。如果你的描述模糊、含糊不清或缺乏足够的细节,那么结果可能不是你所期望的用户需要用足够的细节来描述结果

这解释了为什么我们使用 LLMs 和生成式 AI 时经常需要迭代以获得我们想要的结果。回到我们的芝士汉堡类比,从 LLMs 生成芝士汉堡的过程可能看起来是这样的。

  • “给我来一份中等熟度的芝士汉堡,加上生菜和番茄。”结果还包括腌黄瓜,并使用了切达奶酪。面包是烤过的。上面有美乃滋

  • “再做一次同样的东西,但这次不要放黄瓜,用胡椒杰克奶酪,而不是普通的蛋黄酱。”现在结果有了胡椒杰克奶酪,没有黄瓜。辣酱蛋黄酱涂在了底部*面包上,面包也不再烤过。

  • “再做一次同样的东西,但这次,把辣酱蛋黄酱放在上面那片面包上。面包应该是烤过的。”最后,你得到了你想要的芝士汉堡。

这个例子展示了人机交互中的一个主要摩擦点。人类在第一次尝试时很难用足够的细节描述他们想要的东西。

当我们要求一个芝士汉堡时,我们必须细化我们的描述以使其更具体(芝士的类型)。在第二代中,一些推断的细节(面包是否烤过)从一个迭代到下一个迭代发生了变化,因此我们不得不将这种具体性添加到我们的描述中。迭代是 AI-人生成的一个重要部分。

洞见:在使用生成式 AI 时,我们需要设计一个迭代的人机交互循环,使人们能够发现他们想要的细节,并据此完善他们的描述。

为了迭代,我们需要评估结果。在生成式 AI 中,评估非常重要。比如说你正在使用 LLM 来编写代码。如果你足够了解它,或者可以执行它并检查结果,你就可以评估代码质量。另一方面,假设性问题无法测试。比如说你问 ChatGPT,“如果我们把产品价格提高 5%,会怎么样?”一个经验丰富的专家可以阅读输出,并从经验中知道如果建议没有考虑到重要细节。如果你的产品是财产保险,那么提高 5%的保险费率可能意味着来自监管机构的反对,这是行业经验丰富的老兵会知道的事情。对于某个主题的非专家来说,没有方法可以判断模型推断出的“平均”细节是否适合你的特定用例。你不能测试和迭代。

洞见:当用户能够快速评估结果时,LLMs 工作得最好,无论是通过执行还是通过先验知识。

到目前为止的例子涉及一般知识。我们都知道什么是芝士汉堡。当你开始询问非一般信息——比如你下周什么时候可以预订晚餐——你就进入了新的摩擦点。

在下一节中,我们将思考不同类型的信息,我们可以期望 AI“知道”什么,以及这如何影响人机交互。

AI 知道什么,它什么时候知道的?

在上面,我解释了生成式 AI 是一种声明式交互模式,以及这种模式如何帮助我们理解其优势和劣势。在这里,我将探讨不同类型的信息如何创造更好或更差的人机交互。

理解可用的信息

当我们向 LLM 描述我们想要的内容,并且当它从我们的描述中推断出缺失的细节时,它会从不同的信息来源中获取。理解这些信息来源很重要。这里有一个关于信息类型的有用分类法:

  • 通用信息,用于训练基础模型。

  • 非通用信息,这是基础模型所不知的信息。

    • 新鲜信息,指那些新颖或变化迅速的信息,例如股票价格或时事新闻。

    • 非公开信息,例如关于你和你居住的地方的事实,或者关于你的公司、其员工、其流程或其代码库的事实。

通用信息与非通用信息

LLM 是基于大量书面语料库构建的。GPT-3 的很大一部分是在书籍、期刊、维基百科、Reddit 和 CommonCrawl(一个开源的网页爬取数据仓库)的组合上训练的。你可以把模型看作是那种数据的高度压缩版本,以一种整体的方式组织——所有类似的事物都紧密相连。当我们提交一个提示时,模型会根据这些事物在数据语料库中的出现方式,找到最接近的一组相关词汇。所以当我们说“cheeseburger”时,它知道这个词与“bun”(面包)、“tomato”(番茄)、“lettuce”(生菜)和“pickles”(泡菜)相关,因为它们在许多数据源中的上下文中都出现过。即使我们没有指定泡菜,它也会使用这种整体方法来填补空白。

这份训练信息是通用信息,一个很好的经验法则是这样的:如果一年前它出现在维基百科上,那么 LLM“知道”它。维基百科上可能会有新的文章,但在模型训练时它们并不存在。除非被告知,LLM 不会知道这些信息。

现在,假设你是一家公司,正在使用 LLM 为一个新的网络应用功能编写产品需求文档。像大多数公司一样,你的公司充满了自己的术语。它有自己的传说和历史,散布在数千条 Slack 消息、电子邮件、文档中,以及一些资深的员工,他们记得去年第一季度的那次会议。LLM 对此一无所知。它会从通用信息中推断出任何缺失的细节。你需要提供其他所有信息。如果它一年前不在维基百科上,LLM 就不知道它。结果的产品需求文档可能会充满关于你的行业和产品的通用事实,但可能缺少你公司特有的重要细节。

这属于非通用信息。这包括个人信息,任何需要登录或付费墙才能访问的内容,以及非数字化信息。这种非通用信息渗透到我们的生活中,将其纳入是使用生成式 AI 时摩擦的另一个来源。

非通用信息可以通过三种方式纳入生成式 AI 应用:

  • 通过模型微调(向基础模型提供大量语料库以扩展其参考数据)。

  • 在查询时检索并输入模型中(例如,检索增强生成或“RAG”技术)。

  • 由用户在提示中提供。

洞见:在设计任何人机交互时,你应该考虑需要哪些非通用信息,你将在哪里获取它,以及你将如何将其暴露给 AI。

新鲜信息

任何实时变化或新的信息都可以称为新鲜信息。这包括新事实,如当前事件,也包括经常变化的事实,如你的银行账户余额。如果新鲜信息在数据库或可搜索的资源中可用,那么它需要被检索并纳入应用程序中。为了从数据库中检索信息,LLM 必须创建一个查询,这可能需要用户未包含的特定细节。

这里有一个例子。我有一个提供股市信息的聊天机器人。作为用户,你输入以下内容:“苹果的当前价格是多少?最近是增加还是减少?”

  • LLM 的训练数据中没有苹果公司的当前价格。这是新鲜的非通用信息。因此,我们需要从数据库中检索它。

  • LLM 可以读取“苹果”,知道你在谈论的是电脑公司,其股票代码是 AAPL。这些都是通用信息。

  • 提示中的“增加或减少”部分怎么办?你没有指定在什么时间段内——过去一天、一个月、一年内的增加?为了构建数据库查询,我们需要更多细节。LLM 在何时请求细节以及何时填充细节方面做得不好。应用程序可能会轻易地拉取错误的数据并提供意外或不准确的答案。只有你知道这些细节应该是什么,这取决于你的意图。你必须在你的提示中更加具体。

这个 LLM 应用程序的设计师可以通过指定预期查询所需参数来改进用户体验。我们可以要求用户明确输入时间范围或设计聊天机器人,如果未提供,则要求用户提供更具体的细节。在两种情况下,我们都需要有一个特定的查询类型,并明确设计如何处理它。LLM 将不知道如何在不辅助的情况下完成这项工作。

洞见:如果用户期望更具体的输出类型,你需要明确要求足够的细节。细节太少可能会产生低质量的输出。

非公开信息

如果相关信息可以在数据库中访问,则可以将非公开信息纳入 LLM 提示中。这引入了隐私问题(LLM 是否应该能够访问我的医疗记录?)以及当结合多个非公开信息来源时的复杂性。

假设我有一个聊天机器人,它能帮助你预订晚餐。作为用户,你输入以下内容:“帮我预订一个有很好那不勒斯披萨的地方。”

  • LLM 知道那不勒斯披萨是什么,并能推断出“晚餐”意味着这是为晚餐准备的。

  • 要做好这项任务,它需要关于你位置的信息,你附近的餐厅及其预订状态,甚至像饮食限制这样的个人详细信息。假设所有这些非公开信息都存储在数据库中,将它们全部整合到提示中需要大量的工程工作。

  • 即使 LLM 能为你找到“最佳”餐厅并预订座位,你能确信它已经正确地做到了吗?你从未指定你需要为多少人预订座位。由于只有你知道这个信息,应用需要提前询问。

如果你正在设计这个基于 LLM 的应用,你可以做出一些深思熟虑的选择来帮助解决这些问题。我们可以在用户注册应用时询问他们的饮食限制。其他信息,如用户当天的日程,可以通过提示提示或显示默认提示选项“显示我明天晚上 7 点的两人预订”来提供。提示提示可能不如一个能做所有事的机器人那样感觉“自动化”,但它们是收集和整合非公开信息的直接方式。

一些非公开信息量很大,在给出提示时无法快速收集和处理。这些需要在批量中微调或在提示时检索并整合。一个回答关于公司人力资源政策信息的聊天机器人可以从非公开人力资源文档的语料库中获取这些信息。你可以在提前通过向模型提供语料库来微调模型。或者,你可以实现检索增强生成技术,在语料库中搜索相关文档并总结结果。无论哪种方式,响应的准确性和时效性都取决于语料库本身。

洞见:在设计人工智能应用时,你需要意识到非公开信息及其获取方式。其中一些信息可以从数据库中提取。有些则需要来自用户,可能需要提示建议或明确询问。

如果你理解了信息类型,并将人机交互视为声明式,你就能更容易地预测哪些人工智能应用会有效,哪些不会。在下一节中,我们将探讨 OpenAI 的操作员和深度研究产品。使用这个框架,我们可以看到这些应用在哪些方面做得不足,在哪些方面表现良好,以及原因是什么。

从声明式角度批判 OpenAI 的操作员和深度研究

我现在已经解释了将生成式人工智能视为声明式如何帮助我们理解其优势和劣势。我还确定了不同类型的信息如何创造更好或更差的人机交互。

现在,我将通过批评 OpenAI 的两个最近的产品——操作符和深度研究——来应用这些想法。诚实地讨论 AI 应用的不足是很重要的。在更多数据上训练的更大模型或使用新技术可能在某一天解决一些生成式 AI 的问题。但其他问题源于人机交互本身,只能通过适当的设计和产品选择来解决。

这些批评展示了框架如何帮助识别局限性以及如何解决这些问题。

操作符的限制

平台者记者 Casey Newton 在一篇主要积极的文章中评论了操作符。牛顿广泛且乐观地报道了 AI。然而,牛顿还是忍不住指出了一些操作符令人沮丧的局限性。

[操作符]可以代表你采取一些 AI 系统之前未曾有过的行动——但到目前为止,它需要大量的手动操作,可能会让你感到沮丧,甚至可能让你感到绝望。

我与操作符最令人沮丧的经历是我第一次尝试:尝试订购杂货。“帮助我在 Instacart 上购买杂货,”我说,期待它会问我一些基本问题。我住在哪里?我通常从哪个商店购买杂货?我想要什么类型的杂货?

它没有问我任何这些问题。相反,操作符在浏览器标签中打开了 Instacart,并开始在爱荷华州的迪莫因寻找杂货店中的牛奶。

当从声明性角度看待“帮助我在 Instacart 上购买杂货”的提示时,它描述了使用 Instacart 购买杂货的情况。它并没有包含人们购买杂货所需的大量信息,比如确切要买什么,何时会送货,以及送到哪里。

值得重复的是:除非在用例中明确编程以这样做,否则 LLMs 在知道何时提出额外问题方面并不擅长。牛顿给出了一个模糊的要求,并期待后续问题。相反,LLM 用“平均”填补了所有缺失的细节。平均商品是牛奶。平均位置是爱荷华州的迪莫因。牛顿没有提到何时安排送货,但如果“平均”送货时间是明天,那么这很可能是默认设置。

如果我们专门为此应用程序设计订购杂货,考虑到 AI 的声明性特性和它“知道”的信息,那么我们可以做出深思熟虑的设计选择来提高功能。我们需要提示用户提前指定他们想要订购杂货的时间和地点(非公开信息)。有了这些信息,我们可以找到他们附近的合适杂货店。我们需要访问该杂货店的库存(更多非公开信息)。如果我们能访问用户的先前订单,我们还可以预先填充一个包含他们典型订单项目的购物车。如果没有,我们可能会添加一些建议的项目并引导他们添加更多。通过限制用例,我们只需要处理两种非公开信息来源。这比操作员的“全能代理”方法更容易处理。

牛顿还提到,这个过程花费了八分钟来完成,“完成”意味着操作员完成了从下单到所有事情。这是一个很长的时间,而且几乎没有人工迭代。正如我们之前所说的,迭代循环对于人机交互非常重要。一个设计得更好的应用程序会在过程中生成更小的步骤并提供更频繁的交互。我们可以提示用户描述要添加到购物清单中的内容。用户可能会说,“把烧烤酱加到清单上”,然后看到清单更新。如果他们看到基于醋的烧烤酱,他们可以通过说,“用适合鸡肉的烧烤酱替换那个”,在它被替换为蜂蜜烧烤酱时可能会更满意。这些频繁的迭代使 LLM 成为一个创造性的工具,而不是一个全能的代理。全能代理在营销中看起来很神奇,但更引导性的方法提供了更多效用,体验更少挫败感,更多乐趣。

在文章的其他部分,牛顿举了一个操作员表现良好的例子:“为高中生准备一份关于《了不起的盖茨比》的课程计划,将其分解成可读的片段,然后创建与共同核心学习标准相关的作业和联系。”这个提示描述了一个具有更多具体性的输出。它完全依赖于一般信息——《了不起的盖茨比》、共同核心标准以及一般意义上的作业是什么。这种一般信息的用例更适合 AI 生成,而且提示在请求上既明确又详细。在这种情况下,创建提示时提供的指导非常少,因此效果更好。(事实上,这个提示来自伊桑·莫利克,他使用它来评估 AI 聊天机器人。)

这就是像 Operator 这样的通用 AI 应用的风险。结果的质量在很大程度上依赖于用户提供的用例和具体性。具有更具体用例的应用程序允许更多的设计指导,并可以更可靠地产生更好的输出。

深度研究的局限性

牛顿还回顾了深度研究,根据 OpenAI 的网站,这是一个“使用推理来综合大量在线信息并为你完成多步研究任务的代理。”

深度研究是在牛顿对 Operator 的回顾之后出现的。牛顿选择了一个故意棘手的提示,以刺激工具在新鲜信息和非通用信息方面的某些局限性:“我想看看 OpenAI 的代理在研究一个不到一天的故事时会如何表现,其中大部分报道都隐藏在代理无法访问的付费墙后面。果然,机器人比预期的更难应对。”

在文章的结尾附近,牛顿详细阐述了他通过深入研究注意到的一些不足之处。

OpenAI 的深度研究遭受了几乎所有 AI 产品都有的设计问题:它的超级能力完全不可见,必须通过令人沮丧的反复试验和错误的过程来利用。

一般而言,你对某件事了解得越多,我认为深度研究就越有用。这可能有些反直觉;也许你期望一个 AI 代理能够很好地帮助你熟悉一个刚刚在工作中落在你手中的重要主题,例如。

在我早期的测试中,情况正好相反。深度研究在深入钻研你已经有些专长的主题方面表现出色,让你能够探索对你来说是具体的信息、分析类型或新想法。

“令人沮丧的反复试验和错误”展示了牛顿的期望与许多生成式 AI 应用的一个必要方面之间的不匹配。一个好的回应需要比用户在第一次尝试中可能给出的信息更多。挑战在于设计应用程序并设定用户的期望,使得这种交互不是令人沮丧的,而是令人兴奋的。

牛顿更为尖锐的批评是,该应用程序需要用户对主题已经有所了解才能有效运行。从我们的框架角度来看,这是有道理的。你对一个主题了解得越多,你就能提供越多的细节。随着你不断地迭代,对主题的了解有助于你观察和评估输出。如果没有很好地描述或评估结果的能力,用户就不太可能使用该工具生成好的输出。

一种专为律师设计的深度研究版本,用于执行法律研究,可能会非常强大。律师在描述法律事务方面拥有广泛且常见的词汇,他们更有可能看到结果并知道它是否合理。尽管生成式 AI 工具是可出错的,但该工具应专注于生成-评估循环,而不是撰写法律文件的最终草稿。

文章还突出了与 Operator 相比的许多改进。最值得注意的是,机器人会提出澄清问题。这是该工具最令人印象深刻的地方。毫无疑问,这得益于深度搜索有一个专注于检索和总结一般信息的用例,而不是“包罗万象”的方法。有一个专注的用例缩小了可能的交互集,让你能够更好地设计提示流程的指导。

生成式 AI 的良好应用设计

设计有效的生成式 AI 应用需要对用户如何与技术互动、他们需要的信息类型以及底层模型的限制进行深思熟虑的考虑。以下是一些指导生成式 AI 工具设计的原则:

1. 限制输入并专注于提供细节

应用是输入和输出。我们希望输出是有用且令人愉悦的。通过为用户提供对话式聊天机器人界面,我们允许有大量的潜在输入,这使得保证有用的输出变得具有挑战性。一种策略是限制或引导输入到一个更可管理的子集。

例如,FigJam,一个协作式白板工具,使用预设的模板提示来创建时间线、甘特图和其他常见的白板元素。这为输入提供了一些结构和可预测性。用户仍然可以自由描述更详细的细节,如颜色或每个时间线事件的详细内容。这种方法确保 AI 有足够的特定性来生成有意义的输出,同时给予用户创意控制。

2. 将频繁的迭代和评估设计到工具中

在紧密的生成-评估循环中进行迭代对于完善输出并确保其满足用户期望至关重要。OpenAI 的 Dall-E 在这方面做得很好。用户可以快速迭代图像提示并细化描述以添加更多细节。如果你输入“一个放在盘子上的芝士汉堡的图片”,你可能会通过指定“带有胡椒杰克芝士”来添加更多细节。

AI 代码生成工具工作得很好,因为用户可以立即运行生成的代码片段以查看其是否工作,从而实现快速迭代和验证。这个快速评估循环产生了更好的结果和更好的编码体验。

生成式 AI 应用的开发者应尽早、频繁地将用户纳入循环,以吸引人的方式而非令人沮丧的方式。开发者还应考虑用户的认知水平。具有领域专业知识的用户可以更有效地迭代。

回到 FigJam 的例子,应用中的提示和图标迅速传达“这是我们所说的思维导图”或“这是我们所说的甘特图”给那些想要生成这些工具但不知道术语的用户。给用户一些基本词汇可以帮助他们更快地生成期望的结果,减少挫败感。

3. 注意所需信息的类型

LLM 在涉及基础训练集中已有通用知识的任务上表现出色。例如,撰写课堂作业涉及吸收通用信息,综合它,并产生书面输出,因此 LLM 非常适合这项任务。

需要非通用信息的用例更复杂。设计师和工程师应该提出的一些问题包括:

  • 这个应用需要新鲜信息吗? 可能是关于当前事件或用户当前银行账户余额的知识。如果是这样,需要检索并整合这些信息到模型中。

  • LLM 需要了解多少非通用信息? 如果信息量很大——比如公司文档和通信的语料库——那么模型可能需要在批量调整之前进行微调。如果信息量相对较小,查询时的检索增强生成(RAG)方法可能就足够了。

  • 需要多少非通用信息来源——小而有限的还是可能无限的? 通用代理如 Operator 面临着可能无限的非通用信息来源的挑战。根据用户的需求,它可能需要访问他们的联系人、餐厅预订列表、财务数据,甚至其他人的日历。一个专门的餐厅预订聊天机器人可能只需要访问 Yelp、OpenTable 和用户的日历。对于少量已知数据源,协调访问和身份验证要容易得多。

  • 是否存在只能从用户那里获得的具体上下文信息? 以我们的餐厅预订聊天机器人为例。用户是为仅自己预订吗?可能不是。“有多少人和谁”是只有用户才能提供的细节,这是只有用户知道的非公开信息的一个例子。我们不应该期望用户在没有指导的情况下提前提供这些信息。相反,我们可以使用提示建议来确保他们包含这些信息。我们甚至可能设计 LLM 在细节未提供时询问这些问题。

4. 专注于特定用例

广泛的通用聊天机器人往往难以提供一致的结果,因为用户需求复杂多变。相反,专注于特定用例,在这些用例中,通过深思熟虑的设计可以减轻 AI 的不足。

窄化范围有助于我们解决上述许多问题。

  • 我们可以识别出用例中的常见请求,并将这些请求纳入提示建议中。

  • 我们可以设计一个与我们要生成的事物类型很好地工作的迭代循环。

  • 我们可以识别非通用信息的来源,并制定解决方案将其纳入模型或提示中。

5. 翻译或摘要任务效果良好

ChatGPT 的一个常见任务是重写内容以不同的风格,解释一些计算机代码的功能,或者总结一份长文档。这些任务涉及将一组信息从一种形式转换为另一种形式。

我们对非通用信息和上下文也有相同的担忧。例如,如果一个聊天机器人被要求解释一个代码脚本,除非提供了相关信息,否则它不知道该脚本所属的系统。

但总的来说,转换或摘要信息的任务不太可能遗漏细节。根据定义,你已经提供了它需要的细节。结果应该以不同或更简洁的形式包含相同的信息。

规则的例外

有一种情况,即使你打破任何或所有这些规则也没有关系——当你只是玩乐的时候。大型语言模型(LLMs)本质上是有创造性的工具。它们可以是一幅画布,一个沙盒,一张空白纸。迭代仍然很重要;用户希望在创作过程中看到他们正在创造的东西。但由信息不足或遗漏的细节导致的意外结果可能会增加体验。如果你要求一份芝士汉堡的食谱,你可能会得到一些有趣或有趣的成分。如果风险很低,过程本身就是一种奖励,那么不必担心规则。

posted @ 2026-03-28 09:43  布客飞龙II  阅读(8)  评论(0)    收藏  举报