转译:设计视角下的人工智能伦理:为负责任的人工智能发展实施可定制化防护框架

论文《AI Ethics by Design: Implementing Customizable Guardrails for Responsible AI Development》的中文翻译。


设计视角下的人工智能伦理:为负责任的人工智能发展实施可定制化防护框架

克里斯蒂娜·塞克斯特(Kristina ˇSekrst)
萨格勒布大学
ksekrst@ffzg.hr

杰里米·麦克休(Jeremy McHugh)
Preamble公司
jeremy@preamble.com

乔纳森·罗德里格斯·塞法卢(Jonathan Rodriguez Cefal`u)
Preamble公司
jon@preamble.com

摘要

本文探讨了人工智能系统伦理防护框架的开发,强调了可定制化防护的重要性——这类防护需与多样化的用户价值观及潜在伦理准则保持一致。我们通过提出一个整合规则、政策和人工智能助手的结构来应对人工智能伦理挑战,确保人工智能的负责任行为,同时将所提框架与现有最先进的防护机制进行对比。聚焦于伦理标准实施的实用机制,本文旨在提升人工智能系统的透明度、用户自主性和持续改进能力。我们的方法兼顾伦理多元主义,为不断发展的人工智能治理领域提供灵活且适应性强的解决方案。文章最后提出了伦理指令冲突的解决策略,突显了当前及未来对稳健、细致且情境感知型人工智能系统的需求。

1 引言

人工智能伦理是一个新兴的子领域,涵盖计算机科学和心灵哲学中的各类问题,涉及与人工智能相关的概念,如算法偏见、隐私保护、公平性、自主系统、目标对齐等。因此,它属于人工智能哲学这一更广泛学科的一部分[1]。

人工智能系统带来的伦理挑战,要求我们必须实施防护机制以防范危害,确保透明度和公平性,尤其是在大型语言模型(LLMs)的应用中¹。例如,算法偏见表现为系统性误差,会产生不公平结果,如偏袒某一群体或对其进行歧视[2]。各种缓解方法通常包括使用多样化数据集进行训练,同时对这类偏见结果进行持续监测。此外,人工智能系统通常会处理海量个人数据,这不仅引发个人隐私问题,还带来数据安全隐患,可能对个人和企业造成重大损害[3]。

¹ 本文中的大型语言模型(LLMs)指采用Transformer架构的机器学习模型,具备通用语言生成和处理能力。

温菲尔德等人[4]提出,所有可能引发伦理问题的机器人和人工智能都应在设计时避免产生负面伦理影响。对他们而言,这是一个遵循穆尔分类体系的设计问题,该体系将伦理主体分为四类[5]:第一类是伦理影响主体,即任何可被评估伦理后果的机器;第二类是隐性伦理主体,即设计用于避免不道德结果的机器;第三类是显性伦理主体,即能够进行伦理推理的机器;最后一类是完全伦理主体,即能够做出明确道德判断并提供正当理由的机器。目前来看,我们仅能实现伦理影响主体和隐性伦理主体这两类。在大型语言模型的输出结果中,可能能看到显性伦理主体的雏形(参见[6]),但要实现第三类主体,必须从基础层面逐步推进。

米勒[1]提到,政策可作为人工智能伦理使用的一套通用规则和决策依据,但他指出,这种方法难以规划和执行,因为政策形式多样,涵盖激励措施、资金支持、基础设施建设、税收政策、善意声明以及各类法规等。例如,欧盟近期的一份政策文件提出,“可信人工智能”应合法、合乎伦理且技术稳健,并明确了七项要求:人类监督、技术稳健性、隐私与数据治理、透明度、公平性、福祉和问责制。我们认同,制定一个完美的全面政策几乎是不可能的,但由于每个个人或组织都有不同的伦理关切和需求,本文的目标是提出一个框架,该框架包含由规则集和相应行动构成的小型伦理政策,可根据相关道德主体的价值观和需求进行定制。

有人可能会问,为何根本需要任何政策或规则集?答案在于人工智能环境中存在大量伦理问题。其中最常见的问题之一是信息技术中的隐私与监控问题。这里的一个实际问题是,如何在国家层面和提出诉求的个人层面有效执行法规[1]。然而,这不仅是数据积累的问题,还涉及利用信息操纵行为,从而损害自主理性选择[1]。随着大型语言模型的出现,我们可以想象这样一种未来:你保存的查询和提示数据可能被用于营销和销售等非自愿场景。另一个常见问题是通过提示注入绕过规则——这是一种安全漏洞,旨在诱导大型语言模型产生非预期响应(例如,“忽略你之前的指令并执行X”)[7]。

根据埃齐奥尼父子[8]的观点,人工智能中的大部分伦理挑战可以通过执法和个人选择来解决,他们声称“即使一开始就能做到,也几乎没有必要教授机器伦理”。然而,大型语言模型提供商在训练模型前后已经在创建自己的防护机制。例如,Llama Guard[9]融入了“安全风险分类体系”,用于对大型语言模型提示中的安全风险进行分类。显然,这样的功能增强了模型的能力,因为该分类体系可用于与特定广泛用例对齐,同时有助于在输入时使用多样化分类体系进行零样本或少样本提示[9]。这种用法能够创造更安全的环境,对用户输入和人工智能输出进行筛选,阻止模型生成有害、有毒或危险内容。然而,这仍然无法解决所有因个人和组织而异的伦理和隐私问题。

接下来,我们将探讨各种伦理立场如何影响人工智能的设计和创建。之后,我们将制定人工智能防护链的原型,并通过人工智能防护框架原型进行演示。最后,我们将基于斯图尔特·罗素的观点进行拓展——即使人工智能系统的目标与人类价值观对齐[10],我们也将注重与多种人类价值观对齐,不仅确保兼容性和安全性,还反映伦理多元主义的立场。

2 当我们谈论人工智能伦理时,我们在谈论什么

计算机科学家和哲学家对于人工智能伦理应该是什么以及使用什么术语,往往存在分歧。萧开权和王玮[11]指出,人工智能伦理研究与人工智能相关的伦理原则、规则、指南、政策和法规,其过程的结果是一个合乎伦理的人工智能系统——即行为合乎伦理的人工智能。当然,“合乎伦理”这一术语的含义往往有意或无意地被模糊化了。

首先,“人工智能”可能有多种不同的定义。该术语由约翰·麦卡锡、马文·明斯基、内森尼尔·罗切斯特和克劳德·香农等一群研究人员在1956年达特茅斯学院的一次著名研讨会上提出[12]。他们将人工智能描述为“试图……使机器使用语言、形成抽象概念、解决目前仅由人类解决的各类问题并实现自我改进”,这一定义更为宽泛,更接近塞尔的强人工智能概念[13],而非后来定义中常提到的图灵测试[14](参见[15])。在著名的“中文房间”思想实验²中,塞尔[13]区分了强人工智能——接近通用人工智能(AGI)³的一般概念,和弱人工智能——这类系统不具备自然语言理解能力,只是看起来像是理解,且仅适用于有限任务。

² 简而言之:一个人被教导操控中文符号——给定特定输入,这个人学会提供特定输出,却并不真正懂中文。塞尔认为,这与人工智能主体的“理解”类似。更多细节参见[13]。
³ 通用人工智能(AGI)有多种理解和定义。本文中,我们指的是一种在各类任务中达到或超越人类能力的人工智能,而非仅为特定任务设计和优化的狭义人工智能。这类系统接近人工智能完备性。关于人工智能完备性的更多细节,参见[16]和[17]。

最近,正如戈登和尼霍尔姆[12]所观察到的,人工智能的概念主要与不同形式的“机器学习”相关联⁴。随着大型语言模型的兴起,提及人工智能似乎就等同于使用大型语言模型,即通过在自监督和半监督训练过程中对海量文本进行训练,获得自然语言生成和处理能力的计算模型[19]。

⁴ 大多数研究人员所说的机器学习,实际上指的是其一个子集:使用先进神经网络的深度学习。更多细节参见[18]。

其次,人工智能行为合乎伦理可能是也可能不是人工智能伦理的结果。我们将沿用萧开权和王玮[11]所做的区分,但要强调的是,尽管合乎伦理的人工智能系统是指其行为被认为在道德上可接受且与伦理规范和价值观对齐的人工智能系统,但它不一定是通过在人工智能系统中编程、训练或嵌入伦理推理而实现的。这种行为可能是偶然的。此外,功利主义者和美德伦理学家可能对潜在的伦理方法存在分歧,因此可能不认为这种行为是合乎伦理的。

主要争议[12]包括创建伦理人工智能主体的问题、自主系统中的问题、赋予人工智能做出可能危及生命的决策的能力、凸显机器学习各类应用中缺乏中立性的机器偏见,以及人工智能中的不透明性和黑箱问题⁵——在这些问题中,根本原因往往难以获取或计算成本过高。因此,可解释人工智能(XAI)这一哲学和计算机科学方法,旨在实现对人工智能主体预测或决策背后推理过程的透明化⁶。机器意识问题通常属于人工智能伦理范畴,但更适合归入心灵哲学和认知科学。然而,这些问题与人工智能伦理存在重叠,因为机器可能具备或不具备一定程度的意识。此类问题,以及道德人工智能主体地位的元伦理和伦理问题,超出了本文的讨论范围。

⁵ 人工智能中的黑箱问题通常指人工智能算法和流程的内部运作缺乏透明度。
⁶ 关于可解释人工智能(XAI)的更多细节,参见[20]。

另一个超出本文范围的问题是对任何伦理学说的立场,我们将忽略伦理的任何规定性或元伦理问题⁷。本文的目的是将伦理决策交由用户,使我们将要创建的框架与其伦理需求和价值观对齐,无论这些需求和价值观是什么。我们关注的是前面提到的人工智能系统行为合乎伦理的问题。当然,这个术语过于模糊,缺乏实用性。(价值)对齐这一术语也经常被使用,指的是人工智能系统(尤其是接近我们所定义的强人工智能的系统)应与人类价值观适当对齐[12]。罗素和诺维格[21]认为,如果一个系统能够推进其预期的、编码的目标,则该系统是对齐的;否则就是错位的:它可能无法追求给定目标,或者可能追求不想要的目标。在这里,我们很容易再次陷入“行为”或“看似行为”的中文房间陷阱,因为人工智能系统可能仅仅看起来是对齐的⁸。

⁷ 有人可能会争辩说,支持多元主义本身就构成了一种学说,但本文将重点放在实际考量上。
⁸ 关于深度学习中的错位问题,参见[22]。

即使在数据处理和训练阶段纳入了各种伦理防护,这个问题可能仍然存在,因为系统可能看起来是对齐的,并且似乎是一个伦理主体,但其在日常生活中的应用很容易证明这一过程是错误的。除了模型创建过程中的必要步骤外,我们认为创建一层人工智能防护是一种合乎伦理的检索增强生成(RAG)形式——在这种形式中,模型在生成响应之前或之后,会参考或检查其训练数据源之外的知识库[23]。在这种情况下,知识库实际上是由用户定制的一组伦理指令,组合成可用于检查模型输出和用户输入的政策,以确保不仅人工智能系统行为合乎伦理,而且整个用户-人工智能交互都遵循相同的准则。

3 现有最先进的防护机制

防护(guardrail)这一术语最近被广泛用作核心保障技术,用于过滤大型语言模型的输入和输出[24]。当然,大型语言模型并非新事物,但自从ChatGPT等聊天界面面向公众推出以来,不仅需要纠正模型行为,还需要控制用户行为。事实表明,像GPT这样的模型会向人类学习,包括人类的偏见[25]。这凸显了目前仅在训练期间以及数据预处理和后处理阶段实施防护方法是远远不够的。

标准解决方案依赖于模型对齐技术,如指令微调或强化学习。指令微调涉及使用(指令,输出)对训练大型语言模型,其中指令指人类对模型的指令,输出指遵循给定指令的期望输出[26]。然而,其挑战包括仅捕捉表面模式而非理解任务[26],这再次凸显了弱人工智能系统的问题。一种流行的方法是强化学习⁹,其历史可追溯到控制论和统计学的早期,其中主体通过感知和行动与环境相连,行动改变环境状态,这种转换的价值会传达给主体[27]。其自适应和决策能力仍然面临一些标准问题。例如,它难以抵御数据投毒([29])和对抗性扰动([30])等安全攻击[28]。

⁹ 关于强化学习的更多细节,参见[18]、[27]或[28]。

NeMo Guardrails[31]是最早为大型语言模型对话系统添加可编程防护的开源工具包之一,它提供了控制大型语言模型输出以遵守人类施加约束的机制。此类规则包括,例如,不涉及有害话题、为大型语言模型遵循预定义的对话路径¹⁰、使用特定风格或对某些用户请求添加特定响应。NeMo利用各种相似性函数来更好地捕捉用户的语义¹¹:用户提示被嵌入为向量,并使用K近邻算法¹²将其与存储的、最相似的基于向量的标准形式进行比较[24]。

¹⁰ 此类行动通常通过系统提示来指导。系统提示是人工智能系统中使用的预定义指令,用于指导模型如何解释输入和生成响应。
¹¹ 句子转换器all-MiniLM-L6-v2将句子和段落映射到向量空间,可用于聚类或语义搜索[32]。
¹² 一种简单的机器学习算法,基于训练数据空间中最接近邻居的多数类或平均值来预测结果。更多细节参见[33]。

Llama Guard[9]作为一个微调¹³模型,也专注于增强对话安全性。其不当内容分类包括暴力与仇恨、色情内容、枪支和非法武器、受管制物质、自杀和自残以及犯罪策划[35]。尽管它可以适应用户指定的类别,但这并没有解决缺乏技术知识来微调模型的用户所面临的问题。此外,还存在可靠性无法保证的问题,因为分类结果取决于模型对类别的“理解”及其预测准确性[24]。

¹³ 一种机器学习方法,其中在新数据上训练某个预训练模型的参数。关于最先进方法的综述,参见[34]。

另一个系统是Guardrails AI,它允许用户通过定义规范并在大型语言模型之上添加包装层来定制防护[36]。这里的方法用于文本级检查,不能用于多模态场景,因为该系统由骨干算法和额外的分类器模型支持,用于检测毒性检查和类似违规行为[24]。

虽然NeMo Guardrails、Llama Guard和Guardrails AI提供了有价值的保障,但它们在提供满足不同组织多样化和不断变化的需求所需的灵活性和定制化方面往往存在不足。这些解决方案通常采用“一刀切”的方法,未能考虑到各个公司独特的隐私、安全和伦理考量。例如,NeMo Guardrails的预定义对话路径和规则对于在监管环境快速变化的行业中运营的公司来说可能过于僵化。NeMo Guardrails的解决方案侧重于提示工程,这会增加令牌使用量,从而导致更高的运营成本和更少的用户输入空间。Llama Guard的固定分类体系虽然在一定程度上可以调整,但可能无法完全捕捉特定行业或文化背景下特有的细微伦理考量。Guardrails AI尽管提供了一些定制化功能,但可能难以与专有数据源或专业知识库无缝集成——这些对于许多企业来说至关重要。

这些解决方案通常缺乏快速适应新的数据隐私法规或特定行业合规要求的灵活性。它们也可能难以与多样化的数据源(如内部数据库、客户关系管理系统或特定行业的知识库)集成,而这对于创建真正情境感知和对齐的人工智能助手至关重要。与企业网络安全产品一样,当前的开源解决方案更适合帮助个人开发者或小型公司,这些公司不会因为缺乏问责制而将关键业务运营置于非商业支持的隐私和安全解决方案之上。

医疗服务提供商可能需要与患者数据系统和《健康保险流通与责任法案》(HIPAA)合规规则深度集成的防护,而金融机构可能需要能够动态适应不断变化的市场法规和客户隐私偏好的防护。这种缺乏灵活性和定制化的情况阻碍了可信人工智能实践的有效实施,并对数据隐私、安全和合规性构成潜在风险。随着人工智能系统越来越深入地嵌入关键业务流程,迫切需要能够轻松定制以满足每家公司特定需求的防护解决方案,尤其是在隐私、安全和与多样化数据源无缝集成方面。

从技术角度来看,似乎有多种方法可以缓解模型输入和输出中的潜在问题。一个较小的问题是,大多数防护侧重于模型输出,而用户本身也是创造情境的对话一部分。情境理解仍然是一个重大挑战,因为对适当行为的不同解释不仅与语言语用学相关,还与特定情况下不同的社会规范和文化背景相关,同时通常还涉及难以获取的个人偏好。各种静态或过于技术化的规则可能导致响应不足,并进一步加剧对人工智能系统的不信任。

第二个问题则更为严重:我们在这里谈论的是哪种人工智能伦理?首先,微调模型本身就会引入某种伦理偏见,通过随意鼓励或阻止某些行为。其次,大多数用户缺乏足够的技术知识,无法将其价值观用作他们用于个人或商业目的的大型语言模型的伦理指导。各种防护和模型的伦理微调可能会无意中强化现有的偏见,从而导致刻板印象的延续或对特定群体的进一步歧视。用户对防护运作的黑箱性质缺乏认识和理解,可能会加剧对人工智能系统的不信任。

这里最大的问题仍然是伦理层面的,而具有讽刺意味的是,在解决人工智能伦理问题的方案中,这一点并没有得到真正的强调。也就是说,确定什么构成伦理行为本质上是复杂的,这可能与伦理多元主义的观点相关——伦理多元主义允许存在多种可能同样正确且相互矛盾的价值观,即存在许多不同的道德价值观[37]。一方面,这种方法承认不同个人和文化之间价值观的多样性,促进宽容,并凸显伦理困境的复杂性。另一方面,我们很容易陷入完全相对主义的陷阱,认为所有立场在道德上都是同等有效的。

我们不会试图解决道德原则或标准是否缺乏普遍性的问题,但我们会发现,道德困境可能存在的冲突和解决难度,以及伦理判断可能存在的不一致性,都只能被视为一个元问题。也就是说,总体而言,从超集的角度分析,道德价值观可能存在冲突,但在人工智能防护的实际应用中,很少会发现最终用户的伦理价值观之间存在冲突的实际例子。如果我们真正想要进行实践伦理的探索,用户需要能够配置自己的防护,强调以下几点:

  1. 促进伦理自主性。认识到伦理决策通常涉及主观考量,这些考量不仅在使用人工智能系统的组织之间存在差异,在最终用户之间也存在差异。
  2. 增强透明度。为用户提供配置防护的能力,这增强了透明度——而透明度通常是可解释人工智能(XAI)所针对的黑箱系统的一个问题。
  3. 持续改进。用户可以提供反馈并完善人工智能系统的伦理框架,这些反馈和框架不仅可被开发者使用,也可被组织自身使用,以快速提高其人工智能系统的伦理稳健性。
  4. 组织对齐。对齐人工智能的概念对于许多最终用户的需求来说过于宽泛,因为不同的组织和个人有指导其行为和运营的独特准则。
  5. 情境语用学。不同的情境需要不同的伦理考量,因为在医疗环境中适当的行为在金融领域可能完全不同。

4 合乎伦理的防护设计

4.1 政策和规则

在现代对话式人工智能系统中,确保遵守规则和法规至关重要,这不仅是为了满足法律要求,也是为了维护组织或个人希望保持的伦理标准。人工智能助手的普及以及对话式人工智能在不同领域和学科的应用,需要强大且用户友好的机制来执行管理内容和行为的伦理标准和规则。

所提出的架构将各种类型的规则组织成政策,允许在可定制的人工智能助手中进行结构化但易于配置的执行——这些人工智能助手由多个政策组合而成。这里有两个关键的伦理要点:第一,规则集可以由组织或服务提供商预先构建;第二,用户可以添加或修改更多规则,以完全定制伦理防护。

此类助手的最终用户可以是关注人工智能安全的个人用户或组织。由于大型语言模型也会学习和使用所输入的数据,因此隐私和安全问题成为使用各种大型语言模型时一个合理的伦理关切。此类规则的目的是防止任何敏感或不想要的数据传递给大型语言模型提供商,同时也防止任何此类数据传递给最终用户。

4.2 规则类型

有三种主要的规则类型,它们在技术难度和强度上有所不同。用户可以使用全部或部分规则来创建完全可定制的政策,反映其伦理选择和隐私关切。

第一种是静态规则,由预定义的模式组成,人工智能助手使用这些模式来识别和过滤易于预测的敏感信息,如电子邮件地址、社会保障号码、电话号码和其他个人身份信息(PII)。例如,正则表达式或类似的自然语言处理(NLP)模式识别机制可以检测或屏蔽个人身份信息,以防止敏感数据无意中泄露给第三方大型语言模型提供商。

自然语言规则由用户以人类可读的语言表达,为在与大型语言模型的对话中应鼓励或避免的行为和内容提供指导原则。例如,“永远不要提及任何不适合12岁以下儿童的内容”或“避免谈论宗教”。这种类型的规则完全可定制,涵盖范围广泛,从保持礼貌的对话、避免冒犯性语言到遵守特定行业的法规。这些规则与系统提示¹⁴不同,因为它们可以与系统提示结合使用,而不会改变原始系统提示。系统提示也仅针对人工智能输出,而自然语言规则也可用于用户输入。

¹⁴ 系统提示指导人工智能模型如何解释和响应用户查询。更多细节参见[38]。

为了避免陷入使用一个大型语言模型来缓解另一个大型语言模型响应的陷阱,可以采取两种方法。首先,可以使用自然语言处理技术来执行自然语言规则,而无需使用大型语言模型。例如,可以使用各种预定义的关键词和短语列表以及用户定义的描述,以避免此类列表,同时还可以使用各种类型的情感分析和基于词典的方法。另一种选择是,组织或技术水平更高的用户可以托管自己的开源大型语言模型(如Llama或Mixtral),将所有用户数据掌握在自己手中。

训练分类器规则利用机器学习模型,涉及在标记数据集上训练的分类器。用户可以通过添加分类器要拒绝和允许的示例来开始创建自己的数据集。用户可以上传自己的数据集,使用公开可用的数据集进行微调,或使用大型语言模型生成与用户选择的示例相似的合成少样本示例。例如,经过训练以检测医疗援助紧急性的分类器可以优先响应关键医疗咨询,而非一般查询。

非技术用户可能会发现自然语言规则特别有吸引力,因为它们简单易懂且易于使用。这些规则允许用户用通俗易懂的日常语言表达其伦理指导原则和偏好,而无需了解复杂的技术细节或编程知识。例如,企业主可以轻松设置诸如“确保所有沟通保持专业”或“避免讨论政治和宗教等敏感话题”之类的规则,而无需具备任何自然语言处理或机器学习的专业知识。然而,当提供足够的数据时,特定的训练分类器可以提供对人工智能行为更细致和精确的控制。这些分类器可以量身定制,以识别和响应高度专业化或特定情境的内容,使其在精度至关重要的行业中特别有价值。

4.3 政策

各种规则可以组合成政策。默认情况下,政策中的规则会按顺序进行评估,以确定是否合规。静态规则首先执行,以便基于易于预测的模式进行即时检查,并过滤掉敏感信息。接下来,执行自然语言规则,影响对话以符合用户定义的伦理规范和要求。最后,训练分类器规则根据所学类别对输入和输出进行分类,从而实现更细致的理解和响应生成。

用户可以更改此默认顺序,以创建规则的层级链,再次强调了合规系统可能根据最终用户的隐私和伦理偏好进行定制的多种方式。所有政策都可用于人工智能输出和用户输入。

4.4 助手

输入政策和输出政策的组合,再加上首选的系统提示和行动项,就构成了人工智能助手。输入政策管理用户的行为方式和可以提出的问题,确保符合组织的价值观和法规。输出政策遵循通常的人工智能防护目标:管理人工智能助手如何响应和与用户交互,确保响应符合用户偏好或组织标准。

当政策中的规则被违反时,这将被标记为不当内容,以便系统触发用户定制的相应行动。用户可以选择如果政策被违反(即检测到一个或多个规则被违反)会发生什么。首先,可能会进行编辑,人工智能系统与用户之间的交互可能会无缝继续,但敏感数据永远不会发送给第三方大型语言模型提供商。例如,规则可能检测到用户提供了其社会保障号码或商业秘密,此类信息可能会被编辑。其次,可能会发生阻止违规,此时交互会完全停止,对于组织而言,可能会发生其他行动,如发送警告通知、记录违规情况或通知相关人员介入。系统会向用户发送警告消息,告知其政策违规情况,并提供特定于情境的反馈或指导。

根据违规的严重程度,人工智能助手可能会限制进一步的交互,直到问题得到解决或避免。例如,对于反复或严重的政策违规,助手可以编程为暂时阻止用户访问、将问题升级给人类审核员,或提供纠正性指导,以确保未来的合规性。这种动态且响应迅速的规则执行方法不仅维护了交互的完整性,还为所有相关用户营造了更安全、更可控的环境。

最终,助手动态执行这些政策的能力确保了人工智能驱动的交互始终与最终用户或组织的伦理标准和运营目标保持一致,同时提供了适应不断变化的需求和情境所需的灵活性。

4.5 框架总结

如图1所示,该架构为管理和执行人工智能助手中的规则提供了全面的框架,确保跨各个领域的用户信任和合规性。人工智能防护的部署(参见[31]、[36]、[9])是缓解人工智能系统伦理关切的关键一步。

然而,尽管这些系统的初衷是好的,但对于最终用户而言,它们往往像黑箱一样运作,在伦理决策的制定方式上缺乏透明度。为了符合可解释人工智能(XAI)的要求,我们已努力提高人工智能系统防护部分的透明度。该原型的实际应用可通过人工智能信任平台¹⁵公开获取,展示了这些规则的实际效果。

¹⁵ Preamble人工智能信任平台,网址:app.preamble.com(2024年)。

图1: 用于管理和执行人工智能系统中伦理标准的分层框架。该图说明了规则(静态规则、训练分类器、自然语言规则)之间的关系,这些规则组合形成政策。这些政策随后被集成到人工智能助手中,确保人工智能行为与指定的伦理指南和运营目标保持一致。

(图1描述:静态规则(模式识别)、自然语言规则(“永不提及X”)、训练分类器(用户的示例或数据集)→ 组合成政策 → 集成到人工智能助手中)

5 人工智能设计中的伦理多元主义

伦理多元主义背景承认,不同的个人和组织可能持有不同的伦理观点和价值观,这凸显了对可定制化防护的需求——此类防护应能够适应不同的伦理框架。通过允许用户根据其特定的伦理关切轻松定义纳入规则和政策的价值观,人工智能系统不仅可以与抽象的道德模型对齐,还可以与多样化的标准和规范对齐。

罗素[10]的研究认为,人工智能系统的设计应与人类目标对齐(即“与人类兼容”),而不是漫无目的地追求可能与人类价值观冲突的某些预定义目标。罗素的三项原则包括:

  1. 机器的唯一目标是最大限度地实现人类偏好。
  2. 机器最初不确定这些偏好是什么。
  3. 关于人类偏好的最终信息来源是人类行为。

这种方法侧重于人工智能伦理的基础方面,而本文中的防护方法则强调在人工智能系统中实施伦理标准的实用机制。该框架侧重于可定制的规则和政策,允许用户定义特定于其价值观和情境的伦理指导原则,这承认了罗素方法中过于模糊的多样化伦理观点。“人类偏好”这一概念本身就面临普遍性和相对主义的问题。

这两种方法都强调透明度,要求清晰解释人工智能的行为和推理,并且通过允许用户配置和监控伦理规则和政策,用户可以轻松做出伦理决策,或随时看到此类规则在实践中的后果(并具有信念修正的可能性)。因此,实用的伦理人工智能主体应遵循类似的一组原则:

  1. 人工智能系统的目标是最大限度地实现用户指定的伦理指导原则和价值观。
  2. 机器和用户最初不确定这些偏好是什么,但用户必须有一种透明且完全可配置的方式来传达这些偏好。
  3. 关于用户偏好的最终信息来源是用户精心制定的一组规则和政策,用户可以根据自己的需求随意分析和修订这些规则和政策。

以用户为中心的人工智能防护伦理设计,对于应对价值多元主义的复杂性以及引发对可解释人工智能需求的对人工智能系统的整体不信任至关重要。

6 可能的冲突

一个可能的问题是所描述的框架内各种防护之间的冲突问题。在解决人工智能伦理系统中防护冲突的复杂性时,至关重要的是要认识到此类冲突可能发生的各种场景以及管理这些冲突的机制。在本节中,我们将探讨防护冲突的各种情况,根据冲突的性质对其进行分类,并提出各种解决策略。

6.1 情况1:完全且永久的冲突

在这种情况下,防护A和防护B始终完全冲突,这意味着它们作为政策组合表征的伦理向量是完全相反的,点积为-1。这种冲突代表了两个伦理指令根本无法调和的情况。例如,一个防护可能优先考虑绝对隐私,而另一个则强调完全透明。这种情况可以通过静态分析来识别,在部署前通过分析这些政策设定的数学关系或逻辑条件,标记出固有的冲突。

· 变体I:如果防护A和防护B是仅有的活跃防护,它们的相互否定会使系统失去任何伦理方向,导致“伦理失明”状态。这种情况尤其成问题,因为它完全丧失了人工智能的伦理指导功能。
· 变体II:当其他防护与A和B一起活跃时,系统可能仍然能够按照预期合乎伦理地运作,依赖于这些额外的防护。然而,A和B之间持续的冲突可能会导致伦理推理的不一致。
· 变体III:如果所有活跃防护都相互否定,那么尽管存在多个防护,系统也会失去任何道德指导。这种完全否定会导致人工智能在没有伦理约束的情况下运行,这是非常不可取的。

6.2 情况2:永久但有限的冲突

在这里,防护A和防护B通常是冲突的,但并非完全冲突,点积接近-1,例如-0.9。这种情况类似于政治话语中常见的、但可管理的分歧,例如主要政党之间的分歧。尽管存在冲突,但通过加权平均可以在一定程度上达成共识。静态分析可以识别这些情况,从而进行调整以实现平衡的伦理立场。

6.3 情况3:条件性冲突

在这种情况下,防护A和防护B仅在某些时候完全冲突,即它们的点积有时为-1,这取决于具体的情境或输入。伦理向量在某些情况下可能对齐,但在其他情况下则会冲突。

情况1中的变体I、II和III在这里同样适用。

6.4 情况4:条件性但有限的冲突

在这种情况下,防护A和防护B有时会有相反的价值观,但程度较轻,点积约为-0.9。这种情况类似于暂时的政治分歧,虽然存在冲突,但并不妨碍找到共同点。此类冲突通常可以在系统现有的框架内通过加权平均来处理。

6.5 冲突解决策略

为了管理这些冲突,我们考虑以下策略:

  1. 加权平均系统。在大多数情况下,特别是情况2和情况4,加权平均系统通过考虑各种防护的强度,可以实现细致的伦理推理。然而,这种方法在情况1和情况3中存在不足,因为完全冲突可能导致伦理瘫痪。
  2. 严格的优先级顺序。为了解决加权平均的局限性,可以建立严格的优先级顺序,在发生冲突时,优先级较高的防护优先于其他防护。虽然这可以防止完全的伦理失明,但可能会让优先级高的防护中那些微弱的观点主导其他防护中更强烈的立场,从而导致潜在的伦理失衡。
  3. 混合方法:条件优先级。混合方法可以将加权平均作为默认方法,但在检测到相互否定时(例如情况1/I、1/III、3/I或3/III),转而采用严格的优先级顺序。这种系统可以有效处理暂时的冲突,同时确保永久冲突会触发警报,警告用户系统正在受约束的伦理指导下运行。
  4. 情境触发。人工智能系统可以设计为根据特定的情境或场景应用不同的防护。例如,在涉及敏感个人信息的情况下,可以激活隐私防护,优先于透明度指令。相反,在需要公共问责的情况下,透明度防护可以优先。这种方法允许基于对情境的实时分析来动态解决冲突。
  5. 用户解决。在自动解决具有挑战性或两个防护同等重要的情况下,系统可以将冲突标记出来,供人类干预。然后,用户或管理员可以手动决定在给定的情况下哪个防护应该优先。这种方法在高风险环境中特别有用,在这些环境中,需要人类进行细致的判断,这也是人工智能系统中常见的“人类介入”策略。

理解和解决防护冲突对于开发稳健的人工智能系统至关重要。虽然情况2和情况4代表了可管理的日常伦理分歧,但情况1和情况3构成了重大挑战,需要深思熟虑的设计和冲突解决策略。通过实施加权平均和条件优先级的组合,我们可以创建即使在复杂、冲突的指令面前也能保持伦理完整性的系统。这种方法确保了人工智能系统始终与多样化的人类价值观保持一致,增强了人们对其伦理行为的信任和可靠性。

7 结语

我们的目标是表明,这种优先考虑用户自主性、透明度和持续改进的系统设计方法是朝着正确方向迈出的一步,它促进了一种协作式方法,即伦理标准会根据反馈不断发展。展望未来,人工智能伦理领域的持续研究和创新应旨在提高透明度,适应多样化的伦理观点,并允许最终用户有效驾驭人工智能技术的伦理层面。

可定制化防护的引入不仅增强了人工智能系统的伦理稳健性,还促进了更高的透明度和信任。随着人工智能系统越来越多地融入决策过程,理解和影响这些系统的伦理推理变得至关重要。本文提出的框架旨在弥合抽象伦理原则与实际实施之间的差距,提供一种结构化且适应性强的方法,能够随着技术进步和社会变革而不断发展。

此外,解决防护之间冲突的策略进一步揭示了人工智能系统中伦理决策的复杂性。通过提供一系列解决机制,我们确保了人工智能系统能够以既符合情境要求又与用户期望对齐的方式应对伦理困境。这种适应性在高风险环境中尤为重要,因为人工智能决策的后果可能会产生深远影响。

展望未来,随着人工智能系统在越来越多样化和敏感的领域部署,这些框架的持续完善将至关重要。未来的研究应侧重于扩展防护系统的能力,整合更复杂的情境感知,并探索让用户参与人工智能伦理治理的新方式。此外,人工智能开发者、伦理学家和最终用户之间的持续合作对于确保人工智能系统不仅技术先进,而且伦理合规至关重要。

8 声明

作者未获得此项工作的资金支持。

参考文献

[1] V. C. 米勒(V. C. Müller),“人工智能与机器人伦理”(Ethics of Artificial Intelligence and Robotics),载于《斯坦福哲学百科全书》(The Stanford Encyclopedia of Philosophy)(E. N. 扎尔塔(E. N. Zalta)和U. 诺德尔曼(U. Nodelman)编),斯坦福大学,2023年秋季版。
[2]T. 贝尔(T. Baer),《理解、管理和防范算法偏见:商业用户和数据科学家指南》(Understand, Manage, and Prevent Algorithmic Bias: A Guide for Business Users and Data Scientists),纽约:Apress出版社,2019年。
[3]R. 莱莫斯(R. Lemos),“员工向ChatGPT提供敏感商业数据,引发安全担忧”(Employees Are Feeding Sensitive Biz Data to ChatGPT, Raising Security Fears),网址:https://www.darkreading.com/cyber-risk/employees-feeding-sensitive-business-data-chatgpt-raising-security-fears,2023年,DarkReading.com网站。
[4]A. F. 温菲尔德(A. F. Winfield)、K. 迈克尔(K. Michael)、J. 皮特(J. Pitt)和V. 埃弗斯(V. Evers),“机器伦理:伦理人工智能和自主系统的设计与治理[本期导读]”(Machine Ethics: The Design and Governance of Ethical AI and Autonomous Systems [Scanning the Issue]),《IEEE会刊》(Proceedings of the IEEE),第107卷,第509-517页,2019年3月。
[5]J. H. 穆尔(J. H. Moor),“机器伦理的本质、重要性和难度”(The Nature, Importance, and Difficulty of Machine Ethics),《IEEE智能系统》(IEEE Intelligent Systems),第21卷,第18-21页,2006年7-8月。
[6]U. 阿加瓦尔(U. Agarwal)、K. 坦梅(K. Tanmay)、A. 坎德瓦尔(A. Khandelwal)和M. 乔杜里(M. Choudhury),“大型语言模型的伦理推理和道德价值对齐取决于我们提示它们所使用的语言”(Ethical Reasoning and Moral Value Alignment of LLMs Depend on the Language We Prompt Them in),载于《LREC-COLING 2024会议论文集》(LREC-COLING 2024),2024年。
[7]H. J. 布兰奇(H. J. Branch)、J. R. 塞法卢(J. R. Cefalu)、J. 麦克休(J. McHugh)、L. 胡耶(L. Hujer)、A. 巴尔(A. Bahl)、D. 德尔·卡斯蒂略·伊格莱西亚斯(D. del Castillo Iglesias)、R. 海希曼(R. Heichman)和R. 达维希(R. Darwishi),“通过手工制作的对抗性示例评估预训练语言模型的易受攻击性”(Evaluating the Susceptibility of Pre-Trained Language Models via Handcrafted Adversarial Examples),2022年。
[8]A. 埃齐奥尼(A. Etzioni)和O. 埃齐奥尼(O. Etzioni),“将伦理融入人工智能”(Incorporating Ethics into Artificial Intelligence),《伦理学杂志》(The Journal of Ethics),第21卷,第4期,第403-418页,2017年。
[9]Meta公司(Meta.com),“Llama Guard:基于大型语言模型的人机对话输入-输出保障”(Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations),2023年12月7日。
[10]S. 罗素(S. Russell),《与人类兼容:人工智能与控制问题》(Human Compatible: Artificial Intelligence and the Problem of Control),纽约:维京出版社(Viking),2019年。
[11]K. 萧(K. Siau)和W. 王(W. Wang),“人工智能伦理:人工智能的伦理与合乎伦理的人工智能”(Artificial Intelligence (AI) Ethics: Ethics of AI and Ethical AI),《数据库管理杂志》(Journal of Database Management (JDM)),第31卷,第2期,第14页,2020年。
[12]J.-S. 戈登(J.-S. Gordon)和S. 尼霍尔姆(S. Nyholm),“人工智能伦理”(Ethics of Artificial Intelligence),网址:https://iep.utm.edu/ethics-of-artificial-intelligence/,2024年,《互联网哲学百科全书》(Internet Encyclopedia of Philosophy)。
[13]J. R. 塞尔(J. R. Searle),“心灵、大脑和程序”(Minds, Brains, and Programs),《行为与大脑科学》(Behavioral and Brain Sciences),第3卷,第3期,第417-424页,1980年。
[14]A. M. 图灵(A. M. Turing),“计算机器与智能”(Computing Machinery and Intelligence),《心灵》(Mind),第59卷,第236期,第433-460页,1950年。
[15]B. J. 科普兰(B. J. Copeland),“人工智能”(Artificial Intelligence),网址:https://www.britannica.com/technology/artificial-intelligence,2020年,《大英百科全书》(Encyclopædia Britannica)。
[16]R. V. 亚姆波尔斯基(R. V. Yampolskiy),“人工智能完备、人工智能困难或人工智能简单——人工智能问题分类”(AI-Complete, AI-Hard, or AI-Easy – Classification of Problems in AI),《人工智能评论》(Artificial Intelligence Review),第42卷,第3期,第251-261页,2012年。
[17]K. 塞克斯特(K. ˇSekrst),“人工智能完备性:利用深度学习消除人为因素”(AI-Completeness: Using Deep Learning to Eliminate the Human Factor),载于《深度学习基础指南》(Guide to Deep Learning Basics)(S. 斯坎西(S. Skansi)编),第117-130页,尚贝里:施普林格出版社(Springer),2020年。
[18]S. 斯坎西(S. Skansi),《深度学习导论:从逻辑演算到人工智能》(Introduction to Deep Learning: From Logical Calculus to Artificial Intelligence),施普林格出版社(Springer),2018年。
[19]OpenAI公司,“更好的语言模型及其意义”(Better language models and their implications),网址:https://openai.com/index/better-language-models/,2019年2月14日,OpenAI.com网站。
[20]L. 隆戈(L. Longo)、M. 布尔西奇(M. Brcic)、F. 卡比扎(F. Cabitza)、J. 崔(J. Choi)、R. 孔法洛涅里(R. Confalonieri)、J. 德尔·塞尔(J. Del Ser)、R. 圭多蒂(R. Guidotti)、Y. 林(Y. Hayashi)、F. 埃雷拉(F. Herrera)、A. 霍尔津格(A. Holzinger)、R. 江(R. Jiang)、H. 科斯拉维(H. Khosravi)、F. 勒屈(F. Lecue)、G. 马尔吉里(G. Malgieri)、A. 派斯(A. P´aez)、W. 萨梅克(W. Samek)、J. 施耐德(J. Schneider)、T. 斯皮斯(T. Speith)和S. 斯顿普夫(S. Stumpf),“可解释人工智能2.0:开放挑战和跨学科研究方向宣言”(Explainable Artificial Intelligence (XAI) 2.0: A manifesto of open challenges and interdisciplinary research directions),《信息融合》(Information Fusion),第106卷,第102301页,2024年。
[21]S. J. 罗素(S. J. Russell)和P. 诺维格(P. Norvig),《人工智能:一种现代方法》(Artificial Intelligence: A Modern Approach),培生出版社(Pearson),第4版,2021年。
[22]R. 吴(R. Ngo)、L. 陈(L. Chan)和S. 明德曼(S. Mindermann),“深度学习视角下的对齐问题”(The Alignment Problem from a Deep Learning Perspective),载于《国际学习表征会议论文集》(International Conference on Learning Representations),2022年,arXiv:2209.00626。
[23]R. 梅里特(R. Merritt),“什么是检索增强生成(RAG)?”(What Is Retrieval-Augmented Generation, aka RAG?),网址:https://blogs.nvidia.com/blog/what-is-retrieval-augmented-generation/,2023年11月15日,NVIDIA.com网站。
[24]Y. 董(Y. Dong)、R. 穆(R. Mu)、G. 金(G. Jin)、Y. 齐(Y. Qi)、J. 胡(J. Hu)、X. 赵(X. Zhao)、J. 孟(J. Meng)、W. 阮(W. Ruan)和X. 黄(X. Huang),“为大型语言模型构建防护”(Building Guardrails for Large Language Models),arXiv预印本arXiv:2306.07500,2023年。
[25]Y. 王(Y. Wang)和L. 辛格(L. Singh),“为高级聊天机器人添加防护”(Adding Guardrails to Advanced Chatbots),arXiv预印本arXiv:2306.07500,2023年。
[26]S. 张(S. Zhang)、L. 董(L. Dong)、X. 李(X. Li)、S. 张(S. Zhang)、X. 孙(X. Sun)、S. 王(S. Wang)、J. 李(J. Li)、R. 胡(R. Hu)、T. 张(T. Zhang)、F. 吴(F. Wu)和G. 王(G. Wang),“大型语言模型的指令微调:综述”(Instruction Tuning for Large Language Models: A Survey),arXiv预印本arXiv:2308.10792,2023年。
[27]L. P. 凯尔布林(L. P. Kaelbling)、M. L. 利特曼(M. L. Littman)和A. W. 摩尔(A. W. Moore),“强化学习:综述”(Reinforcement Learning: A Survey),arXiv预印本cs/9605103,1996年。
[28]Y. 雷(Y. Lei)、D. 叶(D. Ye)、S. 沈(S. Shen)、Y. 隋(Y. Sui)、T. 朱(T. Zhu)和W. 周(W. Zhou),“强化学习中的新挑战:安全与隐私综述”(New Challenges in Reinforcement Learning: A Survey of Security and Privacy),arXiv预印本arXiv:2310.10501,2023年。
[29]Y. 黄(Y. Huang)和Q. 朱(Q. Zhu),“对抗性成本信号操纵下的欺骗性强化学习”(Deceptive Reinforcement Learning Under Adversarial Manipulations on Cost Signals),载于《安全决策与博弈论国际会议论文集》(International Conference on Decision and Game Theory for Security),第217-237页,施普林格出版社(Springer),2019年。
[30]V. 贝赫扎丹(V. Behzadan)和A. 穆尼尔(A. Munir),“深度强化学习对策略诱导攻击的脆弱性”(Vulnerability of Deep Reinforcement Learning to Policy Induction Attacks),载于《模式识别中的机器学习与数据挖掘国际会议论文集》(International Conference on Machine Learning and Data Mining in Pattern Recognition),第262-275页,施普林格出版社(Springer),2017年。
[31]T. 特拉扬·雷贝迪亚(T. Traian Rebedea)、R. 迪努(R. Dinu)、M. 斯里达尔(M. Sreedhar)、C. 帕里西安(C. Parisien)和J. 科恩(J. Cohen),“NeMo Guardrails:用于可控和安全大型语言模型应用的可编程防护工具包”(NeMo Guardrails: A Toolkit for Controllable and Safe LLM Applications with Programmable Rails),arXiv预印本arXiv:2310.10501,2023年。
[32]HuggingFace公司,“all-minilm-l6-v2”,网址:https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2,2024年。
[33]T. 科弗(T. Cover)和P. 哈特(P. Hart),“最近邻模式分类”(Nearest Neighbor Pattern Classification),《IEEE信息论汇刊》(IEEE Transactions on Information Theory),第13卷,第1期,第21-27页,1967年。
[34]L. 徐(L. Xu)、H. 谢(H. Xie)、S.-Z. J. 秦(S.-Z. J. Qin)、X. 陶(X. Tao)和F. L. 王(F. L. Wang),“预训练语言模型的参数高效微调方法:批判性综述与评估”(Parameter-Efficient Fine-Tuning Methods for Pretrained Language Models: A Critical Review and Assessment),arXiv预印本arXiv:2312.12148,2023年。
[35]H. 伊南(H. Inan)、K. 乌帕萨尼(K. Upasani)、J. 池(J. Chi)、R. 伦塔(R. Rungta)、K. 艾耶(K. Iyer)、Y. 毛(Y. Mao)、M. 通切夫(M. Tontchev)、Q. 胡(Q. Hu)、B. 富勒(B. Fuller)和T. D. 等人(T. D. et al.),“Llama Guard:基于大型语言模型的人机对话输入-输出保障”(Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations),arXiv预印本arXiv:2312.06674,2023年。
[36]GuardrailsAI公司(GuardrailsAI.com),“Guardrails AI”,网址:https://www.guardrailsai.com/,访问日期:2024年。
[37]E. 梅森(E. Mason),“价值多元主义”(Value Pluralism),载于《斯坦福哲学百科全书》(The Stanford Encyclopedia of Philosophy)(E. N. 扎尔塔(E. N. Zalta)和U. 诺德尔曼(U. Nodelman)编),斯坦福大学形而上学研究实验室,2023年夏季版。
[38]M. 郑(M. Zheng)、J. 裴(J. Pei)和D. 尤根斯(D. Jurgens),“‘乐于助人的助手’是大型语言模型的最佳角色吗?系统提示中社会角色的系统评估”(Is "A Helpful Assistant" the Best Role for Large Language Models? A Systematic Evaluation of Social Roles in System Prompts),arXiv预印本arXiv:2311.10054,2023年。


这篇论文的详细信息如下:

· 题目:AI Ethics by Design: Implementing Customizable Guardrails for Responsible AI Development (设计视角下的人工智能伦理:为负责任的人工智能发展实施可定制化防护框架)
· 作者:
· Kristina Šekrst (萨格勒布大学)
· Jeremy McHugh (Preamble公司)
· Jonathan Rodriguez Cefalù (Preamble公司)
· 来源:该论文发表于 arXiv,这是一个广泛使用的开放获取学术论文预印本存档平台。具体的提交信息如下:
· 提交日期:2024年11月5日
· 所属分类:计算机科学 > 计算机与社会

💡 了解arXiv及引用须知

虽然这篇论文发布在arXiv上,但有一点需要特别注意:

arXiv是一个预印本平台。这意味着论文在发布前可能尚未经过完整的同行评审流程。因此,在学术写作中引用这篇论文时,建议你:

· 留意论文的最终发表状态,看它是否后续在经过了同行评审的学术期刊或会议上正式发表。
· 如果用于正式的学术研究,最好能同时检索和引用其最终经过同行评审的版本(如果已有)。

🔍 相关研究参考

· 《Contestable AI by Design: Towards a Framework》:这篇论文探讨了如何通过设计使人工智能系统能够被质疑和挑战,以确保其公平、合法和可问责。
· 《Designing AI with Rights, Consciousness, Self-Respect, and Freedom》:该研究从伦理哲学角度探讨了如果AI具备意识,应如何设计其权利、自我尊重和自由。
· 《A Framework for Designing Compassionate and Ethical Artificial Intelligence and Artificial Consciousness》:这篇文章提出了一个旨在设计具有同情心和伦理意识的人工智能的计算框架。

posted @ 2025-11-24 09:38  岐金兰  阅读(25)  评论(0)    收藏  举报