可理解的机器人

是什么、为什么以及如何做

1 引言

人机交互(HRI)领域的多项研究致力于探索机器人如何理解人类的行为和思想。特别是,基于对人类运动、手势、面部表情以及言语表达的分析,研究人员已开发出识别人类活动、意图和情绪状态的技术。这一研究方向本身极为重要且远未做完。然而,随着机器人变得越来越有能力且更加自主,人们也越来越需要研究人类如何理解机器人。这一需求近年来在人工智能(AI)领域也得到了认可,尤其是在“可解释的人工智能”(Explainable AI)[1, 2]的框架下。特别是与人类密切协作的社交机器人,应被设计成能够让人类理解其思维方式和行为方式[3]。若忽视这一角度,可能对机器人与其用户之间的交互质量[4]产生负面影响,并降低用户体验、效率和安全性。一个在行动时未能向相关人员传达其意图的机器人,可能会像以同样方式行事的人类一样引发焦虑[5],。在协作任务中,如果人类无法准确预测机器人的行为,则整体效率可能受到负面影响[6, 7]。在非协作任务中,如果机器人不向人类告知其内部状态(例如应该为电池充电),则可能无法完成被下达的任务。安全性也可能在多个方面受到负面影响:如果人类不了解机器人的视野受限情况,发生物理碰撞的风险将增加;而当人类无法理解和预测机器人的运动时,其纠正或制止不安全机器人行为的能力也将受限。一个关键且活跃的应用领域是自动驾驶汽车[8]。实验表明,行人在遇到自动驾驶车辆时会感到不安,并产生不适和困惑[9],,为此汽车行业正在开发向外界传达自动驾驶车辆意图的方法,例如AVIP项目(https://www.viktoria.se/projects/avip‐automated‐vehicle‐interaction‐principles)。同理,com—传达系统的可靠性有助于用户校准对系统的信任[10]。

虽然可理解性通常是人机交互(HRI)研究的目标,但据作者所知,目前尚缺乏对这一概念的实际含义及其形式化途径的分析。本文旨在填补这一空白,从而为该主题的持续研究提供基础。在第2节中,最初对相关早期工作进行了深入综述;第3节分析了“理解一个机器人”的含义;第4节提出了一种用于理解的新型交互模型;基于该模型,第5节制定了面向理解的交互设计的一般性指导原则;最后,第6节总结了研究发现,并对未来的研究工作提出了结论。

2 相关早期工作

可理解的机器人的重要性早已被 HRI 社群所认可,例如在关于explainablerobots[11]的组织研讨会上。已经使用了各种不同的术语。Readability[12], anticipation[7], legibility[13, 14],和predictability[15]通常指的是人类应能在多大程度上预测机器人的未来行为,特别是物理运动。Dragan 等人 [16], 区分了清晰度与可预测性,前者与对目标的理解相关,后者则与对动作的理解相关。在 [17],中,作者特别使用术语intelligibility来指代人类对机器人情绪的理解。[18]中的作者使用intent communication作为一个更广泛的术语,表示机器人如何传达其目标(对象或目的)以及追求这些目标的原因。

社交机器人必须能够通过“主动反馈”——即机器人为了便于理解而刻意生成的输出——向交互中的人类传达其内部系统状态。就是米尔尼格和特舍利吉 [19]认为,特别

物理层面还包括社会交互的方面(布里齐尔 [21]也启用了词语 readability 来描述这一点)。在 [23],中,词语 transparency被用来大致描述相同的内容,莱昂斯 [24]讨论了这种透明度不仅可以通过人机接口的设计实现,还行依据用户对机器人平台的培训来实现。在本文中,大家使用术语understanding和understandability,其正式定义见第3节。就是克尼夫卡 [20]讨论了布里齐尔 [21]和多滕汉 [22],等人的工作,并使用术语understanding涵盖不仅

在机器人学界,相关早期工作开展于intention recognition领域,例如在 HRI、HAI 和 RO-MAN 上举办的一系列国际研讨会。一些研究探讨了人类如何识别机器人的意图,以及机器人可能如何协助这一过程。然而,大多数关于意图识别的研究描述的是机器人识别人类意图的具体技巧。此外,正如我们后文将举例说明的,意图仅是普遍理解的一个组成部分。

理解与沟通之间存在着紧密的联系,我们所提出的用于理解的交互模型将建立在通用沟通模型的基础之上。

明确的,但目前我们先分别回顾每个领域的早期工作。就是关于相关早期研究的其余部分被分为四个主题:用于理解的沟通、人类理解人类、人类理解机器人以及机器人理解人类。尽管人类与机器人之间的相互理解通常紧密交织,我们仍采用这种划分方式。例如,机器人理解人类的一个重要方面,可能是理解人类对机器人的理解。这种相互依赖性在我们提出的途径中

2.1 沟通以促进理解

我们所提出的用于理解的交互模型将基于现有的沟通理论,并加以修改以适用于支持人机交互(HRI)中理解的特定沟通情形。起点将是香农在 1948[26]中提出的信息传递模型。根据该模型,沟通可以如图1所示进行概念化:一个信息源产生一条必须传递的消息;消息发送器将该消息编码(翻译)成信号;信道用于将信号传输至接收器,传输过程中信号可能受到噪声干扰;接收器将信号解码(还原)为原始消息并将其传送到目的地。这一模型具有深远影响,但也受到批评,认为其不适用于社会科学领域,特别是用来建模人际沟通。例如,钱德勒[27]指出,该模型采用了“邮政隐喻”,即将沟通描述为向接收器发送一个物理的信息包裹。因此,这种沟通本质上是单向且线性的,包含一个主动的发送者和一个被动的接收器。这种观点被认为不适合描述广泛依赖于接收者反馈和提示进行调整的人际沟通。在一定程度上,这可以被

示意图0

通过在模型中添加反馈回路来加以考虑,正如施拉姆提出的改进模型[28]所建议的那样。钱德勒进一步批评香农模型没有将meaning纳入考虑。特定是,该模型未能反映人际沟通中的解码阶段如何严重依赖于语境以及接收器的社会和文化环境。相反,该模型假设解码能够完全恢复传输的信息(在无噪声的情况下)。然而,在现实环境中,只有当发送者考虑到接收器如何对接收消息进行解码和解释时,才能构建有效的沟通。

2.2 人类理解人类

人类每天都会使用心智解读来通过观察他人的行为,以估计其心理状态和行为,这种能力被认为是人类物种成功的最关键要素 [29]。巴伦‐科恩从进化视角描述心智解读为一种必要的生存策略 [30, p. 25]。术语theory of mind(ToM)(也称为 mindreading或 men-talizing) 用于表示将心理状态(信念、意图、欲望、假装、知识等)归因于自身和他人的能力,并理解他人拥有与自己不同的信念、欲望、意图和观点 [31]。米希迈尔确定了心智理论的三个要紧功能 [32]:1)理解与解释他人的行为。如果没有这种能力,我们可能会因世界的复杂性而感到困惑和不知所措。2)预测他人行为,这可被视为应对他人的普遍要求 [33, p. 57]。3)通过控制他们可获得的信息来操控和影响他人。

二级心理理论,除非另有说明。就是为了实现这一点,必须感知他人的目标、欲望和信念。此外,估计他人对你自身心智的推测也是有益的。例如,一个人对你的期望很可能会影响她的行为,而能够预测这一点可能会给你带来某些优势。这种机制被称为 second-order theory of mind,并可以进一步扩展到更高阶 [34]。术语 zeroth-order theory of mind有时用于表示仅基于主体自身心智的推理,而不考虑他人的心智。在下文中,表达式 theory of mind(ToM)指的

一个开放性问题[31],,尽管有一些证据表明,黑猩猩[35]甚至乌鸦等鸟类[36]可能具备 “设身处地为他人着想”的能力。就是对于人类而言,心理理论的发展始于婴儿期,并持续到青少年时期[33]。除人类外,其他动物是否拥有或能够获得心理理论仍

关于人类心理理论(ToM)如何运作,有两种核心观点。根据模拟理论[38],,我们使用自身的处理机制来模拟另一个智能体的行为和感官刺激,从而预测该智能体的行为和心理状态。此种理论的神经生理学证据已在某种猴子的大脑中发现[39]。所谓的镜像神经元在动物自身执行某一动作以及观察到另一只猴子执行相同动作时都会被激活。因此,镜像神经元被认为是模拟机制的关键组成部分。在人类中,尚未识别出单个镜像神经元,但已发现某些神经元区域表现出类似的行为[39]。另一种主要观点被称为理论论。该理论基于如下假设:我们具备一种“民间心理学”理论,它由一系列将心理状态与感官刺激及行为反应联系起来的法则和规则组成。这些规则可用于理解他人的心理状态和行为[40, p. 207]。

这些规则可以表现为因果律的形式,例如“任何人只要长时间未进食就会感到饥饿”[33, p. 53]。规则也行是一般性原则的形式,例如“实践三段论法则”[38]:“如果S希望实现某个结果G,并且S相信通过执行某一特定行为A便能获得G,那么在其他条件相同的情况下,S将决定执行A”。一些研究者认为,这种民间心理学理论是在儿童成长过程中习得的[33],,而另一些研究者则持先天论态度[41]。

为机器人理解人类意图而编写的方式也被建议用于解释人类对他人行为的识别。逆向规划依赖于“理性原则”,即

示意图1

假设所有行为都旨在高效地实现某个目标[29],,这使得通过观察智能体的行为来推断其目标成为可能。研究表明,人类凭借逆向规划从观察到的行为中推断目标和意图。例如,关于前语言期婴儿的心理学研究表明,他们能够从观察到的人类行为序列中推断出计划[42](参见 [29]和[43]以获取全面概述)。

2.3 人类理解机器人

大量研究致力于通过为机器人配备静态机制,使其能够提供有关自身状态和行为的信息,从而提高可理解性。这类机器人并未融入与之交互的 人类 的心理理论 (ToM),所提供的信息也未考虑 人类 在理解过程中对 信息的 动态需求。以下列举了该 方法 的一些实例(更多示例见第3节)。文献[44]描述了一种配备了 投影仪 机器人叉车 原型,可通过将 内部状态 意图 投射到地面来实现可视化。文献[45]中对一种 装配机器人 采用了类似的方法,该机器人将 装配 信息和计划的运动轨迹投影到 工作台 上, 以提升与 人类 操作员的协作效率。文献[46],提出并评估了一种面向 自主的 车辆的 意图传达 系统, 该系统结合使用 闪光灯 LED文字显示屏 扬声器 ,向 行人 传达 汽车 是否希望其通行或停止。文献[47],中使用了三种类型的 信号 ,用于告知交互中的 人类 机器人打算清扫障碍物下方区域的 意图 ,或表达要求 用户 协助移除 障碍物 的需求。

为了扩展这种静态的信息供应方式,可理解的机器人的设计可以利用人类的拟人化倾向。众所周知,人类倾向于不仅向其他人类,而且向非人类动物、无生命物体,甚至诸如雷声等自然现象赋予心智,以帮助我们预测世界未来的状态。D. 丹尼特 [48] 将此称为对事物采取 “意向立场”。采用神经影像学的研究表明,在与机器人交互时,人类同样具有赋予其心智的倾向,并且这种倾向可能取决于具身性和类人程度 [49]。最近的研究 [50] 显示,人们会依据采用机器人的视觉视角——这是心理理论最关键的前期表现之一——自发地为机器人赋予心理状态。[51] 中报告的实验表明,人们会基于自身的知识以及有关

机器人的起源和语言。此类机制可被机器人用于沟通内部状态,并影响人类对机器人的情绪和看法。在[47],中,设计了一款机器人通过前后移动来向用户表明其希望移除障碍物。结果显示,这种“情绪化”行为促使大多数用户愿意支援该机器人。[52]中报道的实验表明,机器人在被触碰时的反应可用于与交互中的人类建立熟悉感和意图性印象。[92]中报道的实验表明,机器人可通过眼球运动或身体姿态(如向后倾斜或伸长颈部)来传达其对机器人周围个人空间的看法。行为的时间特性也承载着信息,交互中的人类可能以多种方式对其进行解读。

在[53],中,机械臂被控制在桌面上移动杯子以达成交接配置,通过改变速度、速度变化和停顿,发现这些因素明显影响了观察者对机器人行为的描述。例如,移动缓慢的机器人更常被描述为谨慎、小心或深思熟虑,而快速移动的机器人则较少获得此类描述。在[54],中,小野和今井展示了具有“思维”错觉的机器人如何提升交互中的人类对模糊语音指令的理解和响应能力。

[55]的作者强调,为了预测机器人的未来行为,拥有一个关于机器人决策机制的良好心理模型(或如作者所指出的,机器人的目标函数)非常重要。为此,他们提出了一种方法,其中机器人模拟人类如何从观察到的行为中推断机器人的目标,并选择最具信息量的行为来向人类传达该目标函数。这是一个(罕见的)在机器人中实现二阶心理理论(ToM)的例子。

2.4 机器人理解人类

计算机如何分析和理解人类的意图与行为,已在多个领域得到了深入研究,这些研究各有侧重且采用了不同的方式。其中一个重要的研究方向是规划识别[56],,该方向核心解决如何将观察到的行为序列视为构建某个目标的(部分)计划的问题,通常采用图覆盖问题 [56],、概率推理 [57], 、解析 [58],或隐马尔可夫模型( HMMs)[59, 94]等技术来处理。研究界多年来一直运用 PAIR(规划、活动与意图识别)这一缩写词,并组织了相关的研讨会(例如参见 http://www.planrec.org/PAIR/Resources.html)。该子领域

114 |托马斯·赫尔斯特伦和苏娜·本施

活动识别领域和行为识别涉及如何将观测到的噪声传感器材料序列与特定动作相关联,并且与示范学习 [60, 61],、 示范编程 [62], 和模仿学习 [63, 64] 紧密相关。意图识别的研究也在其他多个研究领域中进行。例如,基于人类言语的意图识别是自然语言处理 [65, 66] 的一部分。意图也可以从肢体语言、注视 [67], 和面部表情中推断出来。

已有尝试在机器人中实现心理理论(ToM),以预测人类的心理状态和行为。Scassellati 是最早提出并在机器人学中实现 ToM 的研究者之一。在 [68], 中,他结合并实现了 巴伦‐科恩 [30] 和 莱斯利 [69] 的 To M 模型,构建了一个具备共享视觉注意能力的机器人。

贝宁霍夫等人 [70] 提出了(非结论性的)实验结果,表明配备 ToM 的机器人被互动中的人类视为更具同情心。

在 [71, 72, 96], 中报道的研究探讨了机器人如何依据推理人类能够感知与无法感知的内容,从而从人类视角构建对世界的表征。在 [73] 中,金和利普森 描述了一种利用人工神经网络和进化学习机制来建模他人自我模型的机器人。据报道,该机器人成功恢复了他人的自我模型。

在 [74], 中,德文和阿拉米 描述了一种为执行与人类的协作行为而建模人类心理状态的机器人。该机器人能够适应人类的决策,并且在不提供冗余信息的前提下向人类传递信息——即不会告知人类自身已能观察或推断出的内容。海亚特等人 [75] 描述了一种借助模拟分析多种关于人类的假设性认知模型,来分析人类意外行为的机器人。该机器人应用 ToM 来建模人类关于世界的知识与信念,所报告的实验结果表明,相较于替代方式,该机器人被视为更自然且更智能的队友。

除了上述较为简单的实验之外,令人震惊的是, “即使是最高级、最类人化的机器人也无法推理其他智能体的信念、欲望和意图”[29]。

3 理解一个机器人意味着什么?

使人类能够成功地与机器人互动的过程。尽管讨论和所提出的模型也适用于更高级别的理解,例如社会背景[20–22]和目的[24],,但我们的示例大多处于较低的抽象层次。就是我们对“理解”一词的含义采取一种实用主义方法,并将其视为“……一种心理过程”与抽象或物理对象(如人、情境或消息)相关的过程,通过该过程人们能够思考并使用概念来恰当地处理该对象”[76]。更具体地说,我们关注的

理解的一个重要方面涉及机器人的目标导向行为及其意图 [77]。为了完成自然、高效且安全的交互,人类通常必须理解机器人正在做什么以及它为何以某种方式行动。一些具体的例子包括:
1. 一个决定倒垃圾的服务机器人应在某些情况下告知其所有者即将采取的行动。
2. 一个需要人类让路才能通过的移动机器人应向人类说明其需求和原因 [78]。
3. 在涉及机器人与协作人类的拾取放置场景中,机械臂应以人类可预测的方式移向物体和位置 [79]。
4. 一辆自动驾驶汽车检测到行人试图横穿高速公路时,应传达其是否会通过减速来配合行人,或不会 [8, 46]。

然而,对机器人的理解不仅限于物理行为和意图,还包括机器人的欲望、知识与信念、情绪、感知、能力以及局限性[80],,同时也包括任务不确定性[81],和任务进度 [82, 93]。以下是一些具体示例,说明这种理解的相关性和重要性:
5. 一个表达情绪的机器人,例如对任务[17, 47],感到沮丧或表达一般需求[83],,能够以自然的方式从交互的人类那里获得帮助。
6. 当服务机器人预计在执行计划任务期间电量耗尽时,应告知其用户电池状态。
7. 自动驾驶汽车在因更新的天气预报而改变路线计划时,应通知乘客。
通过8. 一个根据用户语音指令行动的机器人,能够通过在执行前等待、移动更慢或通过表达犹豫的手势[84]来表示对指令含义的不确定性。

因此,对机器人的理解可能涉及有意的物理行为以及大量非物理行为

可理解的机器人 | 115
实体,例如前述的欲望、知识与信念、情绪、感知、机器人的能力与局限性、任务不确定性以及任务进度。然而,物理行为与非物理实体(如意图和目标)紧密相关,我们将较为宽泛地将所有这些实体统称为机器人的心理状态(SoM)。另一种选择是直接使用“心智”一词,但我们更倾向于使用“心理状态”和“SoM”,以避免引起误导性的拟人化。

参照之前引用的“理解”一词的定义,我们提出以下定义:

定义1 一个智能体对另一个智能体的理解,是指该智能体在多大程度上拥有关于另一个智能体的心智状态的知识,以成功地与其进行交互。

因此,我们说当一个人类拥有足够的关于机器人的心智状态的知识,从而能够成功地与该机器人互动时,该人类就理解了这个机器人。同样,我们说当一个机器人拥有足够的关于人类的心智状态的知识,从而能够成功地与该人类互动时,该机器人就理解了这个人类。

4 为理解而建模交互

在许多情况下,人类只需观察机器人移动和执行行为以实现内部目标,便可能理解机器人正在做什么。如果这些目标与交互中的人类发出的指令相关,则理解起来会更加容易。然而,随着机器人变得越来越自主和麻烦,它们也将变得越来越难以理解。机器人许可通过执行交际行为来支持理解,从而增加交互中的人类对其心智状态(SoM)的了解。术语“交际行为”在[85, 86]中用于指代“……隐式传递信息的行为……”。我们引入一个更具体的定义:

定义2 交际行为是指智能体为了增加另一智能体对自身心智状态的了解而采取的行为。

因此,智能体执行交际行为是为了提高另一智能体对该智能体的理解。在本节的其余部分,大家提出了一个专门描述生成、沟通和解释交际行为的交互模型。

有时,机器人生成静态交际行为就足够了,如 [24, 44–47,82]中所报道的。在要求较低的情况下,第3节中的八个示例行使用静态行为达成,但为了获得更高的交互质量,应设计交际行为以适应人类当前的视角和需求。为此,机器人可通过利用一阶心理理论(ToM)推断人类心智模型而获益。例如,在示例7中,自动驾驶汽车不应多次向人类告知更改后的路线计划。为完成这一点,汽车需要估计人类当前的知识状态,即它应该具备关于人类的心理理论(ToM)。在示例1中,机器人可利用心理理论(ToM)来判断是否应向人类提供信息,或人类是否正忙而不宜被打扰。

其他情况则要求机器人具备二阶心智理论(second‐order ToM),即机器人不仅假设人类具有心智,而且假设人类还拥有对机器人的心智理论。这使得能够设计出向人类提供特定缺失信息的交际行为。一个例子是前述的 [55] 中的研究工作。另一个例子是示例4,额外要求自动驾驶汽车不仅要推断行人横穿高速公路的意图,还要推断行人对汽车是否打算刹车的信念。如果汽车的意图与行人的信念不一致,汽车应执行交际行为以改变行人的信念,或调整自身的行为。例如,如果汽车原本计划继续行驶而不刹车,以避免与后方驶来的另一辆汽车发生碰撞,而行人似乎并未注意到这一情况,汽车可重新评估风险,并刹车以避免与行人发生迫在眉睫的碰撞。为了准确处理此类双向交互,所提出的模型为人类和机器人均配备了包含对方心智模型的心智。因此,机器人心智中包含了一个对人类心智的模型,而该模型的一部分又是对机器人心智的模型(这不会必然导致无限递归,因为某一层次的模型可被定义为不再含有更深层次的模型)。

产生交际行为的基本驱动力是机器人心智与其对人类对机器人心智的模型之间的不匹配。交际行为的产生旨在减少这种不匹配。

理解与沟通之间的联系在安德森[25]的以下定义中得到了很好的表述:“沟通是我们理解他人并努力让他人理解我们的过程”。我们的模型在香农早期提出的通用沟通模型[26],基础上进行了构建和扩展。

116 |托马斯·赫尔斯特伦和苏娜·本施

在第2节中描述,并说明了人类和机器人如何通过生成、传递和解释支持人类对机器人理解的交流行为,以实现相互理解。由于如上所述,这有时要求二阶心智理论,因此也必须涉及机器人对人类的理解。该模型基于两个香农模型实例,从而复制了编码、传输和解码的机制,使得机器人和人类被建模为同时的发送者和接收器。这一设计步骤还回应了钱德勒先前提到的“邮政隐喻”批评[27]。所提出的模型如图2所示。机器人的SoM MR 具备mH,即人类SoM MH的模型。以对称的方式,MH 包含mR,即MR的模型。根据定义1,人类对机器人的理解与MR和mR之间的不匹配有关。我们将此不匹配记为 |mR − MR|。该符号不应从数学意义上理解,而应从象征意义上理解,表示MR和mR相关部分差异的程度。对于完全理解,MR和mR不必完全相同,但不应存在相关不匹配。哪些是相关的,哪些不是,显然取决于具体应用。

人类对机器人的理解是通过三个模块IR、NR和GR的顺序执行来建立和支撑的:
- IR 机器人依据启用mH、人类生成的交际行为AH以及人类与机器人之间的交互I_x来推断信息。
- NR 机器人将其自身模型MR与其对mR(即人类对模型MR的认知,该估计是mH的一部分)的估计进行比较。如果对 |mR − MR| 的估计超过设定的阈值,机器人将识别出人类必须哪些信息才能减少 |mR −MR|。
- GR 机器人选择、生成并执行适当的交际行为AR,以传递所需的信息。

人类的交互认知过程在三个模块 IH、NH 和 GH 中被对称地建模:
- IH 人类依据使用 mR、机器人生成的通信行为 AR 以及人类与机器人之间的一般交互 Ix,在模块 IH 中推断。
- NH 人类将其思维 MH 与其对 mH 的估计进行比较,即机器人对 MH 的模型(该估计是 mR 的一部分)。如果对 |mH −MH| 的估计超过设定的阈值,人类将识别出机器人要求哪些信息以减少 |mH −MH|。
- GH 人类选择、生成并执行适当的交际行为AH以传递所需的信息为目标。

纵然可以设计机器人以使其按照提议的模型工作,但无法保证交互中的人类也会如此。然而,即使人类并不愿意按照该模型所建议的方式变得可理解,模型中的机器人部分仍然适用。

如上文模块IR和IH所述,对mH和mR的推断有时不仅来自交际行为AR和AH,还来自人类与机器人之间的通用交互Ix。例如,有时可以通过观察人类的物理运动来推断人类意图,而这些运动并非专门用于承受理解(这在意图识别、行为识别和活动识别中是典型情况)。人类交互通常涉及使用交互I_x和交际行为AH进行沟通的复杂混合,并且可能还依赖于机器人生成的相应交互[87]。这种麻烦的交互模式并未在当前模型中明确描述。

对mH和mR的推断也可能分别利用MR和MH中的信息。例如,示例7中的自动驾驶汽车可以记住(存储在 MR中)它已向人类告知了更新后的路线计划。利用该存储的信息,汽车可推断人类持有包含更新路线计划的机器人SoM的模型mR。由于关于路线计划的知识不会出现关键性不匹配,汽车将不会反复执行相同的交际行为。

如图2所示,交际行为的生成(在GR中)主要取决于要传递的信息(NR),但也依赖于MR中的信息。例如,使用手势作为交际行为的模态只有在接收器正看着你时才奏效,而在嘈杂环境中语音可能不是一个好的选择。因此,为了确定合适的模态,机器人应该访问其人类心智模型以及局部感知。这两者都包含在MR中。

通过如果人类与机器人的感知与行动能力不对称[88],那么选择适当的交际行为就会变得更加复杂。一个例子是摄像头安装在人形机器人腹部而非眼睛内部的情况。此时,人类可能会试图通过向机器人的“眼睛”做手势或示意来与其沟通(类似于我们在视频会议中有时会犯的错误)。在某些情况下,能够通过修改机器人的物理设计来处理这一问题。而在相反的方向上,机器人也可能克服这些差异

通过定制其用于沟通的行为,提升感知和行动能力。例如,为了表达视觉注意力,机器人可能会转动头部,即使摄像头安装在腹部。在其他情况下,这种定制可能涉及学习以适应人类的需求和能力 [3, p. 157]。

通过我们所提出的模型受益于香农模型(图1)中消息与信号在概念上的分离。正如消息独立于传输信号一样,待传达的信息也独立于所选择的交际行为。例如,就像一串词语可以通过铜线上的莫尔斯信号或通过电子邮件传输一样,机器人的心理状态也能够通过身体姿态或口头表达来传达。此外,所提出的模型承认了先前对香农模型的批评,即香农模型在解码消息时未考虑语境[27]。在我们的模型中,机器人相应的操作是推断mH,该操作不仅依赖于交际行为AH,还依赖于一般交互Ix以及机器人的心智状态MR。因此,接收器可能会根据额外的交互信息和先前的感知,对同一交际行为做出不同的解释。与香农模型类似,这种解释还可能受到通信噪声的进一步干扰。

4.1 应用该模型的示例

所提出的模型可应用于第4节中描述的自动驾驶汽车的扩展示例。在此示例中,汽车的行人保护系统检测到一名行人正在接近高速公路。根据交通状况,该平台决定不减速。沟通行为的生成、沟通和解释如下进行:
- IR 由于行人正在进入道路,汽车推断出行人认为汽车有减速的意图。
- NR 汽车得出结论:汽车的意图与行人的推断信念之间存在严重不匹配。因此选择向行人传达汽车的意图,以减少这种不匹配。
- GR 汽车通过鸣笛和闪烁前灯的方式来传达其意图。

行人的认知过程建模如下:行人决定过马路,进入道路,并执行以下步骤:
- IH 行人将鸣笛和闪烁的车灯解释为汽车不打算减速的信号,而是期望行人不要继续穿越道路。这也是行人做出的新决策(在模型之外做出的决策)。
- NH 行人估计,在mH(汽车认为行人不会横穿)与MH(行人确实无意横穿)之间不存在严重不匹配。因此,无需向汽车传达任何信息。
- GH 行人没有做出任何交际行为。需要注意的是,行人停下可能被视为一种交际行为,在模型的下一次迭代中,汽车会将其解释为不打算过马路的意图。

哪怕此示例展示了一个复杂的情况,即机器人和人类双方都涉及二阶心理理论(ToM),但该模型也适用于更简单的交互模式。在示例6中,机器人可被设计为每当预计电量即将耗尽时,便向用户通报电池状态(机器人的交际行为),而无需推断人类的心理状态或分析来自人类的任何交际行为。机器人将始终假设人类不了解机器人的电池状态(即假设MR与mR之间存在某种固定的不匹配)。这相当于机器人对人类应用了零阶心智理论(zeroth‐order ToM)。

5 为理解而设计交互

如第4节所述,机器人可能会执行交际行为以便被理解。我们所提出的模型从总体上描述了这些行为是如何生成、传递和解释的,但实际的实现需要针对具体应用对模型中的模块IR、NR和GR进行具体实现。此类完成可以通过回答以下障碍及子问题来指导:

问题1 (NR)应该向人类传达哪些信息(如果有)? 第一需要明确的是我们希望实现什么样的理解,以及不匹配 |mR − MR| 应代表和包含什么内容。更具体地说,我们需要回答:
a) 应如何估计不匹配 |mR −MR| ?请注意,mR超出了机器人的可达范围,必须根据mH中的信息来估计这种不匹配。

118 |托马斯·赫尔斯特伦和苏娜·本施

b) 应如何确定不匹配 |mR −MR| 是否足够大以产生交际动作?
c) 应该传达哪些信息以减少 |mR −MR|?有时,仅传达存在显著不匹配的事实可能就足够了。而在其他情况下,则应传达导致不匹配的MR部分。例如,若是不匹配涉及机器人预期的下一个动作,则相关信息可能包括机器人打算做什么(示例1、2、3、4),如何执行(示例3),以及机器人为何打算这样做(示例2)。对于SoM中非动作的部分,传达为什么也可能很重要。例如,如果一个社交机器人表现出“有压力的方式”,与之互动的人类可能会受益于知道其原因是他们即将错过计划中的公交车行程。
d) 沟通应在何种详细程度上进行?沟通通常应尽可能简洁,同时仍提供所有必要信息。例如,有时只需通过提及目标位置即可用于沟通,它通过名称(例如“我要去厨房”)来表达,但有时需要精确的x‐y位置。此外,说明一个动作的why和how,可能需要在简洁性和充分性之间进行权衡。

Q2(IR)机器人应如何表示和推断人类的思维?
a) 机器人的模型 mH 中应表示人类心智 MH 的哪些实体(如果有的话)?这些实体用于估计不匹配 |mR − MR|,因此问题 Q2a 与疑问 Q1a 紧密相关。
b) 这些实体应该如何表示?
c) 应如何从人类执行的交际动作 AH、机器人心智 MR 以及常规交互 Ix 推断出 mH?

难题3 (GR)如何生成交际行为以用于沟通所需的信息?
交际行为的目的是促进人类模型 mR 的改变,使其更接近机器人心智 MR。可以采用多种模态和技术。机器人可以经过专用行为向人类明确地传递信息(例如示例1、2、5、6和7),例如使用口头表达、共同注意、眼神接触、手势、面部表情、肢体语言 [17, 95],距离、光投影 [44, 89],动画灯光 [82],或增强现实 [90, 91]。机器人也可以通过调整自身行为来隐式地传递必要信息(例如上述示例3、4和8),例如使用情感表达、副语言(如节奏、语调、速度或重音)或动作变化(如速度或路径选择)。值得注意的是,无动作也可能提供关于心智状态的信息,从而具有交际功能。例如,当有人与机器人说话时,机器人不转向该人,表明它正忙于其他事情。

在模型范围之外,需要解决的两个特定重要的问题是:
问题4 机器人应将沟通行为指向谁?通常情况下,机器人与单个人进行交互,但在更复杂的场景中,例如机器人在多名旁观者之间导航时,决定与谁进行沟通就成为一个一个重要且非 trivial 的问题。

问题5 哪种机制应使模型生效?在许多情况下,机器人不应持续生成交际行为以减少MR与机器人对mR的估计之间的差异。相反,应有一种机制来识别出人类需要理解的那些重点情境

可理解的机器人 | 119
机器人。这通常是一个不容易回答的问题,并包括诸如:
a) 信息应在何时进行沟通?
b) 机器人应主动发起沟通,还是应响应人类的请求?在前一种情况下,时机可能至关重要,尤其是在机器人和人类都需要对计划动作有相互理解的协作环境中。

5.1 问题的示例场景

所提出的模型可能与上述疑问一起,在设计使机器人对交互中的人类可理解的功能时,提供支持和启发。本节其余部分给出了这样一个过程的示例,以[44]中描述的案例作为基线,并通过考虑对问题Q1‐Q5的不同回答来扩展替代方案和办法。[44]的总体目标被定义为:让机器人叉车在同一区域内与移动中的人类平稳且安全地交互。就理解而言,这意味着人类应能够理解机器人计划如何移动(此处不考虑诸如机器人让行给人类等其他方法)。

Q1 a,b)根据总体目标,不匹配 |mR − MR|指的是人类对机器人的规划路径的估计与机器人实际规划路径之间的差异。Q1a和Q1b可以有多种根本不同的回答方式,我们将并行考虑两种选择:
- 第一种选择记为TM0:|mR − MR| 被假定为取一个恒定值,该值大于生成交际行为的给定阈值。这对应于假设人类对机器人的规划路径始终存在显著错误的估计。这可被视为零阶心智理论,在[44]中采用的就是这种选择。
- 第二种选择记为TM1:|mR − MR| 仅当机器人的规划路径与人类估计的意图路径将导致碰撞时,才被赋予超过阈值的值。这可以看作是机器人推断人类对机器人的规划路径存在错误估计,这对应于对人类的二阶心智理论。请注意,这并不需要机器人推断人类对机器人规划路径的具体估计,而是基于理性假设的推理:由于碰撞即将发生,因此人类的估计可能是错误的。

子困难Q1c涉及应传达哪些信息。对于TM0而言,最明显的选择可能是机器人的规划路径,这也是[44]中所采用的选择。此外,还能够提供机器人计划沿该规划路径行进的原因。why更简单的选择可能是仅传达即将发生碰撞的事实。

Q1d 涉及细节的详细程度。在 [44], 中,选择了规划路径的大部分用于沟通。对于 TM1,,一种替代方案是仅传达碰撞预测位置。

疑问2 a)机器人应尝试推断并表示人类心智的哪些部分,本质上取决于问题1a,b中的选择。对于TM0,机器人无需推断MH的任何部分。对于TM1,机器人必须推断人类的预期路径。
b) 人类的预期路径可以例如表示为一系列楼层坐标。
c) 可以通过推断人类感知到的运动模式来推测其预期路径。

问题3 可能存在大量模态,每种模态都有其优缺点。在 [44],中,要传递的信息(困难1c)是机器人的规划路径,而交际行为是投射在地面上的光图案。如果仅需传达即将发生碰撞的信息,则行采用闪烁灯光或鸣笛等警告信号作为可能的模态。

问题4 最便捷的选择是以广播方式将交际行为指向无特定对象,而是指向任何“在倾听”的人。针对特定对象可能具有侵入性较低的优势,但这需要先进的人类检测机制,并且还会对交际行为的设计造成限制。

问题5 最轻松的选择是让交际行为持续生成。其他选择可能是在人类处于靠近机器人的移动状态时才进行。

该示例说明了以理解为导向的交互设计过程如何从提出的五个问题及相关子问题中受益。系统化分析揭示了实现理解所需内容的不同表述方式,以及达成理解的替代方法。

120 |托马斯·赫尔斯特伦 和 苏娜·本施

6 摘要与结论

我们使用术语心理状态(SoM)来指代机器人认知环境中的所有相关信息,例如机器人的行为、意图、欲望、知识、信念、情绪、感知、能力与局限性、任务不确定性以及任务进度。我们将对机器人的理解进一步定义为:拥有足够的关于机器人SoM的知识,从而能够成功地与该机器人进行交互。“交际行为”这一术语被引入,用以指代旨在增加交互中人类对机器人SoM了解的机器人行为,即提升人类对机器人的理解程度。

提出了一种用于理解的交互模型。该模型描述了机器人如何生成和执行交际行为,以减少机器人自身的心智状态(SoM)与其对人类关于机器人SoM的推断模型之间的差异。人类也以相应的方式被建模。该模型适用于人类和机器人都使用一级或更高阶心理理论(ToM)来相互理解的情况,也适用于更简便的情形,即机器人执行静态的交际行为以承受人类对机器人的理解。因此,该模型可用于表征大量现有研究,这些研究无论明确或隐含地都涉及可理解的机器人。该模型还可为未来真正利用人类与机器人双方ToM能力的可理解机器人研究给出启发。该模型给予的一个特有有价值的见解是:将要传递的信息与用于沟通的手段(即交际行为)在概念上加以分离。

通过必要的,并受到鼓励,以实现可理解的机器人的通用设计解决方案。就是实现用于生成、交际和解释交际行为的机制显然可能是艰巨的任务,但能够经过回答提出的五个问题来指导:应向人类传达哪些信息(如果有)?,机器人应如何表示并推断人类的心智状态?,应如何生成交际行为以传达所需信息?,机器人应将交际行为指向谁?,以及应由哪种机制使模型得以实现?。一些先前回顾的研究工作为其中许多或全部问题提供了特定应用的答案,但持续开展基础性研究被认为