Learning the signatures of the human grasp using a scalable tactile glove:论文研读一(论文翻译)
一、背景
人类可以感觉,称重和抓握各种物体,同时在施加适度的力的同时推断出它们的材料特性,这对于现代机器人来说是一组具有挑战性的任务。提供感觉反馈并能使人抓握灵巧的机械感受器网络在机器人中仍然难以复制。尽管基于计算机视觉的机器人抓取策略在大量的可视数据和新兴的机器学习工具方面已取得了长足的进步,但目前尚没有等效的传感平台和大规模数据集可用来探测触觉信息的使用人类在抓取物体时依赖的东西。研究人类如何抓取物体的机制将补充基于视觉的机器人物体处理。重要的是,当前无法记录和分析触觉信号限制了我们对触觉信息在人类掌握本身中的作用的理解,例如,如何使用触觉图识别物体并推断其特性尚不清楚。在这里,我们使用可伸缩的触觉手套和深层卷积神经网络来表明,均匀分布在手部的传感器可用于识别单个物体,估计其重量并探索在抓住物体时出现的典型触觉模式。传感器阵列(548个传感器)组装在针织手套上,由压阻膜组成,该压阻膜通过被动探测的导电线电极网络连接。使用低成本(约10美元)的可伸缩触觉手套传感器阵列,我们记录了一个大型触觉数据集,其中包含135,000帧,每个帧覆盖整个手部,同时与26个不同的对象进行交互。这组与不同对象的交互作用揭示了人类手在操纵对象时其不同区域之间的关键对应关系。因此,通过自然机械感受器网络的人工类似物的镜头,从人类抓握的触觉特征中获得的见解可以帮助假肢,机器人抓握工具和人机交互的未来设计。
通过施加精确控制的力量,人类可以毫不费力地操纵物体和工具。要了解人类掌握的触觉反馈,我们可以使用新兴的机器学习工具来尝试从高维触觉数据中提取高级属性和关系。这样的工具需要具有高空间分辨率的大规模触觉数据集。然而,由于用触觉传感器密集地覆盖人的手具有挑战性,因此不存在覆盖整个手的人的握把的大型触觉数据集。这些触觉传感器对尺寸,分辨率和机械柔韧性有严格的要求。尽管电子皮肤已经在合规性要求方面取得了进步,但是具有高覆盖率且能够收集大量数据集的电子触觉手套尚未得到证明。 Tekscan Grip系统(带有349个传感器)是最昂贵的市售系统,但不能完全覆盖手部(详细信息和比较清单包含在补充信息中)。当前的高分辨率光学触觉传感器和仿生多模式传感器集成尚未成功绘制完整的人手图。总体而言,创建可扩展的触觉反馈网络和获取覆盖手部的大型触觉数据集的障碍阻碍了我们对人类掌握的基本了解。
二、STGA
我们首先提出一种制造低成本,可扩展的触觉手套(STAG)的简单方法,该手套可覆盖548个传感器的整个手部。 STAG可以记录触觉视频(帧频约为7.3 Hz),测量法向力在30 mN至0.5 N范围内(量化约为150个水平,峰值滞后约为17.5%)。重要的是,该设备可以用低成本材料(约合10美元)制成,并且可以长时间使用。 STAG可以转换为多种不同的设计(请参见下文)。我们引入了使用STAG记录的触觉地图的大规模数据集(135,000帧),同时用一只手操纵对象;请参阅数据集获取条件的方法。从数据集中出现的手指区域之间的空间相关性和对应性代表了人类抓握策略的触觉特征。在这里,我们观察并从日常的成功人与人互动中学习,其长期目标是帮助机器人和假肢的发展。
视觉和触觉域之间的基本形状感知原语的相似性是已知的。因此,我们根据视觉感知研究(显示视觉数据中显示16×16像素足以识别人脸和32×32像素足以进行场景识别来假设,类似的最小传感器数量适用于触觉传感器。 STAG包括一个传感套,在定制的编织手套顶部附有548个传感器。图1b显示了548个传感器和64个电极的位置(方法中包括了制造细节)。制成的手套如图1a和扩展数据图1a所示(有关手套的高分辨率扫描,请参见扩展数据图1b)。传感器阵列由一个力敏膜(0.1毫米厚)组成,该力敏膜的每一面都由正交导电线(0.34毫米)网络寻址,并由薄粘合剂(0.13毫米)和低密度聚乙烯(LDPE)绝缘膜(约13μm)。正交电极之间的每个交叠点都对法向力敏感,从而通过力敏薄膜调节电阻。力敏薄膜经过激光切割以适合定制的针织手套(黄色),并带有用于引导线放置的孔和手指关节处的插槽。传感器层压板很薄,机械上也很柔软(补充图1中显示了三点弯曲测试结果;补充视频1直观地展示了该合规性)。单个传感元件的典型力响应(图1c)以通过膜的电阻来衡量,从约4kΩ(空载)变化到2kΩ以下(在0.5N正常负载下)。每个传感元件都对较小的力敏感(始于约25 mN;扩展数据图2a),饱和度超过0.8 N.在工作范围(30 mN至0.5 N)内的力响应在多个设备上保持一致(扩展数据图.2b)和多个周期(扩展数据图2c,d中的1,000个周期测试)。传感器元件在高达60°C的温度下表现出稳定的电阻,并在高于80°C的温度下变得绝缘(差示扫描量热法和电阻测量在扩展数据图2e,f中显示)。

图1 | STAG作为一个从人的掌握中学习的平台。
a,STAG由一个传感器阵列组成,该阵列具有548个覆盖整个手部的元素,并连接到定制的编织手套上。电气读出电路用于以大约7.3 fps的速度获取每个传感器记录的法向力。使用此设置,我们可以在与26个不同对象进行交互时记录135,187个触觉图的数据集。纯粹在触觉信息上训练的深度卷积神经网络可用于识别或称重物体并探索人类抓握的触觉特征。中间显示的手套是渲染图。
b,STAG体系结构的设计显示了548个传感器的各个位置,以及互连,插槽和64个电极。压阻传感器阵列是通过层压简单的材料制成的,可以轻松地扩展到不同的架构(扩展数据图3和5)。
c,每个传感器元件通过显示穿膜电阻的变化来响应法向力。传感器特性可在多个设备上重复且长期可靠(扩展数据图2)。插图以对数力标度显示相同的特性(轴标签与主图相同)。
我们使用基于接地的电气隔离方案(包括充电电阻以提高读出速度)的修改版来提取单个传感器的测量值(读出电路成本约为100美元;有关制造细节,请参见方法)。电路拓扑在图1c的扩展数据中显示,并与制作的印刷电路板图像(图1d的扩展数据)一起显示。放大器(以及模数转换器ADC)输出端的传感器响应相对于力呈线性关系(参见补充图2)。我们注意到,可以简化STAG设计以快速制造规则阵列。扩展数据图3显示了1024个元素的传感器,传感器间距为2.5毫米。这样固定在平面上的规则阵列可以记录不同对象的其余身份(扩展数据图4)。此外,尽管力敏薄膜的延展性较弱,我们仍可以通过将扩展设计23纳入传感器结构中来增强可实现的拉伸性,如扩展数据图5所示。具有10×10元素的扩展原型可以在多个方向上拉伸,折叠或压碎(扩展数据图5e,f;请参见补充视频2)。
STAG原型的可靠性使我们能够在与26个对象的集合(扩展数据图6)进行交互的过程中,通过单手操作数小时来记录触觉视频(以及相应的可视图像)(记录总长度超过5小时;有关数据集获取的详细信息,请参见方法)。补充视频3-5中显示了来自我们数据集的互动示例集。我们确定物体与手套接触的特定框架(请参阅过滤程序方法)。我们训练卷积神经网络(CNN)以使用这些过滤的帧(传感器坐标中的32 x 32数组)识别对象。我们使用基于ResNet-18的体系结构24,该体系结构接受N个输入帧(图2a;请参见方法中的网络实现)。分类精度随着输入数量的增加而提高,并在大约七个随机输入帧的情况下达到其最大性能(图2b)。这是预料之中的,因为与一个对象的多次接触有助于更准确地识别它。图2c显示了八个示例触觉帧及其输出分类向量(扩展图显示在补充图3中)。在这里,我们观察到杯子很容易被手柄握住,但是当从侧面抬起时,它可能与罐子或其他物体混淆。同样,笔的细长形状比与手指之间的握持更容易识别。有趣的是,当用手柄握住杯子时(或握住喷雾罐时),在触觉图中从关节周围的传感器(本体感受数据)捕获的独特手势也可能有助于对象分类。
我们的网络学习到的第一个3×3卷积滤波器显示在扩展数据图7i中。为了以更高的分辨率了解功能,我们将输入分辨率缩放了三倍并适当调整了网络元素(请参见方法)。自适应网络学习到的第一层卷积滤波器如图2d所示。该网络主要学习类斑点的点检测器,边缘检测器和低频滤波器。扩展数据图7j中显示了ImageNet25数据集上训练有素的标准ResNet-18所学习的视觉域过滤器,以进行比较。此外,我们可视化了受过训练的网络的功能(使用网络剖析;有关详细信息,请参见方法),并观察到早期的卷积层在小区域被激活。高层卷积滤波器通常是由更复杂的与抓取相关的概念激活的。补充图4b显示了响应较大接触模式或使用特定手部区域时过滤器的激活图。
人类很容易能够基于运动来关联相似的抓握,并且在选择最独特的(信息性)抓握组时,对对象的识别可能会更好。因此,我们没有选择N个随机帧,而是通过k均值聚类为输入记录确定了最多样化的N个帧集(图2e中显示了一个N = 5个簇的示例;请参见映射在补充数据1)中。使用N个输入帧(每个集群一个)的分类精度表明,当使用少量输入时(图2b中的N <4),聚类在准确性方面有一定程度的提高。我们注意到,对于大的N,基于聚类的输入的结果与随机选择的输入的结果收敛,因为当N大时,随机选择会很好地捕获数据。相应的混淆矩阵显示在扩展数据图7a-h中。我们观察到形状,大小或重量相似的物体更容易彼此混淆。诸如安全眼镜,塑料勺子或硬币之类的轻物体更容易被误分类,而即使有少量输入框,也可以很容易地检测出带有明显特征的大而重的物体,例如茶盒。
上述对象识别测试有助于评估STAG捕获有用数据的能力。我们还通过均匀地或基于手的不同区域对触觉数据进行下采样来评估较低传感器数量的分类性能。随着传感器有效数量的减少,分类精度显着下降,从而突显了对大量传感器的需求(分类性能和有效接收场如补充图5所示)。
除了识别物体外,人类还可以根据触觉信号轻松估算物体的重量。 估计权重的能力在机器人技术中具有实际用途,并且一直是人类感知实验的重点。 为了从触觉交互中估计物体的权重,我们使用了一个有限的多指抓握数据集,该物体是从上方拾取物体的(补充视频6中的示例记录)。 拾取物体后,将单个帧用作CNN的输入以预测其重量。 请注意,训练数据和测试数据具有不相交的对象集(请参见方法)。 扩展数据图8显示了一组有代表性的触觉框架和相应的图像。 图2f中的结果表明,在整个权重范围内,我们的网络比纯朴的线性模型表现更好。
我们查看了紧握物体之前和之后的触觉图的典型顺序(图3a中显示了一个示例),以了解深度的握持方式。越来越多地铰接手以紧密贴合物体,在此期间,触觉图中的本体感受信号逐渐增加,直到在“到达”阶段2接触为止。第一次接触物体(“加载”阶段)时,框架的平均压力突然增加,导致陡峭的时间梯度;红点表示检测到的帧。简而言之,我们将先前的局部最小值识别为接触前的帧(蓝点),该框具有最大的手势信号(请参见方法中的完整处理详细信息)。从局部最大帧(绿点;抬起和保持阶段)中减去此空手姿势帧,将其视为具有最大对象信息的帧。这种方法有助于将触觉图分解为手势信号和与物体有关的压力图(方法中包含了分解的详细说明)。我们分析了选定传感器与手套中其余传感器之间的Pearson相关系数,如图3b所示。我们的相关性显示在0到1的范围内;我们没有观察到传感器之间的任何显着负相关。我们发现在指尖和拇指基部之间最大的相关性,其中力主要作用于此。这是人类精确抓握的预期标志。可以在我们的交互式地图(补充数据2)中查看每个传感器的测量相关性。指尖和全手之间的传感器之间的相关性以及分解后的手部姿势信号显示出几乎没有结构化的相关性,部分证明了我们的分解方法的有效性(扩展数据图9)。在手的不同区域上分解后的与对象相关的触觉图上的典范相关性分析显示了大手指的远指之间的协同作用,这通常用于在物体抓握过程中产生力(图3c)。在其他指骨中,分布更均匀,与闭合的抓握相对应,其中大部分手表面立即与对象接触(有关区域级相关性的交互式图,请参见补充数据2)。不同传感器之间的相关性表明不同手部区域之间的协作。众所周知,人类掌握的本质是协作的[27,28]。因此,我们纯粹从高分辨率的触觉信号中就经验地和定量地观察到这种合作及其空间范围。为了直接测试来自STAG的触觉信号的本体感受内容,我们基于标准的抓握分类法,在没有物体的情况下明确了特定的手部姿势(请参见图10a中的G1至G7)。我们观察到,与特定手势相关的触觉图可以以89.4%的准确度进行分类。扩展数据图10b中显示了使用t分布随机邻居嵌入(t-SNE)进行聚类的可视化;来自分类测试的混淆矩阵显示在扩展数据图10c中;交互式数据包含在补充数据3中。尽管从可视图像中进行手识别已经变得越来越稳固30,但如果没有可扩展的触觉感应策略,提取其他有意义的反馈信号(例如与物体建立接触)仍然具有挑战性。
我们的结果证明了高尺寸触觉传感器的广泛用途,并突出了其在未来工作中的潜力。目前的研究主要集中在触觉信号的空间关系上。数据集还显示了时间链接在一起的传感器之间的重要关系。这些时间关系凸显了人类执行动作的动态。将这些时间关系与触觉信号之间的空间对应关系联系起来,将大大增强我们对灵巧操纵基本原理的理解。同样,此处显示的数据集还包含同步的视觉信息以及触觉数据。在这方面,STAG是跨视觉和触觉域进行多模式学习的有用测试平台,对于机器人应用程序而言可能很有用。最后,可以增强STAG硬件平台本身,例如,可以为STAG装配模拟人类手中不同机械感受器组的各种传感器。此外,从可穿戴模块无线传输数据和更紧凑的包装将扩展其在需要大量移动性的操纵任务中的效用。
任何方法,其他参考资料,Nature Research报告摘要,源数据,数据可用性声明以及相关的登录代码均可在以下位置获得:
https://doi.org/10.1038/s41586-019-1234-z。

浙公网安备 33010602011771号