人体姿态识别和应用
在当今智能化的时代,人工智能为人们的生活带来了许多的便利,模式识别作为人工智能领域的一门学科,就是一门用算法、用计算机来帮助人们识别各种类别的学科,人们的生产和生活日益依赖模式识别,如最常用的人脸识别、车牌识别等。而肢体识别现在也应用到了人们的日常生活中,肢体识别本质上还是分类任务,该技术有很多应用场景,比如手势识别控制类应用、动作检测类应用、动作评测类应用、以及一些移动设备AR视频合成类应用。
对于纯粹的检测类应用,可以直接对RGB源图像进行分类,当前基于CNN的图像分类技术已经非常成熟和稳定,准确性也完全达到了实用标准。而对于另外涉及到肢体评测、AR合成类的应用,单靠图像分类技术是不够的,需要用到关键点检测技术,它能检测出肢体关键点(比如四肢、面部纹理、手指等),然后基于检测到的关键点做进一步处理。关键点检测的原理其实跟分类技术原理差不多,只是神经网络的输出不太一样。
下面展开来说说图像分类和关键检测这两种技术。
一、图像分类
图像分类是根据图像信息中所反映出来的不同特征,把不同类别的目标区分开的图像处理方法。在大部分深度学习入门教程中,图像分类基本就是hello world级别存在的,最常见的是识别猫或者狗。ImageNet数据集里有常用的1000分类,基本涵盖了大部分常见物体。
图像分类的流程很简单,输入RGB图像,输出各分类的概率值,1000分类任务就输出1000个概率值。图像分类是深度学习技术在CV领域最基础的应用,因为它涵盖了深度学习最重要的环节:特征自动提取。大家在学习CNN时会接触到Alexnet、GoogleNet或者Resnet这些之类的,全部都是特征自动提取网络,如果需要对输入分类,网络后面再接特征分类层即可。但是,大家接触过深度学习的人应该也都很清楚,图像分类是最基础的分类任务,所以起到的作用很有限,因为仅是对肢体做了一个大概的分类,无法满足更细致的需求,所以就更需要用到关键点检测技术,这里以“剪刀石头布识别”为例子来看下图像分类,以下是一个3分类的分类任务:

二、关键点检测
关键点检测的技术当前也非常成熟了,GitHub上最早的OpenPose项目非常火爆,该OpenPose人体姿态识别项目是美国卡耐基梅隆大学(CMU)基于卷积神经网络和监督学习并以Caffe为框架开发的开源库。可以实现人体动作、面部表情、手指运动等姿态估计。适用于单人和多人,具有极好的鲁棒性。是世界上首个基于深度学习的实时多人二维姿态估计应用,基于它的实例如雨后春笋般涌现。人体姿态估计技术在体育健身、动作采集、3D试衣、舆情监测等领域具有广阔的应用前景,人们比较熟悉的应用就是抖音对外推出的一个功能“尬舞机”,这一功能可以让用户随时随地打开抖音就可以体验线下跳舞机的玩法,所以抖音也成为国内首个将“人体关键点检测”技术应用于全身的产品。
关键点检测有点回归、点分类的方法。这两种方法都可以找出点在图像当中的位置与关系。通过训练后,模型能够实时推理检测出人体关键点(四肢和面部,具体技术原理是一个分支去提取点特征,回归它的点,输出点的位置;另一个分支去提取关系特征,回归它的关系,输出关系回归的位置,跟其他采用神经网络的深度学习技术相似,大家可以到网上查资料看看);关键点检测出来之后,可以进一步对这些关键点进行分析。其分析结果就不仅仅是肢体识别,还可以通过这些关键点相互之间的关系来判断肢体动作的协调程度,或者像一些AR应用在人体上叠加一些其他内容(类似抖音视频合成)。
接下来介绍两种关键点分析方法,一种是基于传统机器学习,先从关键点中人工提取特征、然后再对特征进行分析(基于常见的机器学习算法去做分类、聚类或者回归之类的);另外一种是基于深度学习端到端的处理方式,关键点直接作为神经网络的输入,输出对应想要的结果。从这两种不同的处理方式中可以了解到传统机器学习和深度学习的区别,关于两者的区别如下:
1. 关键点+机器学习方式
机器学习的一大特点是需要人工提取原数据的特征,这个过程叫特征工程。如果需要对关键点进行分析,先要从这些关键点中提取高质量特征数据,为什么要高质量?因为提取特征的方式或者说维度有很多,要保证提取到的特征数据最具代表性、能够充分表达原数据的特点。
现以“石头剪刀布手势识别”为例子,来说明如何人工提取特征数据。我们知道,石头剪刀布3种手势之间手指的形状差异很大,手指和手指关节之间的直线距离差异很明显,那么我们可以将关节之间直线距离当作关键点的特征数据,并将其提取出来。
使用提取到的特征数据(特征向量,Feature Vector),训练K-Means或者DBSCAN等机器学习分类算法模型,并将其泛用到其他新数据(新特征)。
2. 关键点+深度学习方式
跟机器学习不同,深度学习的一大特点就是神经网络能够自动提取特征、自动寻找源数据内部的规律。至于它如何提取、或者根据什么原理去提取,很难解释。你只需要将源数据(关键点坐标)输入神经网络,直接可以输出对应结果,如果是前面提到的“石头剪刀布手势识别”任务,网络可以输出三种手势分别对应的概率。
我们可以看到,机器学习和深度学习两种方式的输入是不一样的,前者的输入是人工提取的特征数据(某些关节点之间的直线距离值集合),后者输入可以直接是关键点坐标值(关键点XY值集合)。
正因为深度学习这种端到端的处理方式、省去了繁琐的特征工程,才能使得其大规模应用在复杂的非结构化数据上,比如CV中的CNN网络,它直接接收RGB格式图像作为输入,它处理的对象是像素值,而无需人工做过多的干预。
我们用关键点数据训练最简单的神经网络,将训练得到的模型应用到真实数据上。这次主要介绍了肢体识别的几种方式,以及采用关键点检测时,如何处理关键点数据。同时提到了机器学习和深度学习不同的工作流程,以及各自的特点。
免责声明:本账号部分分享的资料来自网络收集和整理,所有文字和图片版权归属于原作者所有,文章仅供读者学习交流使用,并请自行核实相关内容,如文章内容涉及侵权,请联系后台管理员删除。
浙公网安备 33010602011771号