Reading papers_7(与human activity recognition特征提取相关,ing...)

1.读Dollár, P., V. Rabaud, et al. (2005). Behavior recognition via sparse spatio-temporal features, IEEE.

　　本文作者提出了检测视频数据特征点，即spatio-temporal特征，即时空特征点，并将该特征应用于行为识别，且在前提假设比较少的情况下提出了一个人体特征检测和行为识别的通用框架。

　　行为识别的研究途径有以下几种：通过恢复视频中人体的位置和姿态，但是模型匹配很难做到准确；通过跟踪空间特征点轨迹来进行识别；通过不断的重复跟踪来对人体进行行为识别；通过检测时空特征点来进行行为识别。

　　作者的算法分为4个步骤。

特征检测：

　　作者是思想是需要将图片的空间检测算子扩展到视频的时空检测算子。常见的图片空间检测算子途径是：角点检测，比如harris角点；LOG算子，比如sift；显著点检测；但是在此之前这样的扩展工作只有3D Harris特征。这个特征点有很好的性质，得到了作者大篇的表扬。但是作者后面进行试验用到的3个数据库除了正常的行为数据库外，还有啮齿类动物行为数据库，在这2类行为识别中，3D Harris特征点数目太少了。并且这时这样的时空角点并不是很好的特征，所以不得不寻找更好的时空特征。

　　在摄像头静止或者摄像头运动但是其运动能够通过算法进行补偿的前提下，作者提出了一个时空特征点检测算法，论文第4页中其计算有公式。该特征点检测算法能够周期性运动的物体，或者其他有着显著运动特征的物体，且检测出来的特征点数目非常多。但是如果物体做纯粹的平移运动或者运动特征不明显则检测的特征点数目很少。

Cuboid：

　　当检测到特征兴趣点后，就需要将每个特征兴趣点扩展成cuboid，cuboid的长和宽的确定在文章中有简要的介绍。接着就需要用什么指标比较2个cuboid的相似度了。首先需要将cuboid转换成向量，作者采用了3种方法，即归一化像素值；引入亮度梯度；引入窗口光流。然后作者比较了直接用特征向量，用全局直方图，用局部直方图3中思想作为计算cuboid相似度的依据，发现直接采用向量效果更好，这样的特征向量其本质就是PCA-SIFT。

Cuboid prototypes：

　　很直观，当不同人做同一种动作时，尽管其表观和运动有所不同，但是其特征表示应该一样，因为是同一种行为。所以在行为是被领域，单独检测一个cuboid不是很重要，而是要检测出cuboid的类型，即cuboid prototypes。

所以在作者在进行检测cuboid后，将大量的cuboid进行了k-means聚类。所以在训练阶段，每个cuboid都被分到了某一个cuboid protypes。

行为描述子：

　　当找到了cuboid protypes后，就可以进行行为描述了。行为描述作者采用的是cuboid protypes直方图。直方图直接的距离采用欧式距离或者卡方距离。

　　对于实验部分，作者采用了3个数据集。面部表情数据集(作者自己的)；老鼠行为数据集(作者自己的)；KTH人体行为数据集(公认测试集)。在这个3个数据集上，作者和另外3中比较流行的行为识别算法ZMI,EFROS,CUBOIDS+HARRIS做了比较，并证明自己的算法(取名为CUBOIDS，其实就是提取的特征过程)比其他3种效果都要好。分类器采用SVM比1NN效果稍好。

论文写作技巧学习：这篇paper中，其实只是提出了一个时空特征点的检测公式，但是确写了一篇非常棒的paper，难得。究其原因，作者将每个参数的选取过程都写进去了，比如说将特征点转换成cuboid时的向量选择过程，作者通过实验对比发现直接用向量比较好。总之，就是论文的写作过程尽量体现平时做对应项目的过程。另外作者自己做的2个数据库也花了大篇的文章来记载。

2.读Laptev, I. (2005). "On space-time interest points." International journal of computer vision 64(2): 107-123.

　本文是一篇经典关于时空特征点的文章，后人称其算法为STIP，即时间空间感兴趣点。作者主要分为以下4部分来讲。

时空兴趣点的检测：

　　为了检测时间空间发生的行为，其基本思想是基于harris角点和forstner角点(个人感觉基本是harris角点)，即在图像局部区域空间和时间轴上像素值都有显著变化的点作为时空兴趣点，因此在时间轴上匀速直线运动的点是不会被检测的出来的。为了使该算子自适应尺度变化，先对图像在时间和空间做了尺度变换，即采用了不同尺度的高斯滤波函数，后面实验结果证明，这2个滤波尺度的大小对实验结果影响很大，与视频中人体行为的特点有关。

　　类比经典的harris算法，这里扩展了一个时间维，采用高斯窗口，同理后面转换为计算一个3*3的矩阵的3个特征值，最后用这3个特征值的和以及积构成一个响应函数H，对H设定阈值来计算对应点是否为所需点。

　　这里有网友将其过程较详细的贴出来了：http://www.cnblogs.com/ztfei/archive/2012/05/08/2489900.html

时空尺度因子的自适应选择：

　　上面提到，时空域2个尺度因子的选择不同对实验结果有明显的不同，大致影响关系为：时间域内尺度因子越大，则表明动作发生的时间越短，所以优先检测出动作持续时间短的特征点，时间域内尺度因子越小，则优先检测动作持续时间长的特征点，论文中有示意图介绍；同理在空间域内的尺度因子影响效果一样。

　　作者是通过取归一化后的在时间尺度和空间尺度拉普拉斯算子最大值，来检测时空域范围内事件的发生，基于这种机制就能够得出尺度变换无关的时空兴趣点检测算子。文中有大把的公式推论，没真正看懂。其目的无非是提出一种怎样自适应选择时空尺度因子，并给出了一个算法流程表。

运动的分类：

　　通过上面几步，可以检测出一些时空兴趣点，但是为了区分不同动作之间以及动作与噪声之间的兴趣点，作者又对这些兴趣点进行了分类，每一类兴趣点用一个向量表示，2类兴趣点直接的距离采用马氏距离计算，当然在这之前，作者先采用了k-means对这些兴趣点进行了聚类。

video interpretation(不懂怎么翻译比较好，视频解说？)：

　　这一节的主要内容是，在video interpretation领域怎么应用视频序列的稀疏表达，这些稀疏表达是用已经分类好的时空兴趣点计算得来的。作者通过行人检测和姿态估计做了详细的说明。

　　在行人检测方面，作者对“行走”这一动做建立了模型，这个模型由一系列的重复特征点组成，这些特征点是一个6维的特征向量，包括位置，时间，尺度，类别等信息。在检测方面，有一系列的公式来进行模板匹配，也还没怎么真正看懂。

　　后面的实验证明本文提出的自适应的时空特征兴趣点在行人检测和姿态估计取得了不错的结果，这些实验环境允许在一个背景动态环境且高度杂乱，行人有部分遮挡且尺度大小有变化。

　　3.读Bobick, A. F. and J. W. Davis (2001). "The recognition of human movement using temporal templates." Pattern Analysis and Machine Intelligence, IEEE Transactions on 23(3): 257-267.

　　本文的主要思想是将人体动作采用MEI(运动能量图)和MHI(运动历史图)静态存储起来，当新来的测试视频时，先计算其MEI和MHI，然后与存储的各运动模板进行匹配，使其马氏距离之和最短，从而达到动作分类的目的。

　　作者首先从一个例子中引出MEI和MHI的出现原因。即如果图片的分辨率非常低，非常模糊，我们单独从一张静态图片是无法识别出其目标的动作的。但是当把这些静态图片变成运动视频，则我们一般都能识别出来。这是跟人体的视觉系统相关的，因为人体的视觉系统就是善于捕捉运动信息。而MEI和MHI就是保存了目标的运动历史情况，所以可以用来做人体行为识别。

　　作者将人体行为识别方法分为3大类——基于人体模型重建的，基于表观模板的，基于运动目标的。

　　基于人体模型重建是将人体的3维模型重建出来，从而进行识别。一旦人体的3维结构重建出来，其运动位置，方向，表观，尺寸的各种丰富的信息都可以用来进行行为识别。但是这个重构过程本身就是个非常复杂的过程。

　　基于表观模型是利用2维特征来进行识别的。其主要是利用目标的剪影，轮廓，边缘等信息来进行识别。

　　基于运动模板是利用目标的运动特征来进行识别，比如说光流等。这在人脸表情识别中有应用。可以将表情建模为面部个点运动产生的结果。

　　本文中MEI（即运动能量图）的获得是要先给定一个历史间隔T。然后在T时间内如果如果对应像素点有运动(一般通过帧差法检查即可)，则二值化为1，否则二值化为0.然后将各个像素点二值化的结果并起来即可。

　　MHI（运动历史图）的获得比较类似，只不过不是二值化，而是采用灰度等级。最近出现过的像素运动其灰度值最大，否则都要相应的减1.

比较容易知道，MEI可以通过MHI一个阈值搞定。且MHI是一个迭代过程，其时间和空间复杂度都比较低。

　　目标的匹配过程，需要定义一个相似度距离，文章用的马氏距离，具体的定义还没怎么看懂。作者用健美操运动员做的训练和测试视频。先用2个摄像头采集18种动作，每种动作分为7个角度，利用这些信息计算好这128个MHI和MEI。在测试过程中，输入数据分为1个摄像头的和2个摄像头的，当然是2个摄像头的分类效果好些。

　　后面作者还将这些算法进行了扩展，即能够实时自适应时间分割，并且对速度的线性改变不敏感，具体的公式还没怎么看懂。

　　MEI和MHI的应用方面，作者举了个KidsRoom的例子，大概讲的是怪物和小孩子的互动过程，没去仔细研究过。

posted on 2012-05-10 23:31 tornadomeet 阅读(3144) 评论(1) 编辑收藏举报