论文笔记《Hand Gesture Recognition with 3D Convolutional Neural Networks》

一、概述

  Nvidia提出的一种基于3DCNN的动态手势识别的方法,主要亮点是提出了一个novel的data augmentation的方法,以及LRN和HRn两个CNN网络结合的方式。

  3D的CNN主要是使用了三维的卷积核去处理视频序列,是视频分析中常用的方法之一。

  这里是可以识别手语这种动态连续的手势的。

  

二、亮点

  首先..竟然没有state of art...

  1、预处理:因为输入是连续的视频序列,所以需要对他们进行规范化,这里用nearest neighbor interpolation的方法来删除或者重复一些frame,来做出一个32frames的视频序列,然后做了一系列的预处理工作,用sobel算子得到梯度图啊,downsampling之类的,最后CNN的inputs是 57*125*32大小的梯度图和深度图交错的视频序列。

  2、分类:用了两个CNN网络,hign-resolutin network 和low-resolution network,他们分别有一个参数W,两个的区别是,第一个就是正常的前面描述的网络,后面一个是28*62*32的一个input的网络,最后的结果是两个预测的成绩,这里运用了多空间尺度,所以泛化能力得到了提高。

  3、optimation:cost function用了负的log-likelihood,优化用的是Nesterov accelerated gradient,参数设置的方法也是比较新的..具体名字忘了,反正就是对于防止方差过大有很好的抑制作用。

  4、data augmentation:因为是视频序列,所以在时间和空间上做了很多操作,具体可以看论文,这个工作是他们的核心,但暂时不是我个人关注的重点,因为我觉得这个从学术上看,只能说是个不错的trick吧。

三、结论

  两个网络的fusion我觉得是个很好的想法,或许以后还有进一步的想象空间,data augmentation也确实是提高泛化能力的一个不错的方法。

posted @ 2016-08-25 17:33  亦轩Dhc  阅读(4023)  评论(1编辑  收藏  举报