论文笔记《Hand Gesture Recognition with 3D Convolutional Neural Networks》

一、概述

　　Nvidia提出的一种基于3DCNN的动态手势识别的方法，主要亮点是提出了一个novel的data augmentation的方法，以及LRN和HRn两个CNN网络结合的方式。

　　3D的CNN主要是使用了三维的卷积核去处理视频序列，是视频分析中常用的方法之一。

　　这里是可以识别手语这种动态连续的手势的。

二、亮点

　　首先..竟然没有state of art...

　　1、预处理：因为输入是连续的视频序列，所以需要对他们进行规范化，这里用nearest neighbor interpolation的方法来删除或者重复一些frame，来做出一个32frames的视频序列，然后做了一系列的预处理工作，用sobel算子得到梯度图啊，downsampling之类的，最后CNN的inputs是 57*125*32大小的梯度图和深度图交错的视频序列。

　　2、分类：用了两个CNN网络，hign-resolutin network 和low-resolution network，他们分别有一个参数W，两个的区别是，第一个就是正常的前面描述的网络，后面一个是28*62*32的一个input的网络，最后的结果是两个预测的成绩，这里运用了多空间尺度，所以泛化能力得到了提高。

　　3、optimation：cost function用了负的log-likelihood，优化用的是Nesterov accelerated gradient，参数设置的方法也是比较新的..具体名字忘了，反正就是对于防止方差过大有很好的抑制作用。

　　4、data augmentation：因为是视频序列，所以在时间和空间上做了很多操作，具体可以看论文，这个工作是他们的核心，但暂时不是我个人关注的重点，因为我觉得这个从学术上看，只能说是个不错的trick吧。

三、结论

　　两个网络的fusion我觉得是个很好的想法，或许以后还有进一步的想象空间，data augmentation也确实是提高泛化能力的一个不错的方法。

posted @ 2016-08-25 17:33 亦轩Dhc 阅读(4111) 评论(1) 收藏举报

刷新页面返回顶部

亦轩Dhc

论文笔记《Hand Gesture Recognition with 3D Convolutional Neural Networks》

公告