文献阅读_低分识别_2016CVPR_Studying Very Low Resolution Recognition Using Deep Networks

Studying Very Low Resolution Recognition Using Deep Networks

自用

之前让看低分识别,不知道还要不要看了,也好久没看文献了,读几篇准备一下开学。基本上就是文献复述写着玩的，顺道熟悉下博客园。

论文结构

论文复述

论文总结

文章结构

Introduction

　　Problem Definition

Model I: Basic Single Network

　　Motivation

　　Technical Approach

　　Simulation

　　(下同)

Model II: Single Network with Super-Resolution Pre-training

　　...

Model III: Single Network with Pre-training and LR-HR Transfer

　　...

Model IV: partially Coupled Networks

　　...

Model V: Robust Partially Coupled Networks

　　...

Solving Real VLRR Problems

　　VLRR Face Identification

　　VLRR Digit Recognition

　　VLRR Font Recognition

Conclusion

Abstract

问题: ROI区域小(或<16x16)

技术L: super resolution, domain adaption,robust regression

结果:

　　1.鲁棒性部分偶尔网络同时实现特征增强和识别

　　2. 可以处理低分-高分不匹配并对异常具有鲁棒性

　　3.在人脸识别,字体识别,数字识别做了验证

Conclusion

基本是概要再现,讲了下行文.

批:行文规整,逻辑清晰(仅看标题)

Introduction

1.指出问题,ROI大区域假设现实中不成立

2.指出问题,传统人脸识别要求bigger than 32x32 or 64x64 (rather than 16x16 for typicall VLRR); 信息确实看似不能从LR直接恢复(看着像伏笔的样子

3.给出方法, 从基础CNN出发,不断提升,并给出理由,分析和仿真.

4.给出结论,三个问题验证,效果好.

1.1 问题定义

1. 重要定义一: VLRR直接从LR识别,没有HR. 训练时包括HR和LR.

2.根据29 39 两篇文献,定义了LR<16x16, HR>32x32　　

Model I 基础

想法

　　　　打个底子(baseline)

实现

　　　　参考了这篇文章的网络

　　　　　　Imagenet classification with deep convolutional neural networks.

　　　　网络结构为三个卷积层两个FC层。指出了LR小故filter size不取大，为端到端训练。　

　　仿真

　　　　预处理：卷积 s=4 下采样至8x8, 再插值回32x32作为LR图。归一化处理，并添加σ=0.05的高斯噪音。

　　　　para：

activation：ReLU

batch_size:128

lr:0.1 & /10 per plateau

Dropout：True

m4: 1024

m5: 10 for CIFAR-10 and 100 for CIFAR-100

#default: n1=64, f1= 5; n2= 64, f2= 3; n3= 32, f3= 1; m4= 1024.

　　　　Result：Top1 Error Table

layer	kernerl_size	output_channel	stride	dimention
Conv1	f1	n1	1	-
Conv2	f2	n2	1	-
Conv3	f3	n3	1	-
FC1	-	-	-	m4
FC2	-	-	-	m5

　　　　insights:

1.LR不如HR

2.大的fiter size 并没有显著提升

3.filter channels的提高在HR有帮助而LR无帮助。考虑到overfit。

　　　　其他：

　　　　　　　　1.提高m4能提高表现，但牺牲简洁性

　　　　　　　　2.更深的网络无用

　　　　结论：

　　　　　　　　LR与普通HR提升方法不同。

Model II 引入高分预训练的基础网络

想法

　　　　既然直接LR的信息太少，且实际预测中无法获得HR图。那么在训练的时候引入HR。

　　　　传统做法：进行超分重建并基于此进行分类（two stage）

　　　　问题：过平滑，细节确实，重建痕迹

　　　　改进：[39]引入了'判别约束'（ discriminative constraints）[12]在超分重建中引入了‘基于类的特征’(class-specific facial features)

实现

　　　　将Model1解耦为超分重建和人脸识别两个子网络。超分重建网络如下，采用无监督的方法首先训练，训练后丢弃Conv4层，并同人脸识别网络一同以监督方式联合训练。

注：仅为超分重建网络，识别网络同ModelI

　　　　网络参考了Auto-Encoder，Denoising Auto-Encoder等的思想，但更关注无监督部分（而不是重建）

仿真

　　　　　两个数据集上表现都变好了，但LR HR差距仍大

　　　　　Remark：从只管来讲超分重建一对多不是很稳定，超分重建对识别的贡献在于发现了更多的细节（较LR）但可信度一般。

MODEL III基本网络+SR预训练+LR-HR特征迁移

想法

　　对Model II 的结果可以看到分别将LR和HR作为输入，表现差距很大（10%）——SR没有为识别提供足够的特征——将HR图像混合在训练集中

　　域适应(domain adaption)观点

　　　　　HR 源域（source domain）,LR目标域(target domain)。先前工作[10]对来自所有域的未标记数据学习得到跨域特征提取器。分类器对来自源域的转换后的标记数据进行训练，并在目标域上进行测试。

　　数据增强观点

　　　　　Q：Model II 已经引入了HR，why again。 A：problem-specific data augmentation approach for SR pre-training. 这里的意思应该是把'高清'作为一种数据增强的手段（like flip，rotate）

实现

注：不含识别网络

域适应简介：

https://www.cnblogs.com/Terrypython/p/10645520.html

http://www.360doc.com/content/20/1107/09/7673502_944551402.shtml

我也不熟悉啊，按照文本的意思是这里有两个pipeline但共享hidden layer，一个是LR2HR，另一个是HR2HR

仿真

　　　　还是预训练再联合训练，if not better: why write

MODEL IV 部分耦合网络

　　想法

　　　　1.在LR和HR特征之间（同一副图）存在一个'部分共享'的隐藏空间（there exists a hidden space that are approximately shared by LR and HR features）

　　　　2.先前研究指出LR和HR的映射是复杂，非线性且spatial-variant的

　　　　3.大胆假设：LR和HR的特征经历复杂变换也不会完全重叠

　　　　---->放宽模型3约束（解耦）以匹配想法3中的差异

　　实现

　　　　　　Model4 这个子网络起名叫做Partially Coupled SR Networks（PCSRN）大概是半解耦超分重建网络

　　　　　　这里的主要改动，或者说唯一改动。就是把原来两个pipeline公用的hidden layer 分成两个部分重叠(k filters)的hidden layer。以对应“LR转换到HR后不匹配问题减少但存在”

　　仿真

default：c1= 0.50, c2= 0.75 and c3= 0.75　　　　　

c_i这里定义为耦合比，c_i = k_i / n_i　

　　　　　　　1.上述'非完全重叠'假设成立

　　　　　　　2.深层网络容易过度拟合

　　　　　　　3. 耦合比如何确定有待研究

MODEL V 鲁棒性+MODELIV

　　想法

　　　　　　1.针对实际场景的感受器（摄像头之类）噪音以及异常离群值（ impulsive outliers）

　　　　　　2.在SR自网络预训练中使用的损失函数是MSE，对异常值敏感，后文给出的解释是LR给出的典型特征过少不足以给出数据流形(mainfold)。提到了一种针对异常值的损失函数，指出了correntropy-induced loss function，用huber和MSE两种损失函数做了对比。

　　　　　　Reference：

　　　　　　https://en.wikipedia.org/wiki/Huber_loss

　　　　　　https://blog.csdn.net/forlogen/article/details/90264072

　　实现

　　　　　　最终确定使用的loss fun（和wiki差不多，等号位置而已）：

　　仿真

　　　　　　使用椒盐噪声污染不同比例的数据集，在两个模型上测试。干净的数据集huber略弱，噪声比例越强越好。（批：这里是不是应该多来几种噪声）

　　回顾对比

　　　　　　给了一个设计和发展模型方法论：关注具体方法（比如超分预训练而etc.）以及特定数据方面（特征转换，部分耦合，损失函数etc.）

　　　　　　懒得写了，简单记录一下

任务	数据集	top1(V)	top5(V)	LR	HR	类
人脸识别	*	40.97%	22.35%	16x16	80x80	180
数字识别	SVHN	43.02%	29.18%	8x8	32x32	10
字体识别	VFR	36.34%	16.31%	h[7,21]	-	2383train 93test
*：Large scale unconstrained open setface database

读后批：

　　　　　　条例清晰，环环相扣，如作者所说根据具体问题和具体数据思考改进方法，并逐步实现优化。

　　　　　　大致的思路是：

想法	文献	实现
LR信息少，引入SR	基于类特征	建立一个拓扑与分类相同的超分重建网络
超分重建效果不良，输入引入HR	域适应（及数据增强）	完全共享隐藏层LR-HR特征迁移网络
提出LR-HR迁移后特征不完全重叠假设	LR-HR 映射复杂，相似性判据不一	部分共享隐藏层LR-HR特征迁移网络
考虑实际场景中噪声和坏点	抗坏点损失函数	更改损失函数为huber*

posted @ 2021-08-04 18:21 Nonmy 阅读(338) 评论(0) 收藏举报

刷新页面返回顶部

Nonmy

文献阅读_低分识别_2016CVPR_Studying Very Low Resolution Recognition Using Deep Networks

Studying Very Low Resolution Recognition Using Deep Networks

论文结构

论文复述

论文总结

文章结构

Abstract

Conclusion

Introduction

1.1 问题定义

Model I 基础

想法

实现

仿真

Model II 引入高分预训练的基础网络

想法

实现

仿真

MODEL III基本网络+SR预训练+LR-HR特征迁移

想法

域适应(domain adaption)观点

数据增强观点

实现

仿真

MODEL IV 部分耦合网络

想法

实现

仿真

MODEL V 鲁棒性+MODELIV

想法

实现

仿真

回顾对比

读后批：

公告

　　仿真

　　域适应(domain adaption)观点

　　数据增强观点

　　想法

　　实现

　　仿真

　　想法

　　实现

　　仿真

　　回顾对比