CVPR-2018 那些有趣的新想法

Taylor Guo @ Shanghai - 2018.10.18 

缘起

还有什么比顶级会议更适合寻找有趣新想法的地方吗?我们从CVPR 2018 计算机视觉和模式识别的顶级会议中发现了很多有趣的东西。

 

GAN和CV

 

  • 寻找室外场景中的小脸

 用生成性对抗网络寻找小小脸

在沙特和中国研究人员的合作中,使用GAN来检测和放大人群照片上非常小的面孔。即使只是检测小脸,也是一个有趣的问题,常规的脸部探测器通常无法解决。这里,作者提出了一个端到端的方法来提取人脸,然后用生成模型将其提升4倍(一个称为超分辨率的过程)。


以下是主要流程:

     

 

  • PairedCycleGAN for Makeup

PairedCycleGAN:化妆和卸妆的不对称风格转移

条件生产对抗网络已经广泛用于图像处理;刚才提到过超分辨率,生成对抗网络也成功进行了风格转换。使用GAN,可以学习与特定图像元素相对应的显着特征 - 然后更改它们! 普林斯顿,伯克利和Adobe的研究人员提出了一个修饰照片的架构。这项工作的一个有趣的部分是为不同的面部成分(眼睛,嘴唇,皮肤)训练单独的生成器并单独应用它们,用不同的网络提取面部成分: 

 

 

  • GANerated Hands

单目实时3D手部跟踪的生成对抗网络

 

位姿估计中的一个非常重要的子集(通常需要单独的模型)是手部跟踪。通过挥动双手来操纵计算机尚未完全实现,仍然需要专门的硬件,如Kinect。主要问题之一是数据:哪里可以找得到手部3D标记的真实视频流?这项工作,提出了一种条件生成对抗网络架构,能够将合成的3D手部模型转换为图像用于训练手部跟踪网络。合成数据是当下非常重要的工作之一,可以更详细地考虑它。如下是“从合成到真实”的生成对抗网络架构:

 

  • 人员数据集风格转移GAN

Person Transfer GAN to Bridge Domain Gap for Person Re-Identification

 

人员重识别(ReID)是在不同条件和不同情况下拍摄的不同照片上找到同一个人的问题。这个问题自然而然引起了很多的研究,现在已经相对好理解,但是仍然存在一些问题:人物图像的不同数据集差异比较大啊(如 照明,背景等),在一个数据集上训练好的网络在迁移到另一个数据集(比如真实的应用场景中)时性能损失。上图就是展示了不同数据集的差异。为了解决这个问题,这项工作提出了一种GAN架构,能够将图像从一种“数据集风格”迁移到另一种“数据集风格”,使用GAN进行复杂变换,增强了实际数据。展示结果如下:

 

  • 生成模型的眼睛图像合成

眼睛图像合成和眼睛凝视估计的分层生成模型

 伦斯勒理工学院的这项工作处理一个非常具体的问题:生成人眼的图像。这不仅对于在生成的图像中制作漂亮的眼睛很重要,而且还可以使用生成的眼睛向后工作并解决凝视估计问题:人们在看什么?这将为通用人工智能接口铺平道路......这是未来,但目前甚至合成生成眼睛也是一个非常困难的问题。作者提出了一个用于合成人眼外形的复杂概率模型,提出了一个生成对抗网络架构,根据这个模型生成眼睛 - 取得了巨大的成功!

 

  • 图像修复:填补空白区域

内容相关的生成图像修复

Adobe Research和伊利诺伊大学香槟分校的这项工作致力于填补图像空白区域的极具挑战性的问题(如上图所示)。通常,修复工作需要理解场景:上图右上角,必须知道脸部是什么样的,以及头发和颈部可能是什么样的。这项工作提出了一种基于GAN的方法,可以利用周围图像的特征来改进生成过程。该架构分两部分:先生成粗略结果,再用另一个网络进行细化。结果非常好:

posted @ 2018-10-18 19:03  taylorguo  阅读(1676)  评论(0编辑  收藏  举报