NVIDIA SPADE 风景合成

“涂鸦”变风景 NVIDIA SPADE

Semantic Image Synthesis with Spatially-Adaptive Normalization

利用空间适应正规化进行语义图片合成(论文

功能

Function

横向:利用分段匹配进行语义操作

从横向上看,不同的颜色代表不同的对象,譬如棕色代表树,深蓝色代表海洋。不同颜色合成出来的东西不同,不同形状合成出来的东西也不同。

纵向:利用指示图片进行风格化

从纵向上看,利用不同的指示图片合成的效果也会不一样。

方法:语义图片合成

假定 $ m \in \mathbb{L}^{H \times W}$ 是语义分段掩码(semantic segmentation mask)

\(\mathbb{L}\) : 用于表示语义标签(semantic label)的一组整数

\(m\) : 一个像素的语义标签

目标:学习匹配函数,使之能把输入分段的掩码m转换成类真实照片的图片

空间适应去正规化(Spatially-adaptive denormalization)

method

\(h_i​\):第\(i​\)层layer的激活函数
\(C_i​\):在这层layer中channel数
SPADE(SPatially-Adaptive DEnomalization):卷积正规化

激活值(\(n \in N, c \in C^i, y \in H^i, x \in W^i​\)):\(\gamma_{c,y,x}^i(m)\frac{h_{n,c,y,x}^i-\mu_c^i}{\sigma_c^i}+\beta_{c,y,x}^i(m)​\)

\(h_{n,c,y,x}^i\):正规化之前的激活函数

\(\mu_c^i​\):在channel c的激活函数的平均值

\(\mu_c^i = \frac{1}{N H^i W^i} \sum_{n,y,x}h_{n,c,y,x}^i​\)

\(\sigma_c^i​\):在channel c的激活函数的标准差

\(\sigma_c^i = \sqrt{\frac{1}{N H^i W^i} \sum_{n,y,x}(h_{n,c,y,x}^i)^2-(\mu_c^i)^2}\)

SPADE生成器

spadeG

SPADE运行结果更好的原因

这个方法能够更好地从共同正规化层中保护语义信息。

多模型合成

训练时,添加KL-Divergence损失层。

与现存方法对比

comparison

SPADE outperforms existing methods on the COCO-Stuff dataset, which is more challenging than the Cityscapes dataset due to more diverse scenes and labels. The images above are the ones authors liked.

将之用于Flickr数据库图片

apply

Since SPADE works on diverse labels, it can be trained with an existing semantic segmentation network to learn the reverse mapping from semantic maps to photos. These images were generated from SPADE trained on 40k images scraped from Flickr.

这些图片是利用训练了从Flickr上抓取的4万张图片的SPADE而生成的。

评估

metrics

posted @ 2019-04-04 19:24  疏影龙栖  阅读(1083)  评论(0编辑  收藏  举报