[Papers-Image fusion]2018_04

【Papers-ImageFusion】2018-04-06

　　本周完成情况：

　　一、论文阅读

　　1.论文标题：《cycle consistent adversarial network》 CycleGAN

　　2.论文内容：主要的原理为：将一类图片转换成另一类图片。也就是说，现在有两个样本空间，X和Y，我们希望把X空间中的样本转换成Y空间中的样本。（获取一个数据集的特征，并转化成另一个数据集的特征）。实际的目标就是学习从X到Y的映射。我们设这个映射为F。它就对应着GAN中的生成器，F可以将X中的图片x转换为Y中的图片F(x)。对于生成的图片，我们还需要GAN中的判别器来判别它是否为真实图片，由此构成对抗生成网络。设这个判别器为 $D_{Y}$ 。

　　循环一致性损失函数为：

　　3.论文创新：i)与之前的pix2pix相比，CycleGAN不需要成对数据，即利用非对称数据也能进行训练。

　　　　　　　　ii)针对原始GAN损失函数，提出另外一种“循环一致性损失(cycle consistency loss)”，也就是说，将X的图片转换到Y空间后，应该还可以转换回来。这样便可以解决模型把所有X的图片都转换到Y空间中的同一张图片的问题。

　　二、论文实验

　　根据上篇论文利用git找到相应的Tensorflow的代码，并结合论文进行分析。

　　从网上下载到man2woman的数据集，进行实验，效果如下：

　　迭代100次后的结果：3000次：

　　迭代10w次后的结果：

　　下周计划：

　　1.阅读论文《Unsupervised Dual Learning for Image-to-Image Translation》 DualGAN　

　　2.进行实验，利用一组对称数据，低质量图片来重建高质量图片。

【Papers-ImageFusion】2018-04-13

　　本周完成情况：

　　一、论文阅读

　　1.论文标题：《Unsupervised Dual Learning for Image-to-Image Translation》 DualGAN

　　2.论文内容：其实和CycleGAN差不多，都是基于两个domain来进行图像转换，使用的方法看下图即可明白：

　　简单说明一下：图像u来自domain U，使用生成器G_A来将其转换到domain V，转换效果G_A(u,z)使用D_A来评估，其中z是随机噪声，z’下同；然后G_A(u,z)又通过生成器G_B转换到domain U，其输出G_B(G_A(u,z),z')作为u的重构版本。

　　3.论文创新：i)损失函数方面使用L1距离损失，可以减轻L2损失带来的模糊效应；

　　　　　　　　ii)使用skip layers使得输入和输出之间共享全局低频信息，否则会丢失低频信息；使用重建过程中鼓励全局低频信息和判别器抓起局部高频信息相结合，充分利用图像的所有信息；

　　　　　　　　iii)在平衡生成器和判别器中，使用Wassersterin loss来代替sigmoid cross-entropy loss，减轻了梯度消失的问题。

　　二、论文实验

　　根据上篇论文利用git找到相应的Tensorflow的代码，并结合论文进行分析。

　　1.首先自己构建损坏数据集，在原图像上随机位置区域进行黑色块遮挡，与原图像形成一对数据（pairs）。

　　效果如下：

　　2.对数据集进行CycleGAN实验，效果如下：（实验效果跑了10w次，很消耗显卡，还不是很理想。。）

　　　　　　破损图像　　　　　　　　　　　　　　　　　　GT　　　　　　　　　　　　　　　　　　恢复图像

【Papers-ImageFusion】2018-04-20

　　本周完成情况：

　　一、论文阅读

　　　　1.论文标题：《Dual Motion GAN for Future-Flow Embedded Video Prediction》2018

　　　　2.论文内容：提出的对偶运动生成对抗网络来合成逼真的视频未来帧和流，用来预测视频序列中的未来帧。对偶运动GAN由如下三个模块构成：

　　　　　　i)概率运动编码器(probabilistic motion encoder E)获取出现在不同位置的运动不确定性并为之前的帧产生隐含的运动表征，然后这些表征会被用作两个生成器的输入；

　　　　　　ii)未来帧生成器会预测未来的帧，预测结果会在两个方面得到评估：帧鉴别器会对帧的逼真度进行评估，流鉴别器会根据之前帧和预测帧之间的估计流评估流的逼真度；　　

　　　　　　iii)未来流生成器预测未来的流，也在两方面得到评估：流鉴别器会对流的逼真度进行评估，帧鉴别器会根据推算得到的未来帧来评估帧的逼真度。

　　　　首先输入视频序列，经过一个概率运动编码器获取512维度的32*32大小的mean map和variance map，最后得到其表征信息z，分别输入给未来帧和未来流生成器，得到I¨t+1 和F¯t+1 ，最后流鉴别器和帧鉴别器对得到的结果进行评估。

　　　　3.论文创新：提出新的概率运动编码器来处理不同像素位置的自然的运动不确定性；开发了一种对偶运动生成对抗网络架构来学习未来帧预测和视频中像素层面的流一致。

　　　　1.论文标题：《生成式对抗网络GAN的研究进展与展望》2017

　　　　2.论文内容：介绍生成式对抗网络GAN的研究进展

　　　　　　i)GAN的优化过程是一个极大极小博弈问题，优化目标是达到纳什均衡，使生成器估测到数据样本的分布；

　　　　　　ii)生成式模型是生成方法学习得到的模型，生成方法涉及对数据的分布假设和分布参数学习，并能够根据学习而来的模型采样出新的样本；

　　　　　　iii)介绍GAN在图像和视觉、语音和语言领域的应用。

　　　　3.论文创新：综述总结了GAN的发展历程，介绍了GAN的演变及优化过程，并结合GAN的应用领域进行了介绍。

　　　　1.论文标题：《基于生成对抗网络的恶意域名训练数据生成》2018

　　　　2.论文内容：结合生成对抗网络构成域名字符生成来预测生成DGA域名变体样本，解决了目前基于机器学习算法缺乏训练数据的问题。

　　　　　　i)首先域名字符经过编码器编码后，字符域名向量转换为GAN的训练数据，最后通过Tensorflow转换为深度神经网络运算的张量；

　　　　　ii)转换好的字符向量输入到生成网络当中，不断训练得到生成的DGA域名，最后通过判别网络进行判别，不断优化。

　　　　3.论文创新：

　　　　　　i)本来采用DGA域名用于生成数据，训练和生成数据都更加有针对性；

　　　　　　ii)没有对数据做复杂的处理和变换，直接将编码后的字符向量输入GAN模型，保持数据的真实性；

　　　　　　iii)采用广泛的分类算法进行分类验证，证实其有效性。

【Papers-ImageFusion】2018-04-27

　　本周完成情况：

　　一、论文阅读

　　　　1.论文标题：《Unsupervised Image-to-image Translation Networks》2017

　　　　2.论文内容：利用非监督的方式进行图像翻译，通过建立共享隐含空间的假设，提出了一个图像对图像的非监督翻译框架，并利用对偶GANs实现了高效的图像翻译。

　　　　3.论文创新：i)通过利用来自独立域中边缘分布的图像来学习处于不同域之中的联合概率分布；

　　　　　　ii)作者假设来自两个不同domain的同种语义的图片具有相同的latent vector。比如白天的上海滩与黑夜的上海滩，都是上海滩（高层语义一致，即latent vector一致），而这种语义特征再经过解码成具体的表现形式（底层网络用于语义的具体表现形式）。

　　　　　　iii)E1和E2的高层网络进行共享（具有相同的语义），得到相同的语义表达z之后，再进行解码。解码开始也要进行共享，如果z表示一种场景，比如前方车和后方树。这种场景在不同的domain中呈现不同的表达效果。G1和G2最开始几层权值共享，表示z被赋予更多的信息：比如车和树的具体内容。但是对于不同的domain，比如rainy或sunny的情况下，树的颜色会不同，车的颜色及一些具体细节也会不同。网络结构如下：

　　　　4.自己的想法：利用GAN来生成多标签的图像，做法是否可行？？

　　　二、论文实验

　　　　1.低质量图像利用GAN重建高质量图像，目前得到利用图像处理技术对完好的图像随机加噪声以及黑色块遮挡，得到不同类型的低质量图像。

　　　　2.进行下一步的实验，考虑结合更优的GAN网络结构。

posted on 2018-04-06 16:47 王老头阅读(218) 评论(0) 收藏举报

刷新页面返回顶部

王老头

导航

公告