生成方向论文速览

High-Resolution Image Synthesis with Latent Diffusion Models

  • 主要思想:基于像素空间的扩散模型训练需要消耗巨量资源。作者认为模型在训练的时候会经过两个阶段,前一阶段是语义的压缩和理解,是模型比较重要的,而后一阶段是感知理解和压缩,是人无法感受到的。通过提前训练一个encoder和decoder将图片转化为具有语义信息的潜空间特征,并在特征空间中进行扩散是这篇论文的主要思路。
    Loss

模型大致如下:通过训练一个\(\mathcal{E}\)\(\mathcal{D}\)进行正逆映射。通过交叉注意力来引入其他的监督信号。
Model

\[\begin{aligned} &L_{DM}=\mathbb{E}_{x,\epsilon\sim\mathcal{N}(0,1),t}\left[\|\epsilon-\epsilon_\theta(x_t,t)\|_2^2\right],&\quad(1)\\ &L_{LDM}:=\mathbb{E}_{\mathcal{E}(x),\epsilon\sim\mathcal{N}(0,1),t}\left[\|\epsilon-\epsilon_\theta(z_t,t)\|_2^2\right].&\quad(2)\\ &L_{LDM}:=\mathbb{E}_{\mathcal{E}(x),y,\epsilon\sim\mathcal{N}(0,1),t}\left[\|\epsilon-\epsilon_\theta(z_t,t,\tau_\theta(y))\|_2^2\right],&\mathrm{~(3)} \end{aligned} \]

结果:

  1. 图像到潜变量的缩放因子在4-16比较好,少了无效果,多了会损失信息无法扩散。
  2. 在text2img,inpainting、super-resolution都取得了良好效果。

Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets

主要贡献:设计了一套数据清洗策略来清洗大规模的低质量的数据,用于训练T2V的SOTA模型,并证明了此模型具有足够强的关于动作和3D的先验知识可以用于视频相关的下游任务。

目前主要的T2V的模型都是基于T2I模型进行一些额外的修改(添加序列信息,添加condition等),因此大部分T2V模型的训练会经过以下的流程:image_pretrain ---> video_pretrain ---> video_finetune。模型会现在图片上进行训练,之后是大规模低质量数据,最后实在高质量的数据集上优化。

Data curation workflow

cut detection pipeline \(\rightarrow\) 3 caption method \(\rightarrow\) -> dense optical flow(remove static or text img) \(\rightarrow\) alcu-
late aesthetics scores and text-image similarities.

3 training stage

img

这几个数据集主要揭示了使用经过处理之后的vedio数据集进行预训练,即使经过了后续的finetune,最终的模型性能仍然更加优秀。上述图片是实验结果。

VideoFactory: Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation

主要贡献:1. 提出了一个交换空间的交叉注意力方式。2. 收集了130M的高质量、无水印的数据集。

swap Spatiotemporal Cross Attention

SPCA

主要是对于连续的UNet Blk,分别使用空间特征和时序特征作为Q来进行交叉注意力。

HD-VG-130M

Dataset

没有详细介绍数据集的收集和清洗过程,使用的是PySceneDetect作为分析工具。

InternVideo: General Video Foundation Models via Generative and Discriminative Learning

Adding Conditional Control to Text-to-Image Diffusion Models

  • 为Stable diffusion加入condition,实现自定义控制
  • Stable diffusion 的网络架构不变,Encoder 被复制一份(要求完全复制权重),用于做condition的编码,采用了zero convolution 进行权重初始化(保证没有噪音在初始化时候影响模型),保证在网络训练的初期等价于原始stable diffusion.

ControlNet

将ControlNet用在了SD的Encoder上:

img

Improved Denoising Diffusion Probabilistic Models

提出了一些改善DDPM的方法:

\(\Sigma_\theta(x_t,t)=\exp(v\log\beta_t+(1-v)\log\tilde{\beta}_t)\)

  • 在之前论文发现使用固定的\(\beta_t ,\tilde{\beta}_t\)在最终效果是类似的,采用上述的插值来确定\(\Sigma,v\)是一个学习的变量

\(L_{\mathrm{hybrid}}=L_{\mathrm{simple}}+\lambda L_{\mathrm{vlb}}\)

  • 修改了loss函数,使得\(\Sigma\)也能够学习,同时\(\mathrm{L}{vlb}\)只被用于优化\(\Sigma(x_t,t)\),优化\(\mu_{\theta}\)的梯度被关闭。

\(\bar{\alpha}_t=\frac{f(t)}{f(0)},\quad f(t)=\cos\left(\frac{t/T+s}{1+s}\cdot\frac\pi2\right)^2\)

  • 修改了\(\alpha_t\)的变化方式,之前都是从0.9-0.999线性增长的,论文通过一种更加平稳的增长方式(加上了<0.999的限制)

img

通过一系列实验证明了上述方式在生成质量和速度(通过增加stride方式)的优势。

img

img

Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

一个可以设置多个点移动来对图像空间语意(pose、segmentation...)进行修改的GAN模型

主要分为motion supervisionpoint tracking两个部分,并且论文认为判别器的中间层特征足够丰富,因此不用使用其他方法就可以用来进行motiontracking的工作

img

  • 在生成最终图片之前交替进行motion supervisionpoint tracking工作,生成新的image mid-featuremap latentcode,并且在mid feature map上使用最近邻搜索来确定新的point位置。

img

损失函数:

\[\mathcal{L}=\sum_{i=0}^n\sum_{\boldsymbol{q}_i\in\Omega_1(\boldsymbol{p}_i,r_1)}\|\mathrm{F}(\boldsymbol{q}_i)-\mathrm{F}(\boldsymbol{q}_i+\boldsymbol{d}_i)\|_1+\lambda\|(\mathbf{F}-\mathbf{F}_0)\cdot(1-\mathbf{M})\|_1 \]

上述loss函数是的在\(q_i\)的点向目标点\(t\)移动,移动的距离为\(d_{i}=\frac{t_{i}-p_{i}}{\|t_{i}-p_{i}\|_{2}}\),就是要求\(q_i\)的点向更靠近\(t\)\(q_i+d_i\)点的特征靠近。

posted @ 2024-01-23 22:10  chenfengshijie  阅读(17)  评论(0编辑  收藏  举报