摘要: 名称 link [VQ-GAN](Taming Transformers for High-Resolution Image Synthesis) 时间:CVPR2021 oral 21.06 机构:Heidelberg Collaboratory for Image Processing, IWR 阅读全文
posted @ 2024-04-01 23:08 fariver 阅读(7) 评论(0) 推荐(0) 编辑
摘要: LVM: Sequential Modeling Enables Scalable Learning for Large Vision Models LVM: Sequential Modeling Enables Scalable Learning for Large Vision Models 阅读全文
posted @ 2024-03-28 14:04 fariver 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 名称 KOSMOS: Language Is Not All You Need: Aligning Perception with Language Models 时间:23.05 机构:Microsoft TL;DR 一种输入多模型信息的大语言模型,作者称之为多模型大语言模型(MLLM),可以图多 阅读全文
posted @ 2024-03-27 00:13 fariver 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 名称 VQ-VAE: Neural Discrete Representation Learning 时间:17.11 机构:Google TL;DR VQ全称为Vector Quantised,故名思义,本文相对于VAE最大改进是将VAE的latent representation由连续建模为离散 阅读全文
posted @ 2024-03-26 00:12 fariver 阅读(10) 评论(0) 推荐(0) 编辑
摘要: 名称 Imagen: Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding 时间:22/05 机构:Google TL;DR 发现使用LLM(T5)可以作为text2image任务的text en 阅读全文
posted @ 2024-03-22 20:31 fariver 阅读(7) 评论(0) 推荐(0) 编辑
摘要: 名称 DiT: Scalable Diffusion Models with Transformers 时间:23/03 机构:UC Berkeley && NYU TL;DR 提出首个基于Transformer的Diffusion Model,效果打败SD,并且DiT在图像生成任务上随着Flops 阅读全文
posted @ 2024-03-21 23:35 fariver 阅读(48) 评论(0) 推荐(0) 编辑
摘要: DALLE3: Improving Image Generation with Better Captions DALLE3: Improving Image Generation with Better Captions 时间:23/10 机构:OpenAI TL;DR 本文认为text-imag 阅读全文
posted @ 2024-03-20 23:34 fariver 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 名称 DALLE2: Hierarchical Text-Conditional Image Generation with CLIP Latents 也叫 UnCLIP 时间:22.04 机构:OpenAI TL;DR OpenAI的首篇从CLIP的image embedding生成图像的方法,实 阅读全文
posted @ 2024-03-19 23:42 fariver 阅读(10) 评论(0) 推荐(0) 编辑
摘要: GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models GLIDE(Guided Language to Image Diffusion for Generation a 阅读全文
posted @ 2024-03-18 23:47 fariver 阅读(6) 评论(0) 推荐(0) 编辑
摘要: DALLE: Zero-Shot Text-to-Image Generation DALLE: Zero-Shot Text-to-Image Generation 时间:21.02(与CLIP同期论文) 机构:OpenAI TL;DR 提出一个将文本与图像作为token,利用Transforme 阅读全文
posted @ 2024-03-16 23:45 fariver 阅读(10) 评论(0) 推荐(0) 编辑