07 2024 档案

摘要:1. CLIP模型 图1 CLIP Model 通过text encoder和text encode分别提取文字和图片的特征,然后通过向量的点乘得到相似度;仅仅通过点乘就可以实现,速度快,对于图文匹配效果好。对于别的任务(VQA、VR、VE)性能就不够好了,因为模态间光靠一个简单的点乘是不够的。 2 阅读全文
posted @ 2024-07-15 22:01 指间的执着 阅读(28) 评论(0) 推荐(0)
摘要:DDPM为了公式推导简单,定义了前向过程是马尔科夫链,因此使得反向过程也是一个马尔可夫过程,即每个状态都只受前一个状态的影响。所以如果训练的时候有$T$步,后续采样的时候也需要有$T$步,速度很慢。 公式推导如下: 在DDPM中,由贝叶斯公式可知: $p(x_{t-1}|x_{t},x_{0})=\ 阅读全文
posted @ 2024-07-10 20:48 指间的执着 阅读(122) 评论(0) 推荐(0)
摘要:github: https://github.com/shixiaojia/ddpm.git 基于DDPM介绍的理论,简单实现DDPM生成人脸,代码如下: utils.py import os from torch.utils.data import Dataset from torchvision 阅读全文
posted @ 2024-07-07 15:26 指间的执着 阅读(94) 评论(0) 推荐(0)