coins30zhl  

今日:
1.早上起床吃完饭洗个澡,玩会儿手机到中午了。吃完午饭回学校。
2.中午回实验室,先把工程伦理写了,通信课还没动。准备把JiT文章看了。
3.下午看了JiT文章,数学看不懂。又找了找新工程,发现了VIST3A这篇宝,很牛逼。晚上和师兄一起吃饭。
4.回来玩会手机困了睡会儿。然后起来看了看JiT和VIST3A这两篇,给杰哥发了过去聊了下。一会儿再看看Google团队另一篇,然后继续学学线代,反正累了。哦对,楚国刮大风 in Bilibili。

Back to Basics: Let Denoising Generative Models Denoise收获感悟
整体思想:把图像生成的去噪过程想象发生在一个高维空间中,我们假设自然图像只占有其中小部分的空间(类比房间里的一张废纸),以往的diffusion任务中模型往往是学习一条如何避免噪声走的路,这篇文章提出直接专注于“寻找答案的空间”,减少先前没有用的计算与存储量,模型性能反而更牛。
image

精读:
1.简介部分:
写作思路值得学习,每段在干啥逻辑清晰。以往都是ε预测或v预测,像是从高维空间里找答案。这个工程提出直接去x预测,寻找答案所在的低维空间。不用那么多花里胡哨的(1的倒数第三段),只用视觉Transformer即可。
在ImageNet上256和512的分辨率进行使用,patch大小在1616和3232最屌(实验证明超了也没用),patch size就是图片里一次性处理的尺寸大小。

2.相关方法部分:
①Diffusion模型:讲了ε预测或v预测,EDM和流匹配。现在往往diffusion和流匹配在一个统一的框架下。
②Denoising Autoencoder(DAE):无监督,也是直接找低维度答案。打分思想(Denoising Score Matching)。
还有一堆,感觉没啥用

3.方法部分:
扩散模型中,损失函数的空间和网络输出的空间可以不同。其实主要就是x-prediction和v-loss的应用。

posted on 2025-11-24 20:30  coins30  阅读(7)  评论(0)    收藏  举报