Jary霸 - 博客园

2025年11月20日

摘要： 1、SAE-diffusion：利用sae能看到初期模型构图，还能干预图像的物体生成位置以及图像整体风格。但是论文没有探索图片的编辑。 (1) sae编码解码 sae loss，如果只有重建损失，会出现很多dead feature（从未被激活的sae 特征，即对应的激活值一直为0，他们占用sae很多阅读全文

posted @ 2025-11-20 11:04 Jary霸阅读(53) 评论(0) 推荐(0)

2025年3月25日

sd9

摘要： 1、Knowledge Distillation in Iterative Generative Models for Improved Sampling Speed 提高采样速度2种方法：schedular优化、蒸馏本论文基于DDIM，DDPM训练出来的epsilon theta 可以直接用于D 阅读全文

posted @ 2025-03-25 21:40 Jary霸阅读(160) 评论(0) 推荐(0)

2024年6月5日

sd8

摘要： 1、BeautyREC 源图 I + 参考图 R =》带着 R 妆容的 I 第一行是提取R的整体风格，将它和 I 的特征做 QKV（long range dependencies），第二行是提取 I 的特征，然后 I 的 lip，skin，eyes 和 R的 lip，skin，eyes 特征（第三行阅读全文

posted @ 2024-06-05 20:30 Jary霸阅读(82) 评论(0) 推荐(0)

2024年3月31日

植物学

摘要：原核细胞和真核细胞的区别在于：有没有细胞核膜植物细胞：植物细胞与动物细胞的区别：叶绿体（质体），中央大液泡，细胞壁原生质：枸成细胞的生活物质。原生质体包括细胞膜、细胞质和细胞核。真核生物分为：植物，动物，真菌植物分为：真核藻类，苔藓植物，蕨类植物，裸子植物，被子植物。共同特点是：都含有叶绿阅读全文

posted @ 2024-03-31 16:35 Jary霸阅读(193) 评论(0) 推荐(0)

2024年1月29日

sd7

摘要： 1、vlogger 与video Drafter 大致思路一样，不同点在于：考虑了较长时间的单个场景的生成，先根据主体图片(通过image cross attn)+文本以inpainting的方式生成clip，然后根据上一个clip的最后几帧以inpainting的方式生成下一个clip直到完成单个阅读全文

posted @ 2024-01-29 16:43 Jary霸阅读(191) 评论(0) 推荐(0)

2023年10月20日

sd6

摘要： 1、blip-diffusion 训练：图片向量注入变为多模态向量注入：给概念“train” 和对应的5张照片，通过Blip(image encoder + multimudal encoder)得到5个subject prompt emb，然后取平均。原图的背景需要做随机替换以防止copy现象阅读全文

posted @ 2023-10-20 08:52 Jary霸阅读(289) 评论(0) 推荐(0)

2023年7月28日

sd5

摘要： 1、Align your latent 改造2DUNET，把原来的每个层叫做spatial layer，当视频进来的时候就把时间维度映射到batchsize维度。为了让模型有时间概念，spatial layer 每层后面新增 temporal mixing layer，把空间层输出的结果（batch 阅读全文

posted @ 2023-07-28 17:35 Jary霸阅读(515) 评论(0) 推荐(0)

2023年6月27日

sd4

摘要： 0、prompt2prompt 动机：认为token对应的cross attn map 具备结构信息。方法：给一个初始的promp P，一个编辑后的prompt P*，初始的噪声一样，同时通过dm生成当前时刻的cross attn map :Mt,Mt*，然后根据Mt,Mt*和 P,P*生成 Mt~ 阅读全文

posted @ 2023-06-27 17:25 Jary霸阅读(295) 评论(0) 推荐(0)

2023年4月23日

data

摘要： 1、sota 取三元组：从常识性知识图谱中取去三元组：（head=事件1，relation=事件的关系，tail=事件2），比如Head: PersonX goes to an amusement park, Relation: xIntent, Tail: have fun riding attr 阅读全文

posted @ 2023-04-23 16:23 Jary霸阅读(199) 评论(0) 推荐(0)

2023年4月22日

face

摘要： 1、指标假定 Feval（X）输出图片X的 id 特征向量，Fstyle（X）输出图片X的风格特征向量 Uniqueness：对于一堆图片，衡量图片里面有几个人，值记为 U；如果已知有C个人了，每个人分别有一堆照片，可以衡量人和人之间的像的程度，值记为 Uclass，值越小，说明这C个人越存在阅读全文

posted @ 2023-04-22 23:40 Jary霸阅读(70) 评论(0) 推荐(0)

aaa2222339

公告