工作记录 3.30
ClipCap 模型只用 CLIP 的 ViT encoder 输出的[CLS] token 对应的特征再投影后的特征(512 维,与文本特征一致)来生成 caption。
目前用 transformer(6-layer+6-heads+512-hidden_dim) + 位置嵌入 直接预测(MSE loss) [CLS] token 对应的特征的投影),无数据增强。
把预测特征丢进 ClipCap 预测(没有 finetune),结果见链接(测试集前 100 张图):
https://img2024.cnblogs.com/blog/1399352/202403/1399352-20240330111827959-766659422.png
效果比起 Ridge Regression 好很多。
metric 代填ing……
转载注意标注出处:
转自Cold_Chair的博客+原博客地址

浙公网安备 33010602011771号