工作记录 3.30

ClipCap 模型只用 CLIP 的 ViT encoder 输出的[CLS] token 对应的特征再投影后的特征(512 维,与文本特征一致)来生成 caption。

目前用 transformer(6-layer+6-heads+512-hidden_dim) + 位置嵌入 直接预测(MSE loss) [CLS] token 对应的特征的投影),无数据增强。

把预测特征丢进 ClipCap 预测(没有 finetune),结果见链接(测试集前 100 张图):
https://img2024.cnblogs.com/blog/1399352/202403/1399352-20240330111827959-766659422.png

效果比起 Ridge Regression 好很多。

metric 代填ing……

posted @ 2024-03-30 01:38  Cold_Chair  阅读(40)  评论(0)    收藏  举报