工作记录 3.30

ClipCap 模型只用 CLIP 的 ViT encoder 输出的[CLS] token 对应的特征再投影后的特征（512 维，与文本特征一致）来生成 caption。

目前用 transformer（6-layer+6-heads+512-hidden_dim） + 位置嵌入直接预测（MSE loss） [CLS] token 对应的特征的投影），无数据增强。

把预测特征丢进 ClipCap 预测（没有 finetune），结果见链接（测试集前 100 张图）：
https://img2024.cnblogs.com/blog/1399352/202403/1399352-20240330111827959-766659422.png

效果比起 Ridge Regression 好很多。

metric 代填ing……

posted @ 2024-03-30 01:38 Cold_Chair 阅读(40) 评论(0) 收藏举报

刷新页面返回顶部