工作记录 4.1

Mind-Eye(NIPS 2023 spotlight):

https://arxiv.org/abs/2305.18274

该方法,会预测图像经过 CLIP vision encoder 后的全部特征(用于),但不是用岭回归方法。

MLP backbone:4个残差块+线性投射层

其实总结一下,FMRI -> text or image 的几乎所有方法,都是变相的一种知识蒸馏。

ViLD:

Glip(Vision grounding):

Faster-RCNN:

DETR:

BEVDistill:

DistillBEV(更精细的蒸馏):

架构:

posted @ 2024-04-01 21:14  Cold_Chair  阅读(27)  评论(0)    收藏  举报