Multimodal Large Language Model(MLLM)

1 CLIP

https://openai.com/index/clip/

CLIP(Contrastive Language–Image Pre-training)的主要任务为图文匹配

计算cosine similarity。
对角线的 \(N\) 个为正样本，其他 \(N^2-N\) 为负样本。如果\(N\)很大，会导致正负样本不平衡，所以需要对负样本进行采样，按照cosine similarity排序的Top N个负样本进行采样，作为采样后负样本。
目标是正样本的cosine similarity趋近于1，负样本的cosine similarity趋近于-1。

靠谱女士的组会分享［多模态大模型之clip，blip，blip–2，llava | Bilibili
CLIP 论文逐段精读【论文精读】 - 李沐

posted @ 2024-03-27 20:49 ForHHeart 阅读(85) 评论(0) 收藏举报

刷新页面返回顶部