VLM评估体系指标对比:CIDEr vs CLIPScore vs GPT-based Eval
总览表
| 维度 | CIDEr | CLIPScore | GPT-based Eval |
|---|---|---|---|
| 核心思想 | 人类共识 n-gram | 跨模态语义对齐 | 大模型当裁判 |
| 是否需要参考文本 | ✅ 需要(多条) | ❌ 不需要 | 可选 |
| 是否看图像 | ❌ 不直接 | ✅ 是 | ✅ 是 |
| 是否理解语义 | ⚠️ 局部 | ✅ 全局 | ✅ 最强 |
| 是否理解事实 | ❌ | ⚠️ 有时幻觉 | ⚠️ 受提示影响 |
| 可重复性 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐ |
| 可解释性 | ⭐⭐⭐⭐ | ⭐⭐ | ⭐ |
| 工业稳定性 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐ |
一句话:
CIDEr 稳、CLIPScore 灵、GPT Eval 强但玄
一、CIDEr:人类共识的“工程标尺”
它在评估什么?
你有没有说对“大家都会说的关键信息”
数学本质(你已经熟了):
\( \text{TF-IDF n-gram cosine similarity} \)
强项
- 多参考鲁棒
- 抑制废话
- 高可复现性
- 适合 RL reward
天生盲区
❌ 看不到图
❌ 不懂同义改写
❌ 不知道你是不是“瞎编但像真的”
经典翻车
图里是 dog,你写 cat
如果参考里有人写错一次,CIDEr 可能还不低
适合用在:
- Image Caption benchmark
- 模型版本回归对比
- 强化学习 reward(SCST)
二、CLIPScore:跨模态语义对齐分数
核心公式(非常干净)
\(\mathrm{CLIPScore}(I, c)=\cos \bigl(f_{\text{img}}(I),f_{\text{text}}(c)\bigr)\)
它在评估什么?
你这句话,和这张图在“语义空间里像不像”
强项
- 不需要参考文本
- 对同义词、改写极其友好
- 看得到图像
- 对 VLM 非常公平
天生问题
⚠️ CLIP 本身有偏见
⚠️ 对“细节正确性”不敏感
⚠️ 对幻觉不够严厉
经典翻车
图里有 3 只狗
你说 many dogs
CLIPScore:✔️ 很高
人类:❌ 不精确
工业里的真实用法
你经常会看到:
CIDEr ↑
CLIPScore ↑
Human Eval ↑
👉 CLIPScore 不是替代 CIDEr,而是补它的盲区。
三、GPT-based Eval:让 LLM 当裁判
核心机制(不是公式,是 prompt)
Given an image and a caption,
rate correctness, completeness, hallucination (1–5)
它在评估什么?
从“像不像人类评审”这个层面,做整体判断
能力天花板
- 理解复杂语义
- 判断事实错误
- 分析因果/关系
- 给维度化反馈
但问题也最大
❌ 不稳定
❌ Prompt 敏感
❌ 不可复现
❌ 成本高
❌ 审稿人不完全信
最致命问题
评估模型本身也是模型,会“共振偏好”
现在主流怎么用 GPT Eval?
不是单独用,而是:
- 做 human eval 的 proxy
- 做 case study
- 做 failure mode 分类
- 做 自动打标 / 质检
四、三者在“评估维度空间”的位置
语义理解
▲
│ GPT Eval
│
│
│ CLIPScore
│
│
│
└──────────────────▶ 可复现性
CIDEr
五、什么时候用哪个?(实战建议)
🧪 论文 benchmark
CIDEr + CLIPScore + 人类评估
🏭 工业回归测试
CIDEr / BLEU(稳)
🔁 RL 训练 reward
CIDEr(主) + CLIPScore(辅)
🧠 开放式 VLM 能力评估
GPT-based eval(定性)
六、一个很重要但少说的真相
评估指标决定模型会学成什么样
- 用 CIDEr 训 → 模型学会“像 COCO 人类”
- 用 CLIPScore 训 → 模型学会“语义贴图”
- 用 GPT Eval 训 → 极易 overfit 风格
这也是为什么现在越来越多工作在搞:
- 多 reward 混合
- 人类偏好对齐
- 评估模型去偏(judge debiasing)
最后一句个“研究级 takeaway”
CIDEr 是标尺,CLIPScore 是投影,GPT Eval 是裁判
三者不是替代关系,而是“正交补充”。
如果这篇文章帮助到了你,你可以请作者喝一杯咖啡

浙公网安备 33010602011771号