Fork me on GitHub

VLM评估体系指标对比:CIDEr vs CLIPScore vs GPT-based Eval


总览表

维度 CIDEr CLIPScore GPT-based Eval
核心思想 人类共识 n-gram 跨模态语义对齐 大模型当裁判
是否需要参考文本 ✅ 需要(多条) ❌ 不需要 可选
是否看图像 ❌ 不直接 ✅ 是 ✅ 是
是否理解语义 ⚠️ 局部 ✅ 全局 ✅ 最强
是否理解事实 ⚠️ 有时幻觉 ⚠️ 受提示影响
可重复性 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐
可解释性 ⭐⭐⭐⭐ ⭐⭐
工业稳定性 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐

一句话:

CIDEr 稳、CLIPScore 灵、GPT Eval 强但玄


一、CIDEr:人类共识的“工程标尺”

它在评估什么?

你有没有说对“大家都会说的关键信息”

数学本质(你已经熟了):

\( \text{TF-IDF n-gram cosine similarity} \)

强项

  • 多参考鲁棒
  • 抑制废话
  • 高可复现性
  • 适合 RL reward

天生盲区

❌ 看不到图
❌ 不懂同义改写
❌ 不知道你是不是“瞎编但像真的”

经典翻车

图里是 dog,你写 cat
如果参考里有人写错一次,CIDEr 可能还不低


适合用在:

  • Image Caption benchmark
  • 模型版本回归对比
  • 强化学习 reward(SCST)

二、CLIPScore:跨模态语义对齐分数

核心公式(非常干净)

\(\mathrm{CLIPScore}(I, c)=\cos \bigl(f_{\text{img}}(I),f_{\text{text}}(c)\bigr)\)

它在评估什么?

你这句话,和这张图在“语义空间里像不像”

强项

  • 不需要参考文本
  • 对同义词、改写极其友好
  • 看得到图像
  • 对 VLM 非常公平

天生问题

⚠️ CLIP 本身有偏见
⚠️ 对“细节正确性”不敏感
⚠️ 对幻觉不够严厉

经典翻车

图里有 3 只狗
你说 many dogs
CLIPScore:✔️ 很高
人类:❌ 不精确


工业里的真实用法

你经常会看到:

CIDEr ↑
CLIPScore ↑
Human Eval ↑

👉 CLIPScore 不是替代 CIDEr,而是补它的盲区。


三、GPT-based Eval:让 LLM 当裁判

核心机制(不是公式,是 prompt)

Given an image and a caption,
rate correctness, completeness, hallucination (1–5)

它在评估什么?

从“像不像人类评审”这个层面,做整体判断

能力天花板

  • 理解复杂语义
  • 判断事实错误
  • 分析因果/关系
  • 给维度化反馈

但问题也最大

❌ 不稳定
❌ Prompt 敏感
❌ 不可复现
❌ 成本高
❌ 审稿人不完全信

最致命问题

评估模型本身也是模型,会“共振偏好”


现在主流怎么用 GPT Eval?

不是单独用,而是:

  • human eval 的 proxy
  • case study
  • failure mode 分类
  • 自动打标 / 质检

四、三者在“评估维度空间”的位置

          语义理解
             ▲
             │   GPT Eval
             │
             │
             │        CLIPScore
             │
             │
             │
             └──────────────────▶ 可复现性
                   CIDEr

五、什么时候用哪个?(实战建议)

🧪 论文 benchmark

CIDEr + CLIPScore + 人类评估

🏭 工业回归测试

CIDEr / BLEU(稳)

🔁 RL 训练 reward

CIDEr(主) + CLIPScore(辅)

🧠 开放式 VLM 能力评估

GPT-based eval(定性)

六、一个很重要但少说的真相

评估指标决定模型会学成什么样

  • 用 CIDEr 训 → 模型学会“像 COCO 人类”
  • 用 CLIPScore 训 → 模型学会“语义贴图”
  • 用 GPT Eval 训 → 极易 overfit 风格

这也是为什么现在越来越多工作在搞:

  • 多 reward 混合
  • 人类偏好对齐
  • 评估模型去偏(judge debiasing)

最后一句个“研究级 takeaway”

CIDEr 是标尺,CLIPScore 是投影,GPT Eval 是裁判
三者不是替代关系,而是“正交补充”。

posted @ 2026-02-03 10:20  stardsd  阅读(155)  评论(0)    收藏  举报