VisualPRM: An Effective Process Reward Model for Multimodal Reasoning

VisualPRM 是首个多模态过程奖励模型（PRM），通过评估“推理过程的每一步”显著提升多模态大模型（MLLMs）的推理能力，提出了专属训练集 VisualPRM400K 与评估基准 VisualProcessBench。**

背景

多模态大模型在感知与识别方面已表现出色，但在复杂推理能力上仍落后，尤其在开源模型中。

为了解决推理能力弱、缺乏有效评价机制的问题，作者提出：

VisualPRM：一个专门用于推理评价的多模态“过程奖励模型”（8B 参数），用于 Test-Time Scaling (TTS) 的 Best-of-N（BoN）策略。
VisualPRM400K：400K 自动构造的过程监督数据集。
VisualProcessBench：拥有人工标注逐步正确性的评测基准。

不只看“答案是否对”，更要看“每一步推理是否合理”。

模型结构：多轮对话格式，每轮输入一个推理步骤，模型预测其质量。
两种评分方式：
- Value-based：判断当前步骤正确性（\(mc_i\) > 0）
- Advantage-based：看当前步骤是否优于上一步（\(mc_i - mc_{i-1}\)）
训练策略：监督所有步骤（而不是只监督第一个错误步骤）

将 VisualPRM 应用于多种 MLLM 后，推理表现显著提升：

VisualPRM 超过 GPT-4o 和 Gemini 等闭源模型，F1 得分达 62.0（开源最佳）。

对比分析显示：

VisualPRM 提出了一个全新视角：将推理质量建模为一个过程而非只看最终输出，解决了 BoN 策略中“缺乏好裁判”的问题。

posted @ 2025-04-12 17:21 WeihangZhang 阅读(106) 评论(0) 收藏举报

刷新页面返回顶部