VLMs能否像人类一样从少数视图中想象出完整场景?人类会形成空间心理模型,即对不可见空间的内部表征,以推理布局、视角和运动。新 MINDCUBE 基准包含 3268 张图像和 21154 个问题,揭示了这一关键差距,现有 VLMs 在该基准上表现接近随机。利用 MINDCUBE,我们系统评估了 VLMs 通过表征位置(认知映射)、方向(视角获取)和动态(“假设” 运动的心理模拟) - 实践
ljbguanli 2025-07-30 18:10
阅读:43
评论:0
推荐:0
浙公网安备 33010602011771号