摘要: https://arxiv.org/abs/2505.22050 摘要 具身规划要求智能体基于动态视觉观测和自然语言目标做出连贯的多步决策。尽管最新的视觉-语言模型(VLM)在静态感知任务上表现优异,但它们在具身环境中的时序推理、空间理解和常识落地等方面仍然存在明显短板。本文提出了一种将R1风格推理 阅读全文
posted @ 2025-06-17 10:24 一介布衣、 阅读(124) 评论(0) 推荐(0)