2025 年 6月 17 日随笔档案 - 一介布衣、

2025年6月17日

摘要： https://arxiv.org/abs/2505.22050 摘要具身规划要求智能体基于动态视觉观测和自然语言目标做出连贯的多步决策。尽管最新的视觉-语言模型（VLM）在静态感知任务上表现优异，但它们在具身环境中的时序推理、空间理解和常识落地等方面仍然存在明显短板。本文提出了一种将R1风格推理阅读全文

posted @ 2025-06-17 10:24 一介布衣、阅读(124) 评论(0) 推荐(0)

一介布衣、

公告