NeurIPS 2025|让AI读懂第一视角的“内心独白”!浙大等联合突破性实现自我中心视频推理

NeurIPS 2025|让AI读懂第一视角的“内心独白”!浙大等联合突破性实现自我中心视频推理

论文名称:EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT

发布时间:2025年10月28日

👉一键直达论文

👉一键直达Github

👉Lab4AI大模型实验室论文阅读

✅此平台提供AI导读和翻译等工具,辅助论文阅读。

✨研究背景

现有多模态大语言模型擅长第三人称视觉理解,但缺乏第一人称(自我中心)视角的推理能力。自我中心视频的核心挑战在于推断摄像机佩戴者不可见的意图及其与环境的细粒度交互,这要求模型具备长时序因果推理和精确的时空定位能力。然而,当前主流数据集缺乏详细的推理链和手物交互标注,导致模型难以理解复杂的自我中心活动,限制了其在可穿戴助手和具身智能中的应用。

✨研究框架

EgoThinker的框架核心是数据驱动与两阶段训练。首先,我们构建了包含500万问答对的大规模数据集EgoRe-5M,其囊括了从短时感知到长时序因果推理的多种任务。基于此,模型先通过监督微调 学习基础的视频理解与推理能力;再通过基于规则奖励的强化微调,专门优化其在手物空间定位与时间区间定位上的精度,从而将高层推理与低层感知紧密结合。

✨核心贡献

本文的核心贡献包括三方面:

  • 提出EgoRe-5M数据集:这是一个包含丰富思维链与手物交互标注的大规模自我中心问答数据集,涵盖多样化的真实场景与任务类型,为自我中心推理研究提供了重要数据基础。
  • 设计两阶段训练范式:通过SFT+RFT的结合,显著提升了模型在时空定位与因果推理方面的能力,尤其在细粒度交互理解与长时序推理任务中表现突出。
  • 构建EgoThinker模型并在多个基准测试中取得SOTA性能:在EgoPlan、EgoSchema、VLN-QA等自我中心推理任务中显著优于现有模型,同时保持通用视频理解能力,展示了其在可穿戴AI与具身智能中的潜力。
posted @ 2025-11-27 17:35  Lab4AI大模型实验室  阅读(7)  评论(0)    收藏  举报