绝了!哈工大联合华为让视频秒变物理世界!

当家里的扫地机器人卡进沙发底,当虚拟主播的裙摆穿模卡在椅子上。这些看似日常的小意外,背后都指向一个困扰AI界多年的难题:可变形物体的物理建模。

近期, 哈尔滨工业大学与华为诺亚方舟实验室的联合研究团队 针对此问题发布取得突破性进展,其发布的论文 《PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis》 , 提出了一种基于真实视频的物理规律学习框架 ,仿真效率较现有主流技术提升47倍, 且实现了移动端实时推理能力。

全球科技情报服务平台AMiner
全球科技情报服务平台AMiner:https://www.aminer.cn/pub/68fec0f4163c01c8504a1daf/?f=fwh_am_v1


传统方法在布料、面团等可变形物体 的建模任务中, 需依赖海量视频数据驱动的暴力训练范式 ,存在三大核心技术瓶颈。

  • 数据采集成本高, 需专业光学设备和多轮控制变量实验,加重中小企业负担;
  • 场景泛化性弱 ,布料折叠场景学到的特征难迁移到液体倾倒等场景,同材质不同类型也适配困难;
  • 仿真效率低, 单次布料飘动轨迹计算需数分钟,无法满足机器人实时抓取、元宇宙交互等高速需求。

1. 技术革新:物理感知合成的三步

针对传统方法的局限,PHYSWORLD通过逆向建模、虚拟生成与高效推理的三步技术闭环协同机制 ,实现从样本记忆向规律理解的转变

PhysWorld 概览
PhysWorld 概览

视频驱动的数字孪生构建(逆向物理参数估计)

采用物质点法(MPM)作为核心模拟器,法兼具拉格朗日法追踪粒子和欧拉法描述空间优势,精准刻画可变形物体的连续形变过程。

MPM Simulator示例
MPM Simulator示例

首先对输入的 单段真实视频进行帧级特征提取,通过光流估计与三维重建技术获取物体表面的形变轨迹; 随后将 轨迹数据输入MPM模拟器,采用梯度下降法逆向优化物理参数 ,直至数字孪生体的形变响应与真实视频误差最小化。

物理约束下的批量演示合成(多样化样本生成)

基于已构建的数字孪生体,系统设计多维度的参数扰动策略生成大规模虚拟演示样本。

PhysWorld与直接在真实数据上训练的GNN的性能对比
PhysWorld与直接在真实数据上训练的GNN的性能对比

材质维度 ,依托视觉语言模型(VLM)从物理库为绳子、布料等不同可变形物体自动选最优本构模型(如布料用各向异性超弹性模型),实现材料物理特性精准模拟;交互维度支持快速提拉等复杂操作,通过抓取和推动原语在MPM模拟器实现,并全局到局部优化摩擦系数等物理属性保一致性;数据生成纬度上,为22个场景各生成500个交互演示片段(共超1万高质量序列),解决真实交互视频数据稀缺问题,实验显示用其合成数据训练的GNN预测误差(CD: 0.0100)远低于真实数据训练(CD: 0.0530),证明该策略能提升模型性能与泛化能力。

PhysWorld与直接在真实数据上训练的GNN的性能对比
PhysWorld与直接在真实数据上训练的GNN的性能对比

轻量化GNN推理加速(形变预测模型设计)

为突破传统粒子级模拟器的计算效率瓶颈,论文 提出了一种基于图卷积的轻量化GNN世界模型 ,以实现形变的快速预测。

该模型的核心并 非处理所有粒子 ,而是首先 通过最远点采样将构成数字孪生的数万个MPM粒子下采样至约100-150个控制粒子。 模型以这些控制粒子以及交互器(如抓手)的控制点作为节点,在一定连接半径内构建动态图。通过顶点/边编码器聚合邻域节点的物理属性、历史轨迹等信息,再经由消息传递网络进行迭代更新,最终由解码器直接输出下一时刻控制粒子的状态位移,无需像MPM那样进行耗时的逐粒子迭代求解。

GNN模型推理速度优势
GNN模型推理速度优势

在 NVIDIA GeForce RTX 4060 Ti GPU上,PhysWorld的GNN模型推理速度高达 799 FPS(约1.25毫秒/帧),而现有SOTA方法PhysTwin的推理速度仅为 17 FPS(约58.8毫秒/帧)。这相当于实现了47倍的推理加速,同时保持了与PhysTwin相当的预测精度。

不同方法动作条件下预测与推理速度定量结果
不同方法动作条件下预测与推理速度定量结果

上述三步形成完整的技术闭环:逆向建模确保数字孪生体的物理真实性,虚拟合成解决数据泛化性问题,轻量化推理满足实时应用需求。

2实验验证深度解析:性能指标与对比分析

为全面验证PhysWorld的性能,研究团队设计了多维度的实验方案。实验在22个真实可变形物体交互场景上进行,这些场景的数据来源于一个开源数据集, 涵盖了与绳子、毛绒动物、布料、包裹等多种物体的交互,如快速提拉、拉伸、推动和双手挤压等。

  • 定量评估: 采用3D空间(Chamfer Distance, Tracking Error)和2D空间(IoU, PSNR, SSIM, LPIPS)的多项指标进行量化评测。

定量实验结果
定量实验结果

  • 定性对比: 通过与SOTA方法PhysTwin进行视觉效果对比,展示其在未来状态预测上的优势。

    定性实验结果
    定性实验结果

  • 消融分析 :对框架的核心模块(如全局到局部优化、VMP-Gen、P³-Pert)进行消融实验,验证其有效性。

物理扰动消融实验
物理扰动消融实验

  • Benchmark对比: 与PhysTwin、Spring-Gaus、GS-Dynamics三种SOTA方法在统一测试集上进行了性能对比,结果表明PhysWorld在保持竞争力的同时,推理速度领先了47倍。

image

Benchmark对比实验

3. AI“物理直觉”时代:一场建模范式的革命

该论 文攻克了可变形物体建模的 核心难题,核心思路是利用物理模拟器作为强先验, 为AI模型注入“物理规律”,推动其从单纯依赖样本记忆的感知模式,转向基于物理原理的逻辑推理与泛化。

可变形物体建模是机器人、元宇宙、影视特效等领域的关键瓶颈。PHYSWORLD为这些领域提供了突破性的技术支撑。论文通过模型规划实例展示了其在机器人领域的应用潜力, 预示着未来有望催生更多“物理感知型”AI产品,如更精准的机器人操作系统和高真实感的交互式虚拟环境。

基于模型的规划示例
基于模型的规划示例



这里是

AMiner-AI赋能科技情报平台


——全球领先的学术数据挖掘与分析平台,您身边的科研助手,有关学术趋势洞察、学者网络分析问题都可以与我们探讨!

posted @ 2025-11-04 18:25  AI情报挖掘日志  阅读(0)  评论(0)    收藏  举报