NeurlPS 2025!香港大学等联合推出Concerto框架 突破单模态局限,为三维场景理解注入新范式

论文标题:Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

作者团队:香港大学、香港中文大学、哈尔滨工业大学(深圳)

发布时间:2025年10月28日

👉一键直达论文

👉Lab4AI大模型实验室论文阅读

✅Lab4AI平台提供AI导读和AI翻译等工具,辅助论文阅读。您还可以投稿复现这篇论文~

⭐核心问题

当前多模态视觉学习存在四大关键痛点

  1. 单模态局限:现有研究多聚焦二维图像或三维点云单一模态,缺乏跨模态协同,无法像人类多感官那样形成完整知识结构;
  2. 浅层融合缺陷:简单拼接二、三维特征未挖掘模态间潜在交互,导致空间表征能力受限;
  3. 效率瓶颈:传统模型对参数和标注数据依赖度高,在低资源场景下性能骤降;
  4. 开放世界适配缺失:现有自监督表征难以与人类语言对齐,无法支撑开放词汇的概念接地任务。

针对上述问题,提出Concerto框架:以“模内自蒸馏”优化单模态表征,以“跨模态嵌入预测”关联二、三维数据,二者协同形成更优空间表征,同时通过线性探针设计提升参数与数据效率,引入语言映射模块实现开放世界感知。

⭐研究亮点

研究亮点聚焦“创新+性能+实用”三维价值,成果显著:

  1. 框架创新:首次将“模内自蒸馏”与“跨模态嵌入预测”结合,模仿人类认知机制,突破传统单模态与浅层融合范式;2. 性能顶尖:在ScanNet、S3DIS等基准上刷新纪录,如ScanNet200语义分割达80.7% mIoU,实例分割性能超全量微调模型,尤其擅长细粒度语义几何信息捕获;
  2. 效率突出:参数量较小时仍优于监督学习模型,仅用1%-5%标注数据,通过线性探针即可实现优于解码器微调的效果,降低低资源场景应用门槛;
  3. 拓展性强:引入线性投影翻译器实现表征与CLIP语言空间对齐,支持开放世界任务,还推出视频适配变体,提升框架通用性。
posted @ 2025-11-28 14:36  Lab4AI大模型实验室  阅读(1)  评论(0)    收藏  举报