NeurlPS 2025！香港大学等联合推出Concerto框架突破单模态局限，为三维场景理解注入新范式

论文标题：Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

作者团队：香港大学、香港中文大学、哈尔滨工业大学（深圳）

发布时间：2025年10月28日

✅Lab4AI平台提供AI导读和AI翻译等工具，辅助论文阅读。您还可以投稿复现这篇论文~

⭐核心问题

当前多模态视觉学习存在四大关键痛点

针对上述问题，提出Concerto框架：以“模内自蒸馏”优化单模态表征，以“跨模态嵌入预测”关联二、三维数据，二者协同形成更优空间表征，同时通过线性探针设计提升参数与数据效率，引入语言映射模块实现开放世界感知。

研究亮点聚焦“创新+性能+实用”三维价值，成果显著：

框架创新：首次将“模内自蒸馏”与“跨模态嵌入预测”结合，模仿人类认知机制，突破传统单模态与浅层融合范式；2. 性能顶尖：在ScanNet、S3DIS等基准上刷新纪录，如ScanNet200语义分割达80.7% mIoU，实例分割性能超全量微调模型，尤其擅长细粒度语义几何信息捕获；
效率突出：参数量较小时仍优于监督学习模型，仅用1%-5%标注数据，通过线性探针即可实现优于解码器微调的效果，降低低资源场景应用门槛；
拓展性强：引入线性投影翻译器实现表征与CLIP语言空间对齐，支持开放世界任务，还推出视频适配变体，提升框架通用性。

posted @ 2025-11-28 14:36 Lab4AI大模型实验室阅读(24) 评论(0) 收藏举报

刷新页面返回顶部