2025.8.4学习日记

1.Meta-Learning与Few-Shot Learning

1.1 特征空间对齐

  • 基本概念:
    特征空间对齐指的是对于不同模态的数据,使相似语义的内容在特征空间中位置接近,不相似的内容距离较远。
直观比喻: 将英语、中文、法语三种语言的"猫/cat/chat"映射到一个共享的语义空间,尽管原始形式不同,但在该空间中它们指向同一个位置。
  • 作用(列举了3个)
    在对齐前,图像中的汽车和点云中的汽车在各自的特征空间中相距很远,在对齐后相似语义的特征向量余弦相似度接近1
    在对齐前,同一物体的分类和分割特征无法共享,在对齐后,任务间的特征可以进行迁移
    在对齐前,使用合成数据训练的模型在真实数据上失效,将合成数据和真实数据对齐后,真实数据就可以在合成数据上使用
  • 实现方法
    1.对比学习:主要用于跨模态任务
    2.投影变换:最为通用的做法
    3.对抗训练:主要用于合成数据向真实数据的迁移

1.2 MetaLeaning 元学习

元学习作为预训练大模型的整合器,可以利用预训练大模型的,具有优异泛化能力的各种特征,来实现多任务的组合

2.MM-FSS

MM-FSS这篇文章中,使用到了元学习的技术,作者在Method Overview中提到了他们的idea是让学习到的跨模态特征与预训练大模型LSeg的视觉特征去对齐,这样也可以对齐到LSeg的文本特征

2.1 Component

组件...

2.2 Inference PipeLine

推理流程,首先将点云分为支持集(s)和查询集(q),通过作者设计的backbone以及两个head,得到跨模态特征与点云单模态特征,四组特征
其次将跨模态的两组特征与点云的两组特征丢到,MCF进行特征融合得到C0,而后将跨模态的查询特征与LSeg的文本特征进行对齐后得到Gq
最后将Gq与C0丢到MSF中进行特征融合(此时融合了三个特征,3D点云特征,文本-图像融合空间特征),最后经过一个解码器输出即可

2.3 Training PipeLine

训练流程,分为两个步骤,分别为对于backbone与head的步骤,以及对于分割任务的meta-learning步骤

  • backbone/head
    backbone为联合训练模块,可以直接采用VGGT的聚合器部分,head的话,需要单独训练一个与SAM特征对齐的模块,通过对比学习

3.Python知识点

【经验1】:

posted @ 2025-08-05 11:59  BingUw  阅读(15)  评论(0)    收藏  举报