UNEM 算法

UNEM 算法

标题:UNEM:用于直推式少样本学习的展开式广义 EM 算法

作者:Long Zhou³(米兰理工大学,意大利米兰)、Fereshteh Shakeri¹(École de Technologie Supérieure,加拿大蒙特利尔)、Aymen Sadraoui¹²(米兰理工大学,意大利米兰;巴黎北索邦大学,法国维勒班纳)、Mounir Kaniche⁴(巴黎北索邦大学,法国维勒班纳)、Jean-Christophe Pesquet⁴(巴黎北索邦大学,法国维勒班纳)、Ismail Ben Ayed¹⁵(École de Technologie Supérieure,加拿大蒙特利尔;加拿大国家科学研究院,加拿大蒙特利尔)

动机(Motivations)

  • 直推式推理(即,对一批未标记的查询样本进行联合预测)通过利用查询集与支持集之间的类分布相似性,提升了少样本分类的准确率。

  • 最先进的直推式算法引入了会显著降低验证集性能的超参数。

  • 我们提出广义 EM(期望最大化)算法的展开版本,以避免超参数调优。

  • 我们在主要基准的视觉视觉 - 语言设置下评估 UNEM。

图 1:类数量超参数\(K\)对直推式少样本分类准确率的影响。准确率指标为在视觉 - 语言模型上采用五次不同初始化时,使用 APACH(见算法 1)的平均值。

直推式方法(Transductive Approach)

[图示:展示 “支持集(Support set)”“查询集(Query set)”,以及 “定义聚类分配”“预测标签” 的流程]

问题表述(Problem formulation)

  • \(\{z_i\}_{i \in \mathcal{I}}\):从预训练网络中提取的特征向量。

  • \(S \subset \{1, \dots, N\}\)\(Q = \{1, \dots, N\} \setminus S\):分别为属于\(K\)个不同类别的 ** 支持集(有标记)样本和查询集(无标记)** 样本的索引。

  • 假设:数据分布已知是\(K\)混合模型,其概率密度函数记为\(p(z | \theta_k)\)\(\{\theta_k\}_{k=1}^K\)由少量参数\(\{\phi_k\}_{k=1}^K\)描述。

  • 目标:通过结合广义聚类目标特征分布参数的似然函数,确定查询集无标记样本的类别。

两类变量:

  • 软分配向量\(\boldsymbol{\mu} = \{\mu_{n,k}\}_{n \in Q, k=1}^K\):其中\(\mu_{n,k}\)是 “第\(n\)个样本属于第\(k\)类” 的概率,且\(\mu_{n,k} \in \Delta_K\)\(\Delta_K\)\(K\)维概率单纯形)。

  • 特征分布参数\(\boldsymbol{\theta} = \{\theta_k\}_{k=1}^K\)

优化问题(Optimization problem)

最小化\(\mathcal{L}(\boldsymbol{\mu}, \boldsymbol{\theta}) = \mathcal{L}_{\text{LL}}(\boldsymbol{\mu}, \boldsymbol{\theta}) + \gamma \mathcal{L}_{\text{reg}}(\boldsymbol{\mu})\),(1)

约束:\(\mu_{n,k} \geq 0\)(对所有\(n \in Q\)\(k \in \{1, \dots, K\}\)),且\(\sum_{k=1}^K \mu_{n,k} = 1\)(对所有\(n \in Q\))。

其中:

  • 广义对数似然拟合项\(\mathcal{L}_{\text{LL}}\):扩展了聚类中常用的标准\(K\)-means 目标,使其适用于任意分布

    \(\mathcal{L}_{\text{LL}}(\boldsymbol{\mu}, \boldsymbol{\theta}) = -\sum_{n \in Q} \sum_{k=1}^K \mu_{n,k} \log(p(z_n | \theta_k))\),(2)

  • 类分布的香农熵\(\mathcal{L}_{\text{reg}}\):控制模型的 “粒子复杂度”,惩罚解中 “分布的类数量”:

    \(\mathcal{H}(\boldsymbol{\mu}) = \sum_{n \in Q} \sum_{k=1}^K \mu_{n,k} \log \mu_{n,k}\),(3)

  • 熵屏障\(\mathcal{L}_{\text{reg}}\):在引入 “非负性约束” 的同时,对软分配\(\mu_{n,k}\)进行正则化:

    \(\mathcal{G}(\boldsymbol{\mu}) = \sum_{n \in Q} \sum_{k=1}^K \mu_{n,k} \log \mu_{n,k}\),(4)

提出的算法(Proposed algorithm)

算法 1:基于 TCE 的快速分类算法

输入:数据集样本、初始化\(\boldsymbol{\mu}^{(0)}\)\(\boldsymbol{\theta}^{(0)}\)、固定迭代次数\(L\)

对于\(\ell = 1\)\(L\)

  1. ** ****更新**:使用给定的优化算法,通过最大化对数似然更新\(\boldsymbol{\theta}\)

    \(\boldsymbol{\theta}^{(\ell)} = \arg\max_{\boldsymbol{\theta}} \text{LL}(\boldsymbol{\mu}^{(\ell-1)}, \boldsymbol{\theta})\)(对所有\(k \in \{1, \dots, K\}\));

  2. ** ****更新**:

    \(\mu_{n,k}^{(\ell)} = \frac{1}{Z_n} \exp\left(-\text{dist}(z_n, \theta_k^{(\ell)})\right)\)(对所有\(n \in Q\)\(k \in \{1, \dots, K\}\));

    其中\(Z_n = \sum_{k=1}^K \exp\left(-\text{dist}(z_n, \theta_k^{(\ell)})\right)\)为归一化因子;

  3. 熵正则化

    \(\mu_{n,k}^{(\ell)} \leftarrow \text{softmax}\left(-\left(\frac{1}{\gamma} \text{dist}(z_n, \theta_k^{(\ell)}) + \lambda \log \mu_{n,k}^{(\ell)}\right)\right)\)(对所有\(n \in Q\)\(k \in \{1, \dots, K\}\));

    结束循环

展开式 EM 架构(Unrolled EM architecture)

[图示:展示\(\mathcal{G}^{(0)}\)\(\mathcal{G}^{(1)}\)\(\mathcal{G}^{(\ell-1)}\)等模块的交互流程]

实验设置(Experimental settings)

  • 实验采用符合文献 [1,2,3] 的真实直推式少样本评估协议

  • 这些协议考虑了 “支持集” 与 “查询集” 之间的类重叠

  • 我们使用\(\lambda_{\text{LL}} = 1\),且\(\lambda = \gamma = 75\)(实验中通过交叉验证调优)。

  • 提出的算法由10 层组成,使用 “熵正则化损失” 训练。

具有高斯数据分布模型的视觉 - only 设置结果(Results on vision-only setting with Gaussian data distribution model)

[表格:展示 “方法(Method)”“骨干网络(Backbone)” 在 miniImageNet、tieredImageNet 等数据集上的准确率等指标]

具有狄利克雷分布模型的少样本 CLIP 结果(Results on few-shot CLIP with Dirichlet distribution model)

[表格:展示不同方法的对比结果]

参考文献(References)

[1] S. Verma, Y. Wang, and R. Chellappa. CVPR 2024…(具体文献内容按原文翻译)

[2] …(其他参考文献)

底部信息:

2025 年 6 月 15-19 日

IEEE/CVF 计算机视觉与模式识别会议 2025

aymen.sadraoui@polimi.it

(机构标志:CVPR Nashville 2025、CentraleSupélec、巴黎萨克雷大学、米兰理工大学、巴黎北索邦大学、ÉTS 等)

posted @ 2025-09-25 11:02  JaxonYe  阅读(9)  评论(0)    收藏  举报