UNEM 算法
UNEM 算法
标题:UNEM:用于直推式少样本学习的展开式广义 EM 算法
作者:Long Zhou³(米兰理工大学,意大利米兰)、Fereshteh Shakeri¹(École de Technologie Supérieure,加拿大蒙特利尔)、Aymen Sadraoui¹²(米兰理工大学,意大利米兰;巴黎北索邦大学,法国维勒班纳)、Mounir Kaniche⁴(巴黎北索邦大学,法国维勒班纳)、Jean-Christophe Pesquet⁴(巴黎北索邦大学,法国维勒班纳)、Ismail Ben Ayed¹⁵(École de Technologie Supérieure,加拿大蒙特利尔;加拿大国家科学研究院,加拿大蒙特利尔)
动机(Motivations)
-
直推式推理(即,对一批未标记的查询样本进行联合预测)通过利用查询集与支持集之间的类分布相似性,提升了少样本分类的准确率。
-
最先进的直推式算法引入了会显著降低验证集性能的超参数。
-
我们提出广义 EM(期望最大化)算法的展开版本,以避免超参数调优。
-
我们在主要基准的视觉和视觉 - 语言设置下评估 UNEM。
图 1:类数量超参数\(K\)对直推式少样本分类准确率的影响。准确率指标为在视觉 - 语言模型上采用五次不同初始化时,使用 APACH(见算法 1)的平均值。
直推式方法(Transductive Approach)
[图示:展示 “支持集(Support set)”“查询集(Query set)”,以及 “定义聚类分配”“预测标签” 的流程]
问题表述(Problem formulation)
-
\(\{z_i\}_{i \in \mathcal{I}}\):从预训练网络中提取的特征向量。
-
\(S \subset \{1, \dots, N\}\)和\(Q = \{1, \dots, N\} \setminus S\):分别为属于\(K\)个不同类别的 ** 支持集(有标记)样本和查询集(无标记)** 样本的索引。
-
假设:数据分布已知是\(K\)类混合模型,其概率密度函数记为\(p(z | \theta_k)\),\(\{\theta_k\}_{k=1}^K\)由少量参数\(\{\phi_k\}_{k=1}^K\)描述。
-
目标:通过结合广义聚类目标与特征分布参数的似然函数,确定查询集无标记样本的类别。
两类变量:
-
软分配向量\(\boldsymbol{\mu} = \{\mu_{n,k}\}_{n \in Q, k=1}^K\):其中\(\mu_{n,k}\)是 “第\(n\)个样本属于第\(k\)类” 的概率,且\(\mu_{n,k} \in \Delta_K\)(\(\Delta_K\)为\(K\)维概率单纯形)。
-
特征分布参数\(\boldsymbol{\theta} = \{\theta_k\}_{k=1}^K\)。
优化问题(Optimization problem)
最小化\(\mathcal{L}(\boldsymbol{\mu}, \boldsymbol{\theta}) = \mathcal{L}_{\text{LL}}(\boldsymbol{\mu}, \boldsymbol{\theta}) + \gamma \mathcal{L}_{\text{reg}}(\boldsymbol{\mu})\),(1)
约束:\(\mu_{n,k} \geq 0\)(对所有\(n \in Q\)、\(k \in \{1, \dots, K\}\)),且\(\sum_{k=1}^K \mu_{n,k} = 1\)(对所有\(n \in Q\))。
其中:
-
广义对数似然拟合项\(\mathcal{L}_{\text{LL}}\):扩展了聚类中常用的标准\(K\)-means 目标,使其适用于任意分布:
\(\mathcal{L}_{\text{LL}}(\boldsymbol{\mu}, \boldsymbol{\theta}) = -\sum_{n \in Q} \sum_{k=1}^K \mu_{n,k} \log(p(z_n | \theta_k))\),(2)
-
类分布的香农熵\(\mathcal{L}_{\text{reg}}\):控制模型的 “粒子复杂度”,惩罚解中 “分布的类数量”:
\(\mathcal{H}(\boldsymbol{\mu}) = \sum_{n \in Q} \sum_{k=1}^K \mu_{n,k} \log \mu_{n,k}\),(3)
-
熵屏障\(\mathcal{L}_{\text{reg}}\):在引入 “非负性约束” 的同时,对软分配\(\mu_{n,k}\)进行正则化:
\(\mathcal{G}(\boldsymbol{\mu}) = \sum_{n \in Q} \sum_{k=1}^K \mu_{n,k} \log \mu_{n,k}\),(4)
提出的算法(Proposed algorithm)
算法 1:基于 TCE 的快速分类算法
输入:数据集样本、初始化\(\boldsymbol{\mu}^{(0)}\)和\(\boldsymbol{\theta}^{(0)}\)、固定迭代次数\(L\)。
对于\(\ell = 1\)到\(L\):
-
** ****更新**:使用给定的优化算法,通过最大化对数似然更新\(\boldsymbol{\theta}\):
\(\boldsymbol{\theta}^{(\ell)} = \arg\max_{\boldsymbol{\theta}} \text{LL}(\boldsymbol{\mu}^{(\ell-1)}, \boldsymbol{\theta})\)(对所有\(k \in \{1, \dots, K\}\));
-
** ****更新**:
\(\mu_{n,k}^{(\ell)} = \frac{1}{Z_n} \exp\left(-\text{dist}(z_n, \theta_k^{(\ell)})\right)\)(对所有\(n \in Q\)、\(k \in \{1, \dots, K\}\));
其中\(Z_n = \sum_{k=1}^K \exp\left(-\text{dist}(z_n, \theta_k^{(\ell)})\right)\)为归一化因子;
-
熵正则化:
\(\mu_{n,k}^{(\ell)} \leftarrow \text{softmax}\left(-\left(\frac{1}{\gamma} \text{dist}(z_n, \theta_k^{(\ell)}) + \lambda \log \mu_{n,k}^{(\ell)}\right)\right)\)(对所有\(n \in Q\)、\(k \in \{1, \dots, K\}\));
结束循环
展开式 EM 架构(Unrolled EM architecture)
[图示:展示\(\mathcal{G}^{(0)}\)、\(\mathcal{G}^{(1)}\)、\(\mathcal{G}^{(\ell-1)}\)等模块的交互流程]
实验设置(Experimental settings)
-
实验采用符合文献 [1,2,3] 的真实直推式少样本评估协议。
-
这些协议考虑了 “支持集” 与 “查询集” 之间的类重叠。
-
我们使用\(\lambda_{\text{LL}} = 1\),且\(\lambda = \gamma = 75\)(实验中通过交叉验证调优)。
-
提出的算法由10 层组成,使用 “熵正则化损失” 训练。
具有高斯数据分布模型的视觉 - only 设置结果(Results on vision-only setting with Gaussian data distribution model)
[表格:展示 “方法(Method)”“骨干网络(Backbone)” 在 miniImageNet、tieredImageNet 等数据集上的准确率等指标]
具有狄利克雷分布模型的少样本 CLIP 结果(Results on few-shot CLIP with Dirichlet distribution model)
[表格:展示不同方法的对比结果]
参考文献(References)
[1] S. Verma, Y. Wang, and R. Chellappa. CVPR 2024…(具体文献内容按原文翻译)
[2] …(其他参考文献)
底部信息:
2025 年 6 月 15-19 日
IEEE/CVF 计算机视觉与模式识别会议 2025
aymen.sadraoui@polimi.it
(机构标志:CVPR Nashville 2025、CentraleSupélec、巴黎萨克雷大学、米兰理工大学、巴黎北索邦大学、ÉTS 等)
本文来自博客园,作者:JaxonYe,转载请注明原文链接:https://www.cnblogs.com/yechangxin/articles/19110767
侵权必究

浙公网安备 33010602011771号