UNEM 算法

标题：UNEM：用于直推式少样本学习的展开式广义 EM 算法

作者：Long Zhou³（米兰理工大学，意大利米兰）、Fereshteh Shakeri¹（École de Technologie Supérieure，加拿大蒙特利尔）、Aymen Sadraoui¹²（米兰理工大学，意大利米兰；巴黎北索邦大学，法国维勒班纳）、Mounir Kaniche⁴（巴黎北索邦大学，法国维勒班纳）、Jean-Christophe Pesquet⁴（巴黎北索邦大学，法国维勒班纳）、Ismail Ben Ayed¹⁵（École de Technologie Supérieure，加拿大蒙特利尔；加拿大国家科学研究院，加拿大蒙特利尔）

动机（Motivations）

直推式推理（即，对一批未标记的查询样本进行联合预测）通过利用查询集与支持集之间的类分布相似性，提升了少样本分类的准确率。
最先进的直推式算法引入了会显著降低验证集性能的超参数。
我们提出广义 EM（期望最大化）算法的展开版本，以避免超参数调优。
我们在主要基准的视觉和视觉 - 语言设置下评估 UNEM。

图 1：类数量超参数\(K\)对直推式少样本分类准确率的影响。准确率指标为在视觉 - 语言模型上采用五次不同初始化时，使用 APACH（见算法 1）的平均值。

直推式方法（Transductive Approach）

[图示：展示 “支持集（Support set）”“查询集（Query set）”，以及 “定义聚类分配”“预测标签” 的流程]

问题表述（Problem formulation）

\(\{z_i\}_{i \in \mathcal{I}}\)：从预训练网络中提取的特征向量。
\(S \subset \{1, \dots, N\}\)和\(Q = \{1, \dots, N\} \setminus S\)：分别为属于\(K\)个不同类别的 ** 支持集（有标记）样本和查询集（无标记）** 样本的索引。
假设：数据分布已知是\(K\)类混合模型，其概率密度函数记为\(p(z | \theta_k)\)，\(\{\theta_k\}_{k=1}^K\)由少量参数\(\{\phi_k\}_{k=1}^K\)描述。
目标：通过结合广义聚类目标与特征分布参数的似然函数，确定查询集无标记样本的类别。

两类变量：

软分配向量\(\boldsymbol{\mu} = \{\mu_{n,k}\}_{n \in Q, k=1}^K\)：其中\(\mu_{n,k}\)是 “第\(n\)个样本属于第\(k\)类” 的概率，且\(\mu_{n,k} \in \Delta_K\)（\(\Delta_K\)为\(K\)维概率单纯形）。
特征分布参数\(\boldsymbol{\theta} = \{\theta_k\}_{k=1}^K\)。

优化问题（Optimization problem）

最小化\(\mathcal{L}(\boldsymbol{\mu}, \boldsymbol{\theta}) = \mathcal{L}_{\text{LL}}(\boldsymbol{\mu}, \boldsymbol{\theta}) + \gamma \mathcal{L}_{\text{reg}}(\boldsymbol{\mu})\)，（1）

约束：\(\mu_{n,k} \geq 0\)（对所有\(n \in Q\)、\(k \in \{1, \dots, K\}\)），且\(\sum_{k=1}^K \mu_{n,k} = 1\)（对所有\(n \in Q\)）。

其中：

广义对数似然拟合项\(\mathcal{L}_{\text{LL}}\)：扩展了聚类中常用的标准\(K\)-means 目标，使其适用于任意分布：

\(\mathcal{L}_{\text{LL}}(\boldsymbol{\mu}, \boldsymbol{\theta}) = -\sum_{n \in Q} \sum_{k=1}^K \mu_{n,k} \log(p(z_n | \theta_k))\)，（2）
类分布的香农熵\(\mathcal{L}_{\text{reg}}\)：控制模型的 “粒子复杂度”，惩罚解中 “分布的类数量”：

\(\mathcal{H}(\boldsymbol{\mu}) = \sum_{n \in Q} \sum_{k=1}^K \mu_{n,k} \log \mu_{n,k}\)，（3）
熵屏障\(\mathcal{L}_{\text{reg}}\)：在引入 “非负性约束” 的同时，对软分配\(\mu_{n,k}\)进行正则化：

\(\mathcal{G}(\boldsymbol{\mu}) = \sum_{n \in Q} \sum_{k=1}^K \mu_{n,k} \log \mu_{n,k}\)，（4）

提出的算法（Proposed algorithm）

算法 1：基于 TCE 的快速分类算法

输入：数据集样本、初始化\(\boldsymbol{\mu}^{(0)}\)和\(\boldsymbol{\theta}^{(0)}\)、固定迭代次数\(L\)。

对于\(\ell = 1\)到\(L\)：

** ****更新**：使用给定的优化算法，通过最大化对数似然更新\(\boldsymbol{\theta}\)：

\(\boldsymbol{\theta}^{(\ell)} = \arg\max_{\boldsymbol{\theta}} \text{LL}(\boldsymbol{\mu}^{(\ell-1)}, \boldsymbol{\theta})\)（对所有\(k \in \{1, \dots, K\}\)）；
** ****更新**：

\(\mu_{n,k}^{(\ell)} = \frac{1}{Z_n} \exp\left(-\text{dist}(z_n, \theta_k^{(\ell)})\right)\)（对所有\(n \in Q\)、\(k \in \{1, \dots, K\}\)）；

其中\(Z_n = \sum_{k=1}^K \exp\left(-\text{dist}(z_n, \theta_k^{(\ell)})\right)\)为归一化因子；
熵正则化：

\(\mu_{n,k}^{(\ell)} \leftarrow \text{softmax}\left(-\left(\frac{1}{\gamma} \text{dist}(z_n, \theta_k^{(\ell)}) + \lambda \log \mu_{n,k}^{(\ell)}\right)\right)\)（对所有\(n \in Q\)、\(k \in \{1, \dots, K\}\)）；

结束循环

展开式 EM 架构（Unrolled EM architecture）

[图示：展示\(\mathcal{G}^{(0)}\)、\(\mathcal{G}^{(1)}\)、\(\mathcal{G}^{(\ell-1)}\)等模块的交互流程]

实验设置（Experimental settings）

实验采用符合文献 [1,2,3] 的真实直推式少样本评估协议。
这些协议考虑了 “支持集” 与 “查询集” 之间的类重叠。
我们使用\(\lambda_{\text{LL}} = 1\)，且\(\lambda = \gamma = 75\)（实验中通过交叉验证调优）。
提出的算法由10 层组成，使用 “熵正则化损失” 训练。

具有高斯数据分布模型的视觉 - only 设置结果（Results on vision-only setting with Gaussian data distribution model）

[表格：展示 “方法（Method）”“骨干网络（Backbone）” 在 miniImageNet、tieredImageNet 等数据集上的准确率等指标]

具有狄利克雷分布模型的少样本 CLIP 结果（Results on few-shot CLIP with Dirichlet distribution model）

[表格：展示不同方法的对比结果]

参考文献（References）

[1] S. Verma, Y. Wang, and R. Chellappa. CVPR 2024…（具体文献内容按原文翻译）

[2] …（其他参考文献）

底部信息：

2025 年 6 月 15-19 日

IEEE/CVF 计算机视觉与模式识别会议 2025

aymen.sadraoui@polimi.it

（机构标志：CVPR Nashville 2025、CentraleSupélec、巴黎萨克雷大学、米兰理工大学、巴黎北索邦大学、ÉTS 等）

posted @ 2025-09-25 11:02 JaxonYe 阅读(9) 评论(0) 收藏举报

刷新页面返回顶部

Jaxon的官方博客

版权所有，转载请注明出处

UNEM 算法

UNEM 算法

标题：UNEM：用于直推式少样本学习的展开式广义 EM 算法

动机（Motivations）

直推式方法（Transductive Approach）

问题表述（Problem formulation）

优化问题（Optimization problem）

提出的算法（Proposed algorithm）

展开式 EM 架构（Unrolled EM architecture）

实验设置（Experimental settings）

具有高斯数据分布模型的视觉 - only 设置结果（Results on vision-only setting with Gaussian data distribution model）

具有狄利克雷分布模型的少样本 CLIP 结果（Results on few-shot CLIP with Dirichlet distribution model）

参考文献（References）

公告