AAAI-2025《Max-Mahalanobis Anchors Guidance for Multi-View Clustering》 - 详解 - tlnshuju

AAAI-2025《Max-Mahalanobis Anchors Guidance for Multi-View Clustering》 - 详解

2025-09-25 19:05 tlnshuju 阅读(37) 评论(0) 收藏举报

一、核心思想

论文聚焦于多视图聚类（Multi-View Clustering, MVC）中的锚点（anchor）设计问题。现有技巧分为两类：

固定锚点法（如 k-means 中心）：易受初始化影响，稳定性差；
优化锚点法（如正交约束）：虽提升多样性，但可能牺牲对数据分布的拟合能力（即“紧凑性”不足）。

为此，作者首次形式化定义了理想锚点应具备的三大性质：

多样性（Diversity）：锚点之间应尽可能远离，以增强判别性；
平衡性（Balance）：锚点在角度分布上应均匀，避免结构偏斜；
紧凑性（Compactness）：锚点应位于尽可能低维的子空间中，避免冗余维度。

基于此，作者提出Max-Mahalanobis Anchors(MMA) —— 一种经过最大化任意两锚点间的最小 Mahalanobis 距离来构造的锚点集，并证明其满足上述三性质。

进一步地，将 MMA 作为引导目标，构建多视图聚类框架 MAGIC，使各视图学习到的共识表示逐步对齐 MMA，从而获得更具判别性的聚类结构。

二、目标函数

论文提出如下优化目标：

$\min_{B, \{P^{(i)}\}, \gamma} \sum_{i=1}^V \gamma_i^2 \| X^{(i)} - B \mu^* P^{(i)} \|_F^2 + \lambda \| B \|_F^2$

约束条件：

$P(i)(P(i))⊤=IKP^{(i)} (P^{(i)})^\top = I_K$ （投影矩阵正交）
$\geq 0$ , $\mathbf{1}_K = \mathbf{1}_N$ （行和为1，非负，即软聚类分配）
$γ⊤1V=1\gamma^\top \mathbf{1}_V = 1$ , $γ≥0\gamma \geq 0$ （视图权重归一化）

其中：

$X(i)∈RN×diX^{(i)} \in \mathbb{R}^{N \times d_i}$ ：第 $i$ 个视图的素材；
$μ∗∈RK×K\mu^* \in \mathbb{R}^{K \times K}$ ：固定的 MMA 锚点矩阵（由算法预先生成）；
$\in \mathbb{R}^{N \times K}$ ：共识表示（consensus representation），即每个样本对 $K$ 个锚点的软分配；
$P(i)∈RK×diP^{(i)} \in \mathbb{R}^{K \times d_i}$ ：第 $i$ 视图从原始空间到锚点空间的投影矩阵；
$γi\gamma_i$ ：第 $i$ 视图的自适应权重；
$λ\lambda$ ：正则化参数，控制 $B$ 的平滑性。

该目标函数的本质是：让所有视图通过线性投影 $P^{(i)}$ 映射到由 MMA 张成的锚点空间，并用共识表示 $B$ 重构原始数据，同时鼓励 $B$ 紧凑、平滑。

三、目标函数的详细优化过程

采用坐标下降法（Coordinate Descent），交替优化三个变量：

1. 优化 ${P^{(i)}\}$ （固定 $\gamma$ ）

对每个视图 $i$ ，目标简化为：

$\max_{P^{(i)}} \mathrm{Tr}\left( (P^{(i)})^\top M_i \right), \quad \text{其中 } M_i = (\mu^*)^\top B^\top X^{(i)}$

在约束 $P(i)(P(i))⊤=IKP^{(i)} (P^{(i)})^\top = I_K$ 下，最优解由SVD 给出：

设 $Mi=UmΣmVm⊤M_i = U_m \Sigma_m V_m^\top$ ，则：

$P^{(i)*} = U_m V_m^\top$

2. 优化 $B$ （固定 ${P(i)},γ\{P^{(i)}\}, \gamma$ ）

将目标函数对 $B$ 展开，可转化为对每一行 $bj=B[j,:]∈R1×Kb_j = B[j, :] \in \mathbb{R}^{1 \times K}$ 的二次规划（QP）问题：

$\min_{b_j} \frac{1}{2} b_j Q b_j^\top + c^\top b_j$

其中：

$\sum_{i=1}^V \gamma_i^2 \mu^* (\mu^*)^\top + \lambda I_K$
$c⊤=−∑i=1Vγi2X(i)[j,:](P(i))⊤(μ∗)⊤c^\top = - \sum_{i=1}^V \gamma_i^2 X^{(i)}[j, :] (P^{(i)})^\top (\mu^*)^\top$

该 QP 问题可并行求解（每行独立），且因 $Q$ 正定，存在唯一解。

3. 优化 $γ\gamma$ （固定 $B, \{P^{(i)}\}$ ）

令 $βi=∥X(i)−Bμ∗P(i)∥F2\beta_i = \| X^{(i)} - B \mu^* P^{(i)} \|_F^2$ ，则问题变为：

$\min_{\gamma} \sum_{i=1}^V \gamma_i^2 \beta_i \quad \text{s.t. } \gamma^\top \mathbf{1} = 1, \gamma \geq 0$

由 Cauchy-Schwarz 不等式，最优解为：

$\gamma_i = \frac{1 / \beta_i}{\sum_{j=1}^V 1 / \beta_j}$

即：重构误差越小的视图，权重越大。

四、首要贡献点

首次形式化定义了多视图聚类中理想锚点的三大性质（Diversity, Balance, Compactness），并给出数学定义；
**提出 Max-Mahalanobis Anchors **(MMA)：利用最大化最小 Mahalanobis 距离构造锚点，理论证明其满足上述三性质；
- MMA 在角度上完全均匀（方差为0 → Balance）；
- 平均夹角 $θˉ=arccos⁡(1/(1−K))∈[90∘,180∘]\bar{\theta} = \arccos(1/(1-K)) \in [90^\circ, 180^\circ]$ → Diversity；
- 锚点位于 $K - 1$ 维子空间 → Compactness；
构建 MAGIC 框架：将 MMA 作为引导目标，通过迭代优化使多视图共识表示对齐 MMA，提升聚类判别性；
大量实验验证：在10个数据集上显著优于现有锚点方法，且 MMA 可作为即插即用模块提升其他方法性能（见消融实验）。

五、算法实现过程（MAGIC）

步骤 1：生成 MMA 锚点 $μ∗\mu^*$

初始化： $μ1∗=e1=[1,0,…,0]⊤∈RK\mu_1^* = e_1 = [1, 0, \dots, 0]^\top \in \mathbb{R}^K$ ，其余 $μi∗=0K\mu_i^* = 0_K$ ；
递归生成（ $i = 2$ 到 $K$ ）：
$\mu_i^*(j) = \begin{cases} -\frac{\langle \mu_i^*, \mu_j^* \rangle}{\mu_j^*(j)} & j \ne i \\ \sqrt{1 - \|\mu_i^*\|_2^2} & j = i \end{cases}$
统一缩放： $μk∗←C⋅μk∗\mu_k^* \leftarrow \sqrt{C} \cdot \mu_k^*$ （通常取 $C = 1$ ）

最终得到满足：
$(\mu_i^*)^\top \mu_j^* = \begin{cases} C & i = j \\ \frac{C}{1 - K} & i \ne j \end{cases}$
的锚点集。

步骤 2：初始化共识表示 $B$ 和视图权重 $γ\gamma$

$B$ ：用单位矩阵拼接零矩阵初始化（保证初始行和为1）；
$γi=1/V\gamma_i = 1/V$ （均匀初始化）。

步骤 3：迭代优化（直到收敛）

重复以下三步：

更新投影：对每个视图 $i$ ，计算 $Mi=(μ∗)⊤B⊤X(i)M_i = (\mu^*)^\top B^\top X^{(i)}$ ，SVD 得 $P(i)=UmVm⊤P^{(i)} = U_m V_m^\top$ ；
更新共识表示 $B$ ：对每行 $j$ ，求解 QP 问题（可并行）；
更新视图权重 $γ\gamma$ ：计算 $βi=∥X(i)−Bμ∗P(i)∥F2\beta_i = \|X^{(i)} - B \mu^* P^{(i)}\|_F^2$ ，代入 $γi=1/βi∑j1/βj\gamma_i = \frac{1/\beta_i}{\sum_j 1/\beta_j}$ 。

步骤 4：聚类输出

对最终的 $B$ 做 SVD： $U_b \Sigma_b V_b^\top$ ，取左奇异向量 $Ub∈RN×KU_b \in \mathbb{R}^{N \times K}$ ，对其行做 k-means得到最终聚类标签。

补充说明：MMA 的几何意义

$K = 2$ ：两点在一条直线上，反向；
$K = 3$ ：等边三角形的三个顶点（2D）；
$K = 4$ ：正四面体的四个顶点（3D）；
一般地：MMA 是 $K$ 个点在 $K - 1$ 维空间中最大角分离的构型（即 simplex 顶点）。

这正是其满足 Diversity + Balance + Compactness 的几何根源。

综上，MAGIC 通过理性设计锚点结构（而非随机或正交约束），为多视图聚类提供了更稳定、判别性更强的表示学习范式。

一、动机：为什么需要 MMA？

传统锚点方法存在两大问题：

固定锚点法（如 k-means 中心）：依赖初始化，稳定性差；
优化锚点法（如正交约束）：虽提升多样性，但可能破坏对数据分布的拟合（即“紧凑性”不足）。

作者提出：理想锚点应同时具备：

Diversity（多样性）：任意两个锚点之间尽可能远离；
Balance（平衡性）：锚点在角度分布上均匀，避免结构偏斜；
Compactness（紧凑性）：锚点应位于尽可能低维的子空间中，避免冗余维度。

MMA 正是为了同时满足这三点而设计。

二、数学原理：最大化最小 Mahalanobis 距离

1. 问题建模

设锚点集合为 $μ={μ1,μ2,…,μK}⊂RK\mu = \{\mu_1, \mu_2, \dots, \mu_K\} \subset \mathbb{R}^K$ ，目标是让任意两个锚点之间的最小距离尽可能大。

由于直接优化角度困难，作者转而最大化任意两锚点间的最小 Mahalanobis 距离：

$\mu^* = \arg\max_{\mu} \min_{i \ne j} \Delta_{ij}, \quad \text{其中 } \Delta_{ij} = \sqrt{(\mu_i - \mu_j)^\top \Sigma^{-1} (\mu_i - \mu_j)}$

但在 MMA 构造中，协方差矩阵 $Σ\Sigma$ 被隐式设定为单位阵（或通过约束等价处理），因此实际优化目标简化为：

$\mu^* = \arg\min_{\mu} \max_{i \ne j} \frac{1}{2} \|\mu_i - \mu_j\|_2^2 \quad \text{（等价于最大化最小距离）}$

在约束条件：

$∥μi∥22=C\|\mu_i\|_2^2 = C$ （所有锚点具有相同范数），
$∑i=1Kμi=0K\sum_{i=1}^K \mu_i = 0_K$ （锚点中心在原点），

下，可以推导出如下最优解条件（见 Theorem 1）：

$\mu_i^\top \mu_j = \begin{cases} C, & i = j \\ \displaystyle \frac{C}{1 - K}, & i \ne j \end{cases} \tag{1}$

这个内积结构是 MMA 的核心。

三、MMA 的构造过程

论文给出一个递归构造算法，生成满足式 (1) 的锚点：

步骤 1：初始化

$μ1∗=e1=[1,0,…,0]⊤∈RK\mu_1^* = e_1 = [1, 0, \dots, 0]^\top \in \mathbb{R}^K$
$μi∗=0K\mu_i^* = 0_K$ for $\dots, K$

步骤 2：递归生成（ $i = 2$ 到 $K$ ）

对每个 $i$ ，依次计算其第 $j$ 个分量：
$\mu_i^*(j) = \begin{cases} \displaystyle -\frac{\langle \mu_i^*, \mu_j^* \rangle}{\mu_j^*(j)}, & j \ne i \\ \displaystyle \sqrt{1 - \|\mu_i^*\|_2^2}, & j = i \end{cases} \tag{2}$

注：由于 $μj∗\mu_j^*$ 在第 $j$ 维非零（由构造保证），分母不为零。

步骤 3：统一缩放

令 $μk∗←C⋅μk∗\mu_k^* \leftarrow \sqrt{C} \cdot \mu_k^*$ ，使得 $∥μk∗∥22=C\|\mu_k^*\|_2^2 = C$

最终得到的 $μ∗=[μ1∗,…,μK∗]⊤∈RK×K\mu^* = [\mu_1^*, \dots, \mu_K^*]^\top \in \mathbb{R}^{K \times K}$ 满足式 (1)。

四、几何解释与三大性质验证

1. Diversity（多样性）

由式 (1)，任意两不同锚点夹角为：

$\cos \theta_{ij} = \frac{\mu_i^\top \mu_j}{\|\mu_i\| \|\mu_j\|} = \frac{C/(1-K)}{C} = \frac{1}{1 - K}$

因此平均角度：
$\bar{\theta} = \arccos\left( \frac{1}{1 - K} \right) \in [90^\circ, 180^\circ], \quad \text{for } K \geq 2$

→ 满足 Diversity（Definition 1）。

2. Balance（平衡性）

所有 $θij\theta_{ij}$ 相等 → 角度方差为 0：

$\mathrm{Var}(\{\theta_{ij}\}) = 0 \leq \varepsilon$

→ 满足 Balance（Definition 2，取 $ε=0\varepsilon = 0$ ）。

3. Compactness（紧凑性）

虽然锚点在 $RK\mathbb{R}^K$ 中表示，但由于 $∑i=1Kμi=0K\sum_{i=1}^K \mu_i = 0_K$ ，它们实际位于一个 $K - 1$ 维超平面中。

例如：
- $K = 2$ ：两点在 1D 直线上（线段两端）；
- $K = 3$ ：三点构成等边三角形（2D）；
- $K = 4$ ：四点构成正四面体（3D）。

→ 锚点分布在一个 $K - 1$ 维 simplex上，维度最低 → 满足Compactness（Definition 3）。

五、总结：MMA 的核心思想

MMA 依据最大化任意两锚点间的最小 Mahalanobis 距离，导出一组具有等角分离、中心对称、低维嵌入特性的锚点。其数学形式简洁、几何结构优美，且无需训练、无随机性、可解析生成，非常适合作为多视图聚类中的“理想引导结构”。

在 MAGIC 框架中，MMA 被固定为引导目标，迫使多视图共识表示 $B$ 逐步对齐该结构，从而获得高判别性、高稳定性的聚类结果。

刷新页面返回顶部

tlnshuju