代码改变世界

AAAI-2025《Max-Mahalanobis Anchors Guidance for Multi-View Clustering》 - 详解

2025-09-25 19:05  tlnshuju  阅读(37)  评论(0)    收藏  举报

一、核心思想

论文聚焦于多视图聚类(Multi-View Clustering, MVC)中的锚点(anchor)设计问题。现有技巧分为两类:

  1. 固定锚点法(如 k-means 中心):易受初始化影响,稳定性差;
  2. 优化锚点法(如正交约束):虽提升多样性,但可能牺牲对数据分布的拟合能力(即“紧凑性”不足)。

为此,作者首次形式化定义了理想锚点应具备的三大性质

  • 多样性(Diversity):锚点之间应尽可能远离,以增强判别性;
  • 平衡性(Balance):锚点在角度分布上应均匀,避免结构偏斜;
  • 紧凑性(Compactness):锚点应位于尽可能低维的子空间中,避免冗余维度。

基于此,作者提出Max-Mahalanobis Anchors(MMA) —— 一种经过最大化任意两锚点间的最小 Mahalanobis 距离来构造的锚点集,并证明其满足上述三性质。

进一步地,将 MMA 作为引导目标,构建多视图聚类框架 MAGIC,使各视图学习到的共识表示逐步对齐 MMA,从而获得更具判别性的聚类结构。


二、目标函数

论文提出如下优化目标:

min⁡B,{P(i)},γ∑i=1Vγi2∥X(i)−Bμ∗P(i)∥F2+λ∥B∥F2 \min_{B, \{P^{(i)}\}, \gamma} \sum_{i=1}^V \gamma_i^2 \| X^{(i)} - B \mu^* P^{(i)} \|_F^2 + \lambda \| B \|_F^2B,{P(i)},γmini=1Vγi2X(i)BμP(i)F2+λBF2

约束条件

  • P(i)(P(i))⊤=IKP^{(i)} (P^{(i)})^\top = I_KP(i)(P(i))=IK(投影矩阵正交)
  • B≥0B \geq 0B0, B1K=1NB \mathbf{1}_K = \mathbf{1}_NB1K=1N(行和为1,非负,即软聚类分配)
  • γ⊤1V=1\gamma^\top \mathbf{1}_V = 1γ1V=1, γ≥0\gamma \geq 0γ0(视图权重归一化)

其中:

  • X(i)∈RN×diX^{(i)} \in \mathbb{R}^{N \times d_i}X(i)RN×di:第 iii个视图的素材;
  • μ∗∈RK×K\mu^* \in \mathbb{R}^{K \times K}μRK×K固定的 MMA 锚点矩阵(由算法预先生成);
  • B∈RN×KB \in \mathbb{R}^{N \times K}BRN×K共识表示(consensus representation),即每个样本对KKK个锚点的软分配;
  • P(i)∈RK×diP^{(i)} \in \mathbb{R}^{K \times d_i}P(i)RK×di:第 iii视图从原始空间到锚点空间的投影矩阵
  • γi\gamma_iγi:第 iii视图的自适应权重;
  • λ\lambdaλ:正则化参数,控制BBB 的平滑性。

该目标函数的本质是:让所有视图通过线性投影P(i)P^{(i)}P(i)映射到由 MMA 张成的锚点空间,并用共识表示BBB重构原始数据,同时鼓励BBB 紧凑、平滑


三、目标函数的详细优化过程

采用坐标下降法(Coordinate Descent),交替优化三个变量:

1. 优化 {P(i)}\{P^{(i)}\}{P(i)}(固定 B,γB, \gammaB,γ

对每个视图 iii,目标简化为:

max⁡P(i)Tr((P(i))⊤Mi),其中 Mi=(μ∗)⊤B⊤X(i) \max_{P^{(i)}} \mathrm{Tr}\left( (P^{(i)})^\top M_i \right), \quad \text{其中 } M_i = (\mu^*)^\top B^\top X^{(i)}P(i)maxTr((P(i))Mi),其中Mi=(μ)BX(i)

在约束 P(i)(P(i))⊤=IKP^{(i)} (P^{(i)})^\top = I_KP(i)(P(i))=IK下,最优解由SVD 给出:

Mi=UmΣmVm⊤M_i = U_m \Sigma_m V_m^\topMi=UmΣmVm,则:

P(i)∗=UmVm⊤ P^{(i)*} = U_m V_m^\topP(i)=UmVm

2. 优化 BBB(固定 {P(i)},γ\{P^{(i)}\}, \gamma{P(i)},γ

将目标函数对BBB展开,可转化为对每一行bj=B[j,:]∈R1×Kb_j = B[j, :] \in \mathbb{R}^{1 \times K}bj=B[j,:]R1×K二次规划(QP)问题:

min⁡bj12bjQbj⊤+c⊤bj \min_{b_j} \frac{1}{2} b_j Q b_j^\top + c^\top b_jbjmin21bjQbj+cbj

其中:

  • Q=∑i=1Vγi2μ∗(μ∗)⊤+λIKQ = \sum_{i=1}^V \gamma_i^2 \mu^* (\mu^*)^\top + \lambda I_KQ=i=1Vγi2μ(μ)+λIK
  • c⊤=−∑i=1Vγi2X(i)[j,:](P(i))⊤(μ∗)⊤c^\top = - \sum_{i=1}^V \gamma_i^2 X^{(i)}[j, :] (P^{(i)})^\top (\mu^*)^\topc=i=1Vγi2X(i)[j,:](P(i))(μ)

该 QP 问题可并行求解(每行独立),且因QQQ正定,存在唯一解。

3. 优化 γ\gammaγ(固定 B,{P(i)}B, \{P^{(i)}\}B,{P(i)}

βi=∥X(i)−Bμ∗P(i)∥F2\beta_i = \| X^{(i)} - B \mu^* P^{(i)} \|_F^2βi=X(i)BμP(i)F2,则问题变为:

min⁡γ∑i=1Vγi2βis.t. γ⊤1=1,γ≥0 \min_{\gamma} \sum_{i=1}^V \gamma_i^2 \beta_i \quad \text{s.t. } \gamma^\top \mathbf{1} = 1, \gamma \geq 0γmini=1Vγi2βis.t. γ1=1,γ0

Cauchy-Schwarz 不等式,最优解为:

γi=1/βi∑j=1V1/βj \gamma_i = \frac{1 / \beta_i}{\sum_{j=1}^V 1 / \beta_j}γi=j=1V1/βj1/βi

即:重构误差越小的视图,权重越大


四、首要贡献点

  1. 首次形式化定义了多视图聚类中理想锚点的三大性质(Diversity, Balance, Compactness),并给出数学定义;
  2. **提出 Max-Mahalanobis Anchors **(MMA):利用最大化最小 Mahalanobis 距离构造锚点,理论证明其满足上述三性质;
    • MMA 在角度上完全均匀(方差为0 → Balance);
    • 平均夹角 θˉ=arccos⁡(1/(1−K))∈[90∘,180∘]\bar{\theta} = \arccos(1/(1-K)) \in [90^\circ, 180^\circ]θˉ=arccos(1/(1K))[90,180]→ Diversity;
    • 锚点位于 K−1K-1K1维子空间 → Compactness;
  3. 构建 MAGIC 框架:将 MMA 作为引导目标,通过迭代优化使多视图共识表示对齐 MMA,提升聚类判别性;
  4. 大量实验验证:在10个数据集上显著优于现有锚点方法,且 MMA 可作为即插即用模块提升其他方法性能(见消融实验)。

五、算法实现过程(MAGIC)

步骤 1:生成 MMA 锚点μ∗\mu^*μ

  • 初始化μ1∗=e1=[1,0,…,0]⊤∈RK\mu_1^* = e_1 = [1, 0, \dots, 0]^\top \in \mathbb{R}^Kμ1=e1=[1,0,,0]RK,其余 μi∗=0K\mu_i^* = 0_Kμi=0K
  • 递归生成i=2i = 2i=2KKK):
    μi∗(j)={−⟨μi∗,μj∗⟩μj∗(j)j≠i1−∥μi∗∥22j=i \mu_i^*(j) = \begin{cases} -\frac{\langle \mu_i^*, \mu_j^* \rangle}{\mu_j^*(j)} & j \ne i \\ \sqrt{1 - \|\mu_i^*\|_2^2} & j = i \end{cases}μi(j)={μj(j)μi,μj1μi22j=ij=i
  • 统一缩放μk∗←C⋅μk∗\mu_k^* \leftarrow \sqrt{C} \cdot \mu_k^*μkCμk(通常取 C=1C=1C=1

最终得到满足:
(μi∗)⊤μj∗={Ci=jC1−Ki≠j (\mu_i^*)^\top \mu_j^* = \begin{cases} C & i = j \\ \frac{C}{1 - K} & i \ne j \end{cases}(μi)μj={C1KCi=ji=j
的锚点集。

步骤 2:初始化共识表示BBB 和视图权重 γ\gammaγ

  • BBB:用单位矩阵拼接零矩阵初始化(保证初始行和为1);
  • γi=1/V\gamma_i = 1/Vγi=1/V(均匀初始化)。

步骤 3:迭代优化(直到收敛)

重复以下三步:

  1. 更新投影:对每个视图iii,计算 Mi=(μ∗)⊤B⊤X(i)M_i = (\mu^*)^\top B^\top X^{(i)}Mi=(μ)BX(i),SVD 得P(i)=UmVm⊤P^{(i)} = U_m V_m^\topP(i)=UmVm
  2. 更新共识表示BBB:对每行 jjj,求解 QP 问题(可并行);
  3. 更新视图权重γ\gammaγ:计算 βi=∥X(i)−Bμ∗P(i)∥F2\beta_i = \|X^{(i)} - B \mu^* P^{(i)}\|_F^2βi=X(i)BμP(i)F2,代入 γi=1/βi∑j1/βj\gamma_i = \frac{1/\beta_i}{\sum_j 1/\beta_j}γi=j1/βj1/βi

步骤 4:聚类输出

对最终的 BBB做 SVD:B=UbΣbVb⊤B = U_b \Sigma_b V_b^\topB=UbΣbVb,取左奇异向量Ub∈RN×KU_b \in \mathbb{R}^{N \times K}UbRN×K,对其行做 k-means得到最终聚类标签。


补充说明:MMA 的几何意义

  • K=2K=2K=2:两点在一条直线上,反向;
  • K=3K=3K=3:等边三角形的三个顶点(2D);
  • K=4K=4K=4:正四面体的四个顶点(3D);
  • 一般地:MMA 是KKK 个点在 K−1K-1K1 维空间中最大角分离的构型(即 simplex 顶点)。

这正是其满足 Diversity + Balance + Compactness 的几何根源。


综上,MAGIC 通过理性设计锚点结构(而非随机或正交约束),为多视图聚类提供了更稳定、判别性更强的表示学习范式。


一、动机:为什么需要 MMA?

传统锚点方法存在两大问题:

  • 固定锚点法(如 k-means 中心):依赖初始化,稳定性差;
  • 优化锚点法(如正交约束):虽提升多样性,但可能破坏对数据分布的拟合(即“紧凑性”不足)。

作者提出:理想锚点应同时具备

  1. Diversity(多样性):任意两个锚点之间尽可能远离;
  2. Balance(平衡性):锚点在角度分布上均匀,避免结构偏斜;
  3. Compactness(紧凑性):锚点应位于尽可能低维的子空间中,避免冗余维度。

MMA 正是为了同时满足这三点而设计。


二、数学原理:最大化最小 Mahalanobis 距离

1. 问题建模

设锚点集合为μ={μ1,μ2,…,μK}⊂RK\mu = \{\mu_1, \mu_2, \dots, \mu_K\} \subset \mathbb{R}^Kμ={μ1,μ2,,μK}RK,目标是让任意两个锚点之间的最小距离尽可能大

由于直接优化角度困难,作者转而最大化任意两锚点间的最小 Mahalanobis 距离

μ∗=arg⁡max⁡μmin⁡i≠jΔij,其中 Δij=(μi−μj)⊤Σ−1(μi−μj) \mu^* = \arg\max_{\mu} \min_{i \ne j} \Delta_{ij}, \quad \text{其中 } \Delta_{ij} = \sqrt{(\mu_i - \mu_j)^\top \Sigma^{-1} (\mu_i - \mu_j)}μ=argμmaxi=jminΔij,其中Δij=(μiμj)Σ1(μiμj)

但在 MMA 构造中,协方差矩阵Σ\SigmaΣ被隐式设定为单位阵(或通过约束等价处理),因此实际优化目标简化为:

μ∗=arg⁡min⁡μmax⁡i≠j12∥μi−μj∥22(等价于最大化最小距离) \mu^* = \arg\min_{\mu} \max_{i \ne j} \frac{1}{2} \|\mu_i - \mu_j\|_2^2 \quad \text{(等价于最大化最小距离)}μ=argμmini=jmax21μiμj22(等价于最大化最小距离)

在约束条件:

  • ∥μi∥22=C\|\mu_i\|_2^2 = Cμi22=C(所有锚点具有相同范数),
  • ∑i=1Kμi=0K\sum_{i=1}^K \mu_i = 0_Ki=1Kμi=0K(锚点中心在原点),

下,可以推导出如下最优解条件(见 Theorem 1):

μi⊤μj={C,i=jC1−K,i≠j(1) \mu_i^\top \mu_j = \begin{cases} C, & i = j \\ \displaystyle \frac{C}{1 - K}, & i \ne j \end{cases} \tag{1}μiμj=C,1KC,i=ji=j(1)

这个内积结构是 MMA 的核心。


三、MMA 的构造过程

论文给出一个递归构造算法,生成满足式 (1) 的锚点:

步骤 1:初始化

  • μ1∗=e1=[1,0,…,0]⊤∈RK\mu_1^* = e_1 = [1, 0, \dots, 0]^\top \in \mathbb{R}^Kμ1=e1=[1,0,,0]RK
  • μi∗=0K\mu_i^* = 0_Kμi=0K for i=2,…,Ki = 2, \dots, Ki=2,,K

步骤 2:递归生成(i=2i = 2i=2KKK

对每个 iii,依次计算其第jjj 个分量:
μi∗(j)={−⟨μi∗,μj∗⟩μj∗(j),j≠i1−∥μi∗∥22,j=i(2) \mu_i^*(j) = \begin{cases} \displaystyle -\frac{\langle \mu_i^*, \mu_j^* \rangle}{\mu_j^*(j)}, & j \ne i \\ \displaystyle \sqrt{1 - \|\mu_i^*\|_2^2}, & j = i \end{cases} \tag{2}μi(j)=μj(j)μi,μj,1μi22,j=ij=i(2)

注:由于 μj∗\mu_j^*μj 在第 jjj维非零(由构造保证),分母不为零。

步骤 3:统一缩放

  • μk∗←C⋅μk∗\mu_k^* \leftarrow \sqrt{C} \cdot \mu_k^*μkCμk,使得 ∥μk∗∥22=C\|\mu_k^*\|_2^2 = Cμk22=C

最终得到的 μ∗=[μ1∗,…,μK∗]⊤∈RK×K\mu^* = [\mu_1^*, \dots, \mu_K^*]^\top \in \mathbb{R}^{K \times K}μ=[μ1,,μK]RK×K满足式 (1)。


四、几何解释与三大性质验证

1. Diversity(多样性)

由式 (1),任意两不同锚点夹角为:

cos⁡θij=μi⊤μj∥μi∥∥μj∥=C/(1−K)C=11−K \cos \theta_{ij} = \frac{\mu_i^\top \mu_j}{\|\mu_i\| \|\mu_j\|} = \frac{C/(1-K)}{C} = \frac{1}{1 - K}cosθij=μi∥∥μjμiμj=CC/(1K)=1K1

因此平均角度:
θˉ=arccos⁡(11−K)∈[90∘,180∘],for K≥2 \bar{\theta} = \arccos\left( \frac{1}{1 - K} \right) \in [90^\circ, 180^\circ], \quad \text{for } K \geq 2θˉ=arccos(1K1)[90,180],for K2

→ 满足 Diversity(Definition 1)。


2. Balance(平衡性)

所有 θij\theta_{ij}θij相等 → 角度方差为 0:

Var({θij})=0≤ε \mathrm{Var}(\{\theta_{ij}\}) = 0 \leq \varepsilonVar({θij})=0ε

→ 满足 Balance(Definition 2,取ε=0\varepsilon = 0ε=0)。


3. Compactness(紧凑性)

虽然锚点在 RK\mathbb{R}^KRK中表示,但由于∑i=1Kμi=0K\sum_{i=1}^K \mu_i = 0_Ki=1Kμi=0K,它们实际位于一个K−1K-1K1 维超平面中。

  • 例如:
    • K=2K=2K=2:两点在 1D 直线上(线段两端);
    • K=3K=3K=3:三点构成等边三角形(2D);
    • K=4K=4K=4:四点构成正四面体(3D)。

→ 锚点分布在一个K−1K-1K1维 simplex上,维度最低 → 满足Compactness(Definition 3)。


五、总结:MMA 的核心思想

MMA 依据最大化任意两锚点间的最小 Mahalanobis 距离,导出一组具有等角分离、中心对称、低维嵌入特性的锚点。其数学形式简洁、几何结构优美,且无需训练、无随机性、可解析生成,非常适合作为多视图聚类中的“理想引导结构”。

在 MAGIC 框架中,MMA 被固定为引导目标,迫使多视图共识表示BBB逐步对齐该结构,从而获得高判别性、高稳定性的聚类结果。