QGRL: Quaternion Graph Representation Learning for Heterogeneous Feature Data Clustering翻译

QGRL: Quaternion Graph Representation Learning for Heterogeneous Feature Data Clustering

四元数图表示学习在异构特征数据聚类中的应用

Junyang Chen KDD 2024 广东工业大学 通信作者 张逸群

在谱聚类方法中引入四元数,四元数是一种扩展的复数系统,可以表示为 \(a+bi+cj+dk\),其中 \(a,b,c,d\) 是实数,而 \(i,j,k\)是四元数单位。高维表示能力:四元数提供了比实数或复数更多的维度,这允许模型在表示节点特征时有更高的灵活性和表达能力;捕获复杂关系:四元数的四个分量可以捕获节点间的复杂关系,这在处理具有多重关系或多模态特性的网络时特别有用;鲁棒性:四元数的额外维度可能使模型对于噪声和异常值更加鲁棒。但是,计算复杂度:四元数的运算比实数或复数更复杂,这可能导致更高的计算成本和更长的训练时间;参数数量增加:由于四元数的四个分量,模型的参数数量可能会显著增加,这可能导致过拟合的风险增加,并且需要更多的数据来训练。

摘要

聚类是无监督数据分析中最常用的技术之一。由于真实的数据集通常由性质异构的数值和分类特征组成,距离度量和特征耦合的异构性阻碍了深度表示学习在聚类准确性上达到令人满意的效果。目前,有监督的四元数表示学习(QRL:Quaternion Representation Learning)在高效学习原始数据内在派生的多视图耦合特征的信息表示方面取得了显著的成功。为了继承QRL在无监督异构特征表示学习的优势,提出了一个以编码器-解码器方式工作的深度QRL模型。为确保异构特征数据的隐式耦合能够很好地通过表示学习进行表征,设计了一种层次耦合编码策略,将数据集转换为属性图,作为QRL的输入。还将聚类目标集成到模型训练中,以促进表示和聚类的联合优化。广泛的实验评估表明,所提出的四元数图表示学习(QGRL)方法在聚类准确性和对各种由数值和分类特征任意组合构成的数据集的鲁棒性方面具有优越性。源代码在 https://github.com/Juny-Chen/QGRL.git 上开放。

1引言

聚类是知识发现和数据挖掘任务中最基础的技术之一。它以无监督的方式探索数据对象的潜在分布,这些分布通过特征值反映出来。随着各种数据的爆炸性增长,包含数值和分类特征的数据集非常常见,可以在医疗数据分析系统[24]、引用关系数据库[6]中轻易找到。由于特征的异构性,探索由数值和分类特征共同反映的数据对象分布是困难的。也就是说,异构的数值和分类特征分别带有定量和定性值,它们以完全不同的方式描述对象分布[2, 39]。在异构特征之间丢失关键的表示信息肯定会降低表示学习的效率和下游聚类的准确性。

最近针对异构特征数据聚类的方法试图开发出更多考虑数据统计量和先验知识的相似度度量,包括特征值的出现频率和语义序关系,特征之间的相互依赖性等。与简单的one-hot编码[3]和Hamming距离[4]相比,这些方法仅仅考虑两个值之间的匹配以进行相似性表示,更先进的度量[8, 20]通过考虑特征内值的出现频率来定义特征的距离结构。大多数最近的工作[39, 41, 42, 47]进一步利用特征间耦合的统计先验来实现更有信息量的分类数据表示。然而,这些方法基于特征级相似度的量化,没有考虑数据对象之间的关系,因此忽略了对象级相似度对聚类的影响。

由于深度图卷积网络在揭示图节点间关系方面的的强大能力,基于深度图表示学习的聚类受到了广泛关注,并取得了有竞争力的聚类性能[21, 35]。在图表示学习领域,主流的图卷积网络(GCN)[16]及其变体同时嵌入图结构和特征值,以获得更全面的数据表示。后来,图自编码器(GAE)及其变体[15, 26, 35, 37]也专门为图数据的无监督表示学习而开发。通过采用图卷积层作为编码器,它们显著提高了图数据聚类的性能。从理论上讲,通过堆叠更多的图卷积层可以进一步提高表示能力。然而,由于图卷积层堆叠的常见过平滑效应,嵌入趋于同质化。因此,大多数图表示学习模型被限制在浅层图卷积网络中,阻碍了它们聚合节点关系超出局部分布。结果,它们未能产生抗噪声的嵌入,并将在某种程度上影响聚类性能。

因此,在这项工作中,提出了一种新的图表示学习方法,名为四元数图表示学习(QGRL),用于异构特征数据聚类。QGRL首先在异构特征数据上构建图,以捕获隐式的值级、特征级和对象级耦合,然后引入强大的四元数表示学习机制[29]来规避图表示学习的过平滑效应。更具体地说,从数据中派生出一个邻接矩阵来形成图结构,称为异构数据图(HDG)。为确保信息丰富的图构建,通过设计的层次耦合编码(HCE)策略对数据的不同统计信息进行编码,以计算邻接矩阵。HDG起到了连接异构特征数据与后续表示学习之间的信息路径的桥梁。通过从构建的图中生成四视图编码,四元数表示学习(QRL)的哈密顿积可以促进全局特征的有效旋转,为表示学习带来更高程度的自由度。这补偿了浅层图卷积网络结构,并因此减轻了学习到的节点嵌入的过平滑。通过整合图重建和谱聚类损失,模型被促使在生成的四元数潜在空间中学习聚类友好的表示。在各种异构特征数据集上的广泛实验验证了所提方法在表示学习和聚类方面的优势。主要贡献可以总结为三个方面:

● 提出了一种新的QRL框架,用于准确和鲁棒的异构特征数据聚类。它使用构建的图桥接异构特征与表示学习之间的信息路径,并通过联合学习方案桥接表示学习和聚类任务。

● 为了为表示学习提供高信息保真度基础,精心设计了一种编码策略,结合了数据的统计先验,包括特征内概率、特征间依赖性和通过在异构特征上统一的度量计算的物体间距离。

● 这是第一次尝试将四元数引入无监督表示学习。通过的模型设计,形成了对异构特征数据表示的有效解耦,这也对将四元数应用于其他无监督学习任务具有很大的参考价值。

2相关工作

本节概述了异构特征数据聚类、图表示学习和四元数表示学习领域的相关现有工作。

2.1异构特征数据聚类

现有的异构特征数据聚类方法大致可以分为两类:1)为分类特征定义用于聚类的距离度量,以及2)将数据编码为数值数据进行聚类。

对于前一种类型,一个发展趋势是利用数据的统计信息进行更合理的距离计算。一些研究[1, 14, 18]从概率的角度理解两个值之间的相似性。也就是说,如果随机挑选两个不同值的概率更高,则认为它们更相似。一些其他方法[20, 40, 41]根据概率计算信息熵,并从信息论的角度判断不相似性。为了通过考虑特征之间的相互依赖性来扩展上述思想,现有的方法[13,23, 43]广泛采用来自另一个特征的两个可能值的条件概率分布(CPDs),以反映值级别的距离。通过进一步利用分类特征值的语义顺序[44],方法[39]定义了对数值、名义和序数特征统一的距离度量,以实现更通用的聚类。

后一种类型的方法将分类值转换为数值以进行聚类。由于传统的one-hot编码忽略了数据内的耦合,因此提出了一种更先进的编码策略,该策略利用数据对象的邻接矩阵作为编码[31]。为了使编码策略适应聚类,一些最近的进展[38, 42, 47]也提出了使编码过程相对于聚类目标可学习的方法。然而,上述所有编码策略很大程度上依赖于先验领域知识,从而限制了它们的有效性。对于编码后的数据,可以直接应用传统的K-Means类型算法[12]或谱聚类算法[22]来获得聚类结果。

2.2聚类的深度图表示学习

受到卷积神经网络强大特征提取能力的启发[17],图卷积网络(GCNs)[16]被提出将卷积操作推广到图数据,从而整合图结构和特征信息进行表示学习。继承了自动编码器(AE)[34]和变分自动编码器(VAE)[7]强大的编码器-解码器表示学习主干,Kipf等人[15]提出了图自编码器(GAE)和变分图自编码器(VGAE),它们将输入投影到低维空间,并以可学习的方式重建图结构,以捕捉关键的数据特征。

基于GAE的方法变体[26, 28, 35, 37]进一步引入了不同的编码增强机制来提高嵌入学习的能力。DAEGC[35]引入了注意力机制,整合属性信息和图结构,以进行更全面的表示学习。为了进一步实现联合聚类和表示学习,工作[37]放宽了聚类目标,并将其结合到GAE的训练过程中。后来,为了实现更稳健的数据表示学习,R-GAE[26]被提出,以从数学角度减轻噪声特征、特征漂移和特征随机性带来的影响。尽管上述基于GCN的方法在聚类方面取得了可观的改进,但它们仍然受到图卷积操作固有的过平滑效应的影响,并且没有考虑到特征异构性的常见问题。

2.3四元数表示学习

四元数是一种由四部分组成的超复数,两个四元数的汉密尔顿积可以被视为它们在由正交虚轴张成的空间中的有效旋转。为了在表示学习中利用高效的四元数积,一些最近的研究[9, 27, 29, 45, 48]将特征编码从实数域扩展到四元数域,以进行更充分的特征耦合学习。四元数神经网络(QNNs)[48]在各种监督任务中展示了出色的特征提取能力,例如,少样本分割[45]、图像分类[11]和语音识别[30]。QCLNet[45]引入了四元数表示学习,以减轻由高维相关张量带来的计算负担,同时也探索了查询和支持图像之间的潜在交互。工作[11]将每个RGB图像视为一个四元数,并通过汉密尔顿积与一个可学习的权重四元数嵌入,以实现更强大的表示学习。得益于正交虚轴和四元数代数的旋转特性,四元数有助于高效的特征耦合学习,因此在增强复杂关系特征的表示学习方面具有潜力。

3初步定义

本节介绍了异构特征数据的定义及其聚类问题设置。然后介绍了基本的四元数代数。表1列出了本文中常用的符号和记号。

image

本节介绍了异构特征数据的定义及其聚类问题设定。然后介绍了基本的四元数代数。表1整理了本文中常用的符号和标志。

一个异构特征数据集 \({\mathcal{S}}\) 表示为三元组 \({\mathcal{S}}=<{\mathcal{X}},{\mathcal{A}},{\mathcal{O}}>\)。数据对象集合 \(\mathcal X=\{x_{l}|l=1,2,\ldots,n\}\) 包含 \(n\) 个对象,每个对象 \(x_{l}=[x_{l}^{1},x_{l}^{2},\ldots,x_{l}^{d}]^{\top}\) 由来自 \(d\) 个特征的 \({\mathcal A}=\{A^{r}|r=1,2,\ldots,d\}\) 的值表示。对于一个异构特征数据集,假设有 \(d^{\{c\}}\) 个分类特征和 \(d^{\{u\}}\) 个数值特征,有 \({\mathcal A}={\mathcal A}^{\{c\}}\cup{\mathcal A}^{\{u\}}\)\(d = d^{\{c\}} + d^{\{u\}}\),其中 \(\mathcal{A}^{\{c\}}\)\(\mathcal{A}^{\{u\}}\) 分别是分类和数值特征集。每个特征可以写为一个 \(n\) 值向量 \(A^r = [a_{1}^{r},a_{2}^{r},\cdots,a_{n}^{r}]\),对于分类特征 \(A^{r}\in{\mathcal A}^{\{c\}}\),其 \(n\) 个值分布在有限数量(即 \(A^{r}\)\(v^{r}\))的可能值上,这可以写为一个独特的值集 \({\mathcal O}^{r}=\{o_{1}^{r},o_{2}^{r},\ldots,o_{v^r}^{r}\}\)\(O^{r}\in O\)。本文的研究目标是对上述异构特征数据集进行四元数表示学习(QRL),以获得满意的聚类性能。在这项工作中,关注常见的清晰分区聚类任务,即将整个数据集划分为一定数量的紧凑子集,包含紧密分布的数据对象。

以下介绍 QRL 中的四元数操作规则。四元数 \(Q\) 是域 \(\mathbb H\) 中的一种超复数,可以表示为:

\[Q=r+x\mathbf{i}+y\mathbf{j}+z\mathbf{k},\tag{1} \]

其中 \(r\) 是实部,\(xi+yj+zk\) 代表虚部。在 \(\mathbb H\) 中,虚部之间存在正交关系,即 \(\mathbf{i}^{2}=\mathbf{j}^{2}=\mathbf{k}^{2}=\mathbf{i}\mathbf{j}\mathbf{k}=-1\)。然后介绍本文涉及的四元数代数:i) 加法,ii) 标量乘法,iii) Hamilton 乘积。

i) 加法:给定两个四元数 \(Q_{1}\)\(Q_{2}\),加法操作将它们的对应部分相加:

\[\begin{aligned} Q_{1}+Q_{2}& =(r_{1}+r_{2})+(x_{1}+x_{2})\mathbf{i} \\ &+(y_{1}+y_{2})\mathbf{j}+(z_{1}+z_{2})\mathbf{k}. \end{aligned}\tag{2} \]

ii) 标量乘法:四元数 \(Q\) 可以通过标量 \(\lambda i\) 缩放:

\[\lambda Q=\lambda r+\lambda x\mathbf{i}+\lambda y\mathbf{j}+\lambda z\mathbf{k}.\tag{3} \]

iii) Hamilton 乘积:两个四元数 \(Q_{1}\)\(Q_{2}\) 之间的相互作用由 Hamilton 乘积指定,称为四元数变换。更具体地说,\(Q_{1}\) 可以基于四元数 \(Q_{2}\) 通过旋转进行变换:

\[\begin{aligned} Q_{1}\otimes Q_{2}& =(r_{1}r_{2}-x_{1}x_{2}-y_{1}y_{2}-z_{1}z_{2}) \\ &+(r_{1}x_{2}+x_{1}r_{2}+y_{1}z_{2}-z_{1}y_{2})\mathbf{i} \\ &+(r_{1}y_{2}-x_{1}z_{2}+y_{1}r_{2}+z_{1}x_{2})\mathbf{j} \\ &+(r_{1}z_{2}+x_{1}y_{2}-y_{1}x_{2}+z_{1}r_{2})\mathbf{k}. \end{aligned}\tag{4} \]

这样的操作可以在四元数场中形成特征组件之间的有效交互,并因此可用于促进学习模型在表示复杂数据耦合时的自由度。

4方法

在本节中,首先介绍了层次耦合编码(HCE)策略,对异构特征数据的复杂关系进行全面编码,然后提出了四元数图表示学习(QGRL)聚类方法。QGRL的整体流水线如图1所示。

image

图1:所提出的QGRL概述。异构数据首先通过所提出的层次耦合编码(HCE)策略编码成更具信息量的属性图 \(\mathcal G=\{\mathbf{A},\hat{\mathcal X}\}\),称为异构数据图(HDG)。然后执行多视图投影,将HDG的属性转换到四元数空间进行四元数表示学习。将获得的嵌入\(\Xi\)的四元数进行重构以形成邻接矩阵 \(\bar{A}\)作为解码操作。最后,训练好的QGRL模型的\(\Xi\)输出用于谱聚类。

4.1HCE:层次耦合编码

异构特征数据有四种类型的耦合:1)值级耦合,即分类特征内可能值之间的耦合;2)特征级耦合,即相互依赖特征之间的耦合;3)异构耦合,即不同类型特征之间的耦合;4)对象级耦合,即通过其相似性反映的数据对象之间的耦合。通过正确编码这些耦合,可以在深度表示框架中促进耦合学习。在本小节中,介绍了上述层次结构中提出的耦合编码策略。

4.1.1 值级耦合。分类特征 \(A^{r}\) 的可能值 \({\mathcal O}^{r} = \{o_{1}^{r}, o_{2}^{r}, \ldots, o_{v^{r}}^{r}\}\) 的发生概率可以视为一系列概率:

\[I^{r} = \{P_{i}^{r} | i = 1, \ldots, v^{r}\}\tag{5} \]

其中 \(P_{i}^{r}\) 是可能值 \(o_{i}^{r}\) 在特征\(A^{r}\) 中的发生概率:

\[P_{i}^{r} = \frac{\delta(\{A^{r}\}_{1}^{n} = o_{i}^{r})}{\delta(\{A^{r}\}_{1}^{n} \neq \text{Null})}.\tag{6} \]

这里,\(\delta(\{A^{r}\}_{1}^{n} = o_{i}^{r})\)这是一个指示函数,用于计算 \(o_{i}^{r}\) 在特征值集合 \(\{A^r\}_1^n\) 中的出现频率,而 \(\delta(\{A^{r}\}_{1}^{n} \neq \text{Null})\) 计算 \(\{A^{r}\}_{1}^{n}\) 中非空值的数量,通常等于 \(n\),因为每个样本至少有一个非空特征值。注意,在这里使用大写字母 \(P_{i}^{r}\) 来区分值的发生概率与稍后将介绍的条件概率。由于概率满足:

\[\sum_{i=1}^{v^r} P_i^r = 1, \]

通过对应可能值的发生概率对特征值进行编码,可以确保捕获每个特征内的值级耦合。

4.1.2 特征级耦合。实际数据集的原始特征通常在某种程度上是相互依赖的。为了表示这种特征间关系,还定义了一个特征 \(A^m\) 在给定另一个特征 \(A^r\) 的可能值 \(o_i^r\)的条件下的条件概率分布(CPD),作为一个 \(v^m\)维向量:

\[P_{i}^{m|r} = [p(o_{1}^{m} | o_{i}^{r}), p(o_{2}^{m} | o_{i}^{r}), \ldots, p(o_{v^{m}}^{m} | o_{i}^{r})]^{\top},\tag{7} \]

其中条件概率 \(p(o_{j}^{m} | o_{i}^{r})\) 通过以下方式计算:

\[p(o_j^m | o_i^r) = \frac{\sigma(\mathcal X_j^m \cap \mathcal X_i^r)}{\sigma(\mathcal X_i^r)}.\tag{8} \]

这里,\(\mathcal X_{i}^{r} = \{x_{l} | x_{l}^{r} = o_{i}^{r}, l = 1, 2, \cdots, n\}\)\(\mathcal X\) 的一个子集,包含所有第 \(r\) 个值等于 \(o_{i}^{r}\) 的数据对象。函数 \(\sigma(\cdot)\) 计算一个集合的基数。通过 \(P_i^{m|r}\),可以根据不同的特征 \(A^{m} \in \mathcal{A}^{\{c\}}\) 编码值 \(o_{i}^{r}\),以保留特征间的依赖关系。

4.1.3 异构耦合。上述特征级耦合编码根据CPDs统一处理分类特征。然而,对于异构特征数据,数值和分类特征的距离结构的异质性尚未被表示。为了在保留其内在距离结构的同时有效地连接异构特征,提出将分类特征值投影到一系列一维空间上,然后根据投影后的位置对分类值进行编码。

备注1:异构特征的连接。将分类值投影到一维空间上的原因是通过让它们以相同的方式反映距离来统一分类和数值特征。通过这种方式,形成了适当表示异构特征耦合的基础。

投影是根据4.1.2节中定义的基于CPDs的常用分类特征距离度量进行的,其中特征\(A^r\)的两个可能值\(o_{i}^{r}\)\(o_{j}^{r}\)之间的距离可以根据每个分类特征\(\mathcal{A}^{\{c\}}\)计算如下:

\[d(o_{i}^{r},o_{j}^{r})=\sum_{A^{m}\in\mathcal{A}(c)}\left\|P_{i}^{m|r}-P_{j}^{m|r}\right\|.\tag{9} \]

使用这个距离定义,可以将所有\(v^r\)个可能值的特征\(A^r\)投影到由对应可能值对所张成的\(v^{r}(v^{r}-1)/2\)个一维空间中的每个空间。也就是说,给定一个由两个可能值\(o_{i}^{r}\)\(o_{j}^{r}\)张成的一维空间\({\mathcal{R}}_{ij}^{r}\),可以通过计算值\(o_t^r\)\(o_{i}^{r}\)(或到\(o_{j}^{r}\))在空间\({\mathcal{R}}_{ij}^{r}\)中的距离来确定投影点:

\[\phi(o_t^r,o_i^r;\mathcal{R}_{ij}^r)=\frac{|d(o_t^r,o_i^r)^2-d(o_t^r,o_j^r)^2+d(o_i^r,o_j^r)^2|}{2\cdot d(o_i^r,o_j^r)}\tag{10} \]

根据毕达哥拉斯定理。关于更多的投影细节,读者可以参考[42]。投影所有\(v^r\)个可能值后,在\({\mathcal{R}}_{ij}^{r}\)中获得每对可能值之间的距离,并将这些距离组织成一个对称矩阵\(\mathbf{D}_{ij}^{r}\in\mathbb{R}^{\boldsymbol{\upsilon^r}\times\boldsymbol{\upsilon^r}}\),其\((t,l)\)\(\mathbf{D}_{ij}^{r}(t,l)\)表示在投影空间\({\mathcal{R}}_{ij}^{r}\)\(o_{t}^{r}\)\(o_{l}^{r}\)之间的距离。

备注2:投影的全面性。每个分类特征\(A^r\)被表示为来自不同内生视角的不同可能值对形成的\(v^{r}(v^{r}-1)/2\)个一维距离结构系列。结合备注1,知道投影信息性地保留了可能值之间的内在关系,而一维嵌入的形式确保了与数值特征的同质连接。

4.1.4 耦合的编码。通过上述三种类型的耦合编码,所有分类特征 \(\mathcal{A}^{\{c\}}\) 都被表示到更高的维度。具体来说,给定满足 \(a_{l}^{r} = o_{i}^{r}\) 的分类特征 \(A^r\) 的第 \(i\) 个值,\(a_{l}^{r}\) 将通过连接其三种类型的耦合编码来编码为一个向量:

\[\hat{a}_{l}^{r} = [P_{i}^{r},\underbrace{P_{i}^{1|r},P_{i}^{2|r},\ldots}_{d^{\{c\}}\text{特征级耦合}},\underbrace{D_{11}^{r}(i,\cdot),D_{12}^{r}(i,\cdot),\ldots}_{\frac{v^{r}(v^{r}-1)}{2}\text{异构耦合}}]\tag{11} \]

其中 \(P_{i}^{r}\) 表示值级耦合,\(P_{i}^{1|r}, P_{i}^{2|r},\ldots\) 是特征级耦合,\(\mathbf{D}_{11}^{r}(i,\cdot), \mathbf{D}_{12}^{r}(i,\cdot),\ldots\) 代表异构耦合。符号 \(\mathbf{D}_{ij}^{r}(t,\cdot)\) 表示在4.1.3节中定义的矩阵 \(\mathbf{D}_{ij}^{r}\) 的第 \(t\) 行。通过对 \(\mathcal{A}^{\{c\}}\) 中的每个特征值进行编码,编码后的分类特征集可以表示为 \(\hat{\mathcal{A}}^{\{c\}}\),整个特征集更新为 \(\hat{\mathcal{A}} = \hat{\mathcal{A}}^{\{c\}}\cup\mathcal{A}^{\{u\}}\)。相应地,将与 \(\hat{\mathcal{A}}\) 对应的对象集表示为 \(\tilde{X}\)

到目前为止,已经介绍了三种类型的耦合编码,即值级、特征级和异构耦合。最后的对象级耦合编码是通过在数据对象上构建一个完全连接图来执行的,这将在下一小节中单独讨论。

4.2HDG:异构数据图构建

为了在数据对象上构建一个高维图 (HDG),首先定义两个对象 \(x_a\)\(x_b\) 之间的对象级距离,使用 L2 范数表示为:

\[\Psi(x_a, x_b) = \left\|[\Phi^1(x_a^1, x_b^1), \Phi^2(x_a^2, x_b^2), \ldots, \Phi^d(x_a^d, x_b^d)]^\top\right\|_2,\tag{12} \]

其中 \(\Phi^r(x_a^r, x_b^r)\) 是由第 \(r\) 个特征反映的距离。为了在异构特征数据上实现更合理的距离测量,采用 [39] 中提出的基于图的统一不相似性来计算 \(\Phi^r(x_a^r, x_b^r)\)。假设对于 \(A^r \in \mathcal{A}^{\{c\}}\),有 \(x_a^r = o_i^r\)\(x_b^r = o_j^r\),则距离 \(\Phi^r(x_a^r, x_b^r)\) 可以写为:

\[\Phi^r(x_a^r, x_b^r) = \begin{cases} \sum_{m=1}^{d} \phi^{r|m}(o_i^r, o_j^r) \cdot \omega^{r|m}, & \text{if } A^r \in \mathcal{A}^{\{c\}} \\[2ex] |x_a^r - x_b^r|, & \text{if } A^r \in \mathcal{A}^{\{u\}} \end{cases}\tag{13} \]

其中

\[\phi^{r|m}(o_i^r, o_j^r) = \frac{\||P_i^{m|r} - P_j^{m|r}|\|_1}{2}\tag{14} \]

是由 \(A^m\) 反映的 \(o_i^r\)\(o_j^r\) 之间的不相似性,\(\omega^{r|m}\) 是用户指定的权重,也可以根据 \(A^m\)\(A^r\) 之间的相互依赖性计算得出。按照 [39],将每个数值特征离散化为五个等长区间,然后将离散化的特征视为分类特征以完成式 (14) 的计算,因为 \(A^m\) 可能是一个数值特征。尽管在两种情况下值级距离的格式不同(见式 (13)),但它们从转换成本的角度(通过 Earth Mover’s Distance (EMD) 计算)来看是统一的。由于篇幅限制,关于统一性和权重计算的更多细节,请参阅 [39]。

备注 3. HDG 构建的合理性。在第 4.1.4 节中,已经获得了一个信息丰富的耦合编码 \(\hat{\mathcal X}\),它可以用于基于欧几里得距离计算对象级距离。之所以选择在原始 \(\mathcal X\) 上采用基于图的统一不相似性来进行 HDG 构建,原因有二:1) 它以统一的方式处理异构的数值和分类特征,以避免信息丢失;2) 分类特征在 \(\hat{\mathcal X}\) 中被大幅扩展,直接在其上计算距离将导致对分类特征的过度强调。

通过式 (12) 计算每对对象之间的距离后,得到一个邻接矩阵 \(\mathbf{A} \in \mathbb{R}^{n \times n}\),其 \((i, j)\)-th 项等于 \(\Psi(x_i, x_j)\)。到目前为止,已经完成了所有四种类型耦合的编码,它们可以通过所构建的 HDG \(\mathcal G = \{\mathbf{A}, \hat{\mathcal X}\}\) 紧凑地表示。然后,\(\mathcal G\) 被视为所提出的表示学习模型的输入,该模型将在以下小节中详细说明。

4.3QGRL:四元数图表示学习

为了将构造的属性图 \(\mathcal G\) 的属性 \(\hat{\mathcal X}\) 转换为四元数空间,设计了一个可学习的四元数投影模块,通过以下方式将 \(\hat{\mathcal X}\)投影到四元数值空间:

\[\mathcal{F}_{i}(\hat{\mathcal X}; \mathbf{W}_{i}^{\mathbb{P}}, \mathbf{B}_{i}^{\mathbb{P}}) = \mathbf{W}_{i}^{\mathbb{P}} \hat{\mathcal X} + \mathbf{B}_{i}^{\mathbb{P}}\tag{15} \]

其中 \({\mathcal{F}}_{i}(\cdot)\) 是针对不同四元数分量的线性投影函数,即 \(i \in \{r, x, y, z\}\)。这里使用上标 \(\mathbb P\)来区分投影阶段的可学习参数与随后的四元数编码阶段参数(用\(\mathbb H\)表示)。四元数投影的目标是将特征信息性地转换为四视图的四元数值空间\(\mathbb H\),以便于具有更高自由度的表示学习。投影后,编码的四元数特征可以表示为:

\[\mathbf{M} = \mathbf{M}_{r} + \mathbf{M}_{x} \mathbf{i} + \mathbf{M}_{y} \mathbf{j} + \mathbf{M}_{z} \mathbf{k},\tag{16} \]

其中 \(\mathbf{M} \in \mathbb{H}^{n \times (4 \times \hat d)}\) 表示四元数特征矩阵。

为了学习不同四元数分量之间的相互依赖关系,提出使用四元数图表示编码器来捕获四元数嵌入之间的关系:

\[\mathcal{H}_{h}(\hat{\mathrm{A}}, \mathbf{M}_{h}; \mathbf{W}_{h}^{\mathbb{H}}) = \varphi(\hat{\mathrm{A}} \cdot \mathbf{M}_{h} \otimes \mathbf{W}_{h}^{\mathbb{H}}),\tag{17} \]

其中 \(\varphi(\cdot)\) 是 ReLU 函数,\(\hat{\mathbf{A}}\) 表示 \(A\) 的归一化拉普拉斯矩阵,\(h\) 索引到编码器的层数,符号 \(\otimes\) 表示 Hamilton 积,可以定义为:

\[\mathbf{M} \otimes \mathbf{W}^{\mathbb{H}} = \begin{bmatrix}\mathbf{M}_r\\\mathbf{M}_x\\\mathbf{M}_y\\\mathbf{M}_z\end{bmatrix}^\top \begin{bmatrix}\mathbf{W}_r^\mathbb{H}&-\mathbf{W}_x^\mathbb{H}&-\mathbf{W}_y^\mathbb{H}&-\mathbf{W}_z^\mathbb{H}\\\mathbf{W}_x^\mathbb{H}&\mathbf{W}_r^\mathbb{H}&-\mathbf{W}_z^\mathbb{H}&\mathbf{W}_y^\mathbb{H}\\\mathbf{W}_y^\mathbb{H}&\mathbf{W}_z^\mathbb{H}&\mathbf{W}_r^\mathbb{H}&-\mathbf{W}_x^\mathbb{H}\\\mathbf{W}_z^\mathbb{H}&-\mathbf{W}_y^\mathbb{H}&\mathbf{W}_x^\mathbb{H}&\mathbf{W}_r^\mathbb{H}\end{bmatrix}^\top \tag{18} \]

其中 \(W^{\mathbb{H}}\) 表示可学习的参数。为了简化,在式 (18) 中省略了 \(M\)\(W^{\mathbb{H}}\) 的下标 \(h\)

在传播了四元数分量之间的关系后,四元数特征嵌入进一步聚合为单个特征矩阵,用于计算下一阶段的图重构和聚类的损失。实际上,四元数特征嵌入聚合过程可以表示为:

\[\boldsymbol{\Xi}=\operatorname{Re}\left(\mathbf{M}_{L}\right) \circledast \operatorname{Im}\left(\mathbf{M}_{L}\right)\tag{19} \]

其中 \(\operatorname{Re}(\cdot)\)\(\operatorname{Im}(\cdot)\) 分别表示 \(M_L\) 的实部和虚部。\(M_L\) 是最后一个编码层 \({\mathcal{H}}_{\mathcal{L}}(\cdot)\) 的输出,符号 \(\circledast\) 表示四元数融合操作,它取四个四元数嵌入分量的平均值,形成下游图构建和聚类的紧凑嵌入。然后,通过以下方式重构邻接矩阵:

\[\bar{\mathbf{A}} = \Xi \cdot \Xi^\top\tag{20} \]

其中 \(\bar{\mathbf{A}}\) 表示重构后的矩阵,将直接用于计算训练损失。

4.4图重构与聚类的联合优化

受到[19]的启发,提出通过将Kullback-Leibler (KL)散度和放宽的谱聚类目标整合为损失函数,来共同优化无监督异构特征表示学习和谱聚类。直观上,KL损失鼓励模型通过恢复原始图的连通性来学习特征嵌入。聚类损失旨在通过保留嵌入空间中接近对象之间的相似性来学习区分性嵌入,并促进聚类分析。具体来说,整体损失函数定义如下:

\[\mathcal{L}=\mathcal{L}_{kl}+\alpha\mathcal{L}_{reg}+\beta\mathcal{L}_{e},\tag{21} \]

其中 \(\alpha\)\(\beta\) 是表示损失权重的超参数。\(\mathcal L_{reg}\) 是正则化项。在的实现中,采用L1正则化来惩罚模型的复杂性。KL损失 \(\mathcal L_{kl}\) 表达为:

\[\mathcal{L}_{kl}=\frac{1}{n^{2}}\sum_{i=1}^{n}\sum_{j=1}^{n}\hat{\mathbf{A}}_{ij}\log\frac{1}{\bar{\mathbf{A}}_{ij}},\tag{22} \]

其中 \(\hat{A}\)\(\bar{\mathbf{A}}\)分别表示归一化的拉普拉斯邻接矩阵和重建的邻接矩阵。

类似于图拉普拉斯特征映射[5],引入损失项 \(\mathcal L_{e}\)到损失函数中,以保留图属性,并惩罚在图中具有更高相似性但连通性较低的四元数嵌入。形式上,\(\mathcal L_{e}\)定义为:

\[\mathcal{L}_{e}=\mathrm{tr}(\Xi^{\top}\:(\mathbf{D}-\mathbf{\bar A})\:\Xi),\tag{23} \]

其中 D 表示度矩阵,\(\bar{A}\)是重建的邻接矩阵,\(\Xi\)包含学习的四元数嵌入,而 tr(·) 计算矩阵的迹。

KL损失 \(\mathcal{L}_{kl}\)鼓励在重建过程中目前学习的嵌入和原始图结构信息的共识融合,而特征映射损失 \(\mathcal L_{e}\)使模型更倾向于具有更高特征相似性的连接节点的稀疏图结构,这与谱聚类目标一致,因此可以被视为放宽的谱聚类目标。总之,它们在信息丰富性和学习到的嵌入的聚类友好性方面相互补充。最后,训练好的QGRL模型的最终嵌入\(\Xi\)输出被视为谱聚类的输入,以获得一定数量的聚类[22]。

posted @ 2024-12-08 12:51  silvan_happy  阅读(266)  评论(0)    收藏  举报