Effective Clustering on Large Attributed Bipartite Graphs翻译
Effective Clustering on Large Attributed Bipartite Graphs翻译
大型有属性二部图的高效聚类
Renchi Yang KDD 2024 香港浸会大学
摘要
属性二部图(ABGs)是一种表达性数据模型,用于描述与丰富属性相关的两组异构节点之间的交互,例如客户-产品购买网络和作者-论文作者关系图。将这些图中的目标节点集划分为𝑘个不相交的集群(称为𝑘-ABGC)在各种领域中得到了广泛的应用,包括社会网络分析、推荐系统、信息检索和生物信息学。然而,大多数针对𝑘-ABGC的现有解决方案要么忽略属性信息,要么无法准确捕获二部图结构,从而严重影响结果质量。这些问题的严重性在实际的ABGs中更加突出,这些ABGs通常包含数百万个节点和大量的属性数据,这使得在这些图上有效地𝑘-ABGC非常具有挑战性。
在本文中,提出了TPO,一种有效且高效的方法𝑘-ABGC,可以在多个真实数据集上实现出色的聚类性能。TPO通过两个主要贡献获得了高聚类质量:(i)基于多尺度属性亲和性的𝑘-ABGC问题的新公式和转换,专门用于捕获节点之间的属性亲和性,并考虑ABGs中的多跳连接;(ii)一个高效的求解器,其中包括一套精心设计的优化,以避免显式亲和性矩阵的构建,并促进更快的收敛。大量的实验将TPO与5个真实ABGs的19个基线进行了比较,结果表明TPO与地面真值标签相比具有优越的聚类质量。此外,与最先进的技术相比,TPO通常比小型和大型ABGs快40倍以上。
1 引言
二部图是一种不可缺少的数据结构,用于对来自异构来源的两组实体之间的相互作用进行建模,例如作者-出版协会、客户-商家交易、查询-网页配对以及社交媒体、电子商务平台、搜索引擎等各种用户-物品交互。在现实世界中,这样的图通常与丰富的属性相关联,例如,社交网络中的用户概况,网络图中的网页内容,癌症信号网络中的通路标志以及学术图中的论文关键词,这些被称为属性二部图(attribuated bipartite graph,以下简称ABGs)。
给定一个属性二部图\(\mathcal G\)两个不相交的节点集\(\mathcal U\)和\(\mathcal V\),𝑘-Attributed Bipartite Graph Clustering (𝑘-ABGC),分析ABG的根本任务,寻求感兴趣的分区节点的节点集,例如,\(\mathcal U\)和\(\mathcal V\),𝑘重叠集群C1, C2 , · · · , C𝑘,这样同一集群中节点C𝑖相互接近的相似属性和拓扑邻近\(\mathcal G\).由于ABGs普遍存在,𝑘-ABGC已经在社会网络分析、推荐系统、信息检索和生物信息学中得到了广泛的实际应用,例如用户/内容标记[45,81]、市场购物篮分析[83,84]、文档分类[8,59]、蛋白质复合物、疾病基因和药物靶标的鉴定[46,64]以及其他许多领域[26,34,50,67,69]。
如第5节所述,𝑘-ABGC的现有解决方案主要依赖于二部图共聚类(BGCC)、属性图聚类(AGC)和属性网络嵌入(ANE)技术。其中,文献[2,8,9,28,29,63]对聚类非属性二部图的BGCC进行了广泛的研究,其基本思想是仅根据U和V在G中的相互作用同时对它们进行分组,而不是将它们单独聚类。正如先前的研究[4]所指出的那样,属性提供了丰富的信息来表征节点的属性,因此可以补充缺乏的拓扑信息,从而更好地进行节点聚类。因此,BGCC方法在ABGs上表现不佳,因为它们忽略了这些信息。
为了利用图拓扑和属性的互补性来增强聚类效果,近年来人们在设计有效的AGC模型和算法方面投入了大量的努力[4,6,12,30,77,85]。尽管这些方法通过深度学习或复杂的统计模型融合图连通性和节点属性信息,在单部属性图上获得了更好的性能,但它们对于abg来说是次优的。
在过去的十年中,网络嵌入已经成为一种流行而强大的工具,用于分析图结构数据,特别是那些具有节点属性的数据。尽管发明了大量的网络嵌入技术[7,14,75],但大多数都是为单部图设计的。为了捕捉二部图的独特特征,Huang等[23]将node2vec[18]扩展到abg,代价是巨大的训练开销。对𝑘-ABGC采用这类方法需要一个后置阶段(例如𝑘-Means)来对节点嵌入进行聚类,考虑到高嵌入维度(通常为128),这是不划算的。总而言之,𝑘-ABGC的现有方法要么由于对属性和二部图拓扑的利用不足而降低了聚类质量,要么导致巨大的计算成本,特别是在包含数千个属性、数百万个节点和数十亿条边的大型abg上。
为了应对这些挑战,提出了TPO,这是一个新的𝑘-ABGC三相优化框架,在结果有效性和计算效率方面显着提高了𝑘-ABGC的技术水平。首先,TPO将𝑘-ABGC任务定义为一个基于多尺度属性关联(MSA)的优化问题,MSA是一种新的针对ABGs的节点关联度量。更具体地说,ABG\(\mathcal G\)的U中两个同构节点\(𝑢_i\),𝑢𝑗的MSA评估了它们从多跳邻域聚合的属性的相似性,有效地捕获了二部图中节点的属性和拓扑连接的亲和力。然而,计算G中所有节点对的MSA用于聚类对于大型图来说是非常昂贵的,因为它需要巨大的构建时间和空间消耗(\(𝑂(|\mathcal U|^2)\))。最重要的是,由于np -hard的问题,的𝑘-ABGC目标的精确优化也是不可行的。
为了解决这些问题,TPO采用了一种三相优化方案来获得近似解,其时间和空间成本与g的大小成线性关系。在底层,与内核技巧[36]的精神类似,TPO首先利用一种数学装置,即随机特征[49,82],来绕过全成对MSA的实现。聚类任务随后被框架为一个非负矩阵分解,然后是一个矩阵近似问题,基于的理论基础问题转换。特别是,前者致力于产生中间结果,而后者迭代地细化中间结果以派生最终的集群。
除了线性时间迭代求解器之外,TPO还包括一个贪婪初始化技巧来加速收敛,以及一个属性降维方法来显著提高TPO在具有大属性集的图上的实际效率,而不会降低结果质量。的实证研究涉及5个真实的abg,并与19种现有算法进行了比较,结果表明,与最先进的方法相比,TPO始终以一小部分成本获得了卓越或相当的聚类质量。例如,在拥有超过1000万个节点和2200万条边的最大Amazon数据集上,TPO在3分钟内获得最佳聚类精度,而最先进的聚类需要4个多小时才能终止。

2 问题定义
2.1 符号和术语
用粗体大写字母表示矩阵,例如,\(\mathbf M∈\mathbb R^{𝑛×𝑑}\),第\(𝑖\)行表示为\(\mathbf M[i]\)。对于每个向量\(\mathbf M[i]\),用\(\parallel \mathbf M[i] \parallel\)表示其\(𝐿_2\)范数,用\(\parallel \mathbf M\parallel_F\)示\(\mathbf M\)的弗罗贝尼乌斯范数(Frobenius norm)。
范数(Norm)是数学中的一个基本概念,用于度量向量空间(或矩阵)中每个向量的长度或大小。范数的计算方法依赖于其类型,常见的范数包括\(L_1\)范数、\(L_2\)范数(也成为欧几里得范数)、无穷范数(\(L_\infty\)范数)等。
- \(L_1\)范数:定义为向量元素绝对值之和,即\(\parallel x\parallel_1=\sum_{i=1}^n\mid x_i\mid\)。
- \(L_2\)范数:定义为向量元素平方和的正平方根,即\(\parallel x\parallel_2=\sqrt{\sum_{i=1}^n x_i^2}\)
- 无穷范数(\(L_\infty\)范数):定义为向量元素绝对值的最大值,即\(\parallel x\parallel_\infty=\max_i\mid x_i\mid\)
- Frobenius 范数:简称F-范数,是一种矩阵范数,记为\(\parallel ·\parallel _F\)。矩阵\(A\)的Frobenius范数定义为矩阵\(A\)各项元素的绝对值平方的总和再开方,即:
![image]()
设\(\mathcal G = (\mathcal U∪\mathcal V,\mathcal E,X_{\mathcal U},X_{\mathcal V})\)表示一个有属性二部图(ABG,attributed bipartite graph),其中\(\mathcal E\)由连接两个不相交节点集\(\mathcal U\)和\(\mathcal V\)中的节点的边组成,每条边\((𝑢_i,𝑣_𝑗\))与一个边权\(𝑤(𝑢_i,𝑣_𝑗)\)相关联。每个节点\(𝑢_i∈\mathcal U\)(同样的对于\(𝑣_i∈\mathcal V\))其特征为长度是\(d_{\mathcal U}\)的属性向量\(\mathbf X_{\mathcal U }[i]\)。进一步,用\(\mathbf B_{\mathcal U}∈\mathbb R^{|\mathcal U | \times |\mathcal V |}\)表示\(\mathcal G\)的邻接矩阵,如果\((𝑢_i,𝑣_𝑗)∈\mathcal E\),则\(\mathbf B_{\mathcal U}[i,𝑗]=𝑤(𝑢_i,𝑣_𝑗)\),否则为0。假设\(\mathbf D_\mathcal U\)是\(|\mathcal U|\times |\mathcal U|\)的对角矩阵,其中对角值\(\mathbf D_{\mathcal U}[i,i]\)表示与\(𝑢_i\)相关的所有边的权值之和。也就是说\(\sum_{(𝑢_i,𝑣_ℓ)}∈\mathcal E^{𝑤(𝑢_i,𝑣_ℓ)}\)。表1列出了本文中经常使用的符号。
𝑘-ABGC的总体目标在定义2.1中进行了形式化描述,并在图1中进行了举例说明。请注意,默认情况下,将\(\mathcal U\)视为集群的目标节点集。数字\(𝑘\)可以由用户指定,也可以通过一个初步的过程进行配置[41]。
定义2.1(𝑘-属性二部图聚类(𝑘-ABGC))。
给定一个ABG\(\mathcal G\),目标节点集\(\mathcal U\)和集群数量\(𝑘\),𝑘-ABGC旨在将节点集\(\mathcal U\)划分为\(𝑘\)个不相交的集群\(\{C_1, C_2,···,C_𝑘\}\),使同一集群内的节点在拓扑接近度和属性相似度上彼此接近,而不同集群间的节点则相距较远。

2.2 多尺度属性亲和力(MSA)
注意,定义2.1不能直接指导聚类的生成,因为它缺乏量化节点亲和力的具体优化目标。为此,首先从图结构和属性两个方面描述了节点的新型亲和度量MSA。
MSA公式。用于衡量图中任意两个节点\(u_i\)和\(u_j\)之间的亲和性。首先假设每个节点\(u_i∈\mathcal U\)都可以用一个特征向量\(Z_{\mathcal U}[i]\)来表示,它既表征了属性,也表征了隐藏在二部图拓扑中的丰富语义。根据流行的Skip-gram模型[40]及其对图的扩展[18,47],可以将节点的成对亲和力建模为softmax单元[16],该单元由其特征向量的点乘参数化。这里不使用普通的softmax函数,而是采用对称的softmax函数,将\(\mathcal U\)中任意两个节点\(𝑢_i\),\(𝑢_𝑗\)之间的MSA\(𝑠(𝑢_i,𝑢_𝑗)\)表述为:
\(\widehat{Z}_U\)是特征矩阵\(Z_U\)归一化后的结果。归一化通过将每个特征向量除以其范数(即向量的长度)来实现,确保每个特征向量的范数为1。这有助于避免特征向量的长度对点积结果产生过大的影响。
多尺度属性亲和力(MSA)\(s(u_{i}, u_{j})\)是对称的,即\(s(u_{i}, u_{j}) = s(u_{j}, u_{i})\)对于所有\(u_{i}, u_{j} \in \mathcal{U}\)成立。此外,对于所有\(u_{i}, u_{j} \in \mathcal{U}\),通过归一化\(-1 \leq \widehat{\mathbf{Z}}_{\mathcal{U}}[i] \cdot \widehat{\mathbf{Z}}_{\mathcal{U}}[j] \leq 1\),因此,相对于任何节点\(u_{i} \in \mathcal{U}\)的 MSA 值被缩放到一个相似的范围。
\(\mathbf{Z}_{\mathcal{U}}\)的优化目标。接下来,将重点放在获取每个节点的\(u_{i} \in \mathcal{U}\)特征向量\(\widehat{\mathbf{Z}}_{\mathcal{U}}\)上。一个较好的选择可能是图神经网络(GNN)[27],然而,由于现有的GNN主要是为一般图设计的,并且训练经典GNN的成本相当高,因此它不能轻易应用于ABGs。正如最近的研究[38,70,89]所揭示的那样,从数值优化的角度来看,许多流行的GNN模型可以统一到一个优化框架中,该框架本质上产生的节点特征向量在底层图的附近节点上是光滑的。受此发现的启发,将此优化框架扩展到ABGs。更具体地说,其目标如下:
其中包括一个非负系数\(\alpha \in [0,1]\)和两项:
(i)在Eq.(4)中有一个拟合项\(\mathcal O_𝑎\),旨在保证\(\mathbf Z_{\mathcal U}\)接近输入属性向量\(\mathbf X_{\mathcal U}\);
(ii) Eq.(5)中的正则化项\(\mathcal O_𝑔\)约束两个高连通性节点的特征向量相似。
正则化项要求在方程(5)中对每个节点\(u_{i}\)的\(\mathbf{Z}_{\mathcal{U}}[i]\)进行缩放,缩放因子为\(1 / \sqrt{\mathrm{D}_{\mathcal{U}}[i, i]}\),D是节点的度,以避免在\(u_{i}\)连接大量或较少的链接时扭曲\(\mathbf{Z}_{\mathcal{U}}[i]\)中的值。方程(5)中的权重\(\widehat{w}(u_{i}, u_{j})\)由下式定义:
它反映了\(\mathcal U\)中两个同质节点\(u_{i}, u_{j}\)(例如,研究者)之间的连接强度,通过他们在对方\(\mathcal V\)(例如,合著的论文)中的共同邻居来衡量。举个例子,考虑图1中的研究人员𝑢3,𝑢4,\(\hat{𝑤}(𝑢_3,𝑢_4)= \frac{1}{3}+\frac{1}{2}+\frac{1}{4}\),其中分母3,2和4对应于论文𝑣3,𝑣4和𝑣5的作者数量。因此,\(\hat{𝑤}(𝑢_3,𝑢_4)\)评估了𝑢3、𝑢4对他们在v中的合作研究工作的总体贡献。因此,Eq.(3)中的\(\mathcal O_𝑔\)项是为了最小化那些广泛合作、贡献高的研究人员之间的特征向量距离。
超参数参数的设置可以平衡属性信息和拓扑信息。特别地,当\(\alpha = 0\)时,特征向量\(Z_U = X_U\),当\(\alpha = 1\)时,特征向量\(Z_U\)完全依赖于\(\mathcal G\)的拓扑结构。
\(\mathbf Z_{\mathcal U}\)的闭型解。给定一个\(\alpha\),引理2.2表明,Eq.(3)的最优特征向量\(Z_{\mathcal U}\)可以通过Eq.(6)中的迭代稀疏矩阵乘法来计算,而无需进行昂贵的训练。
"Closed-form solution"(封闭形式解)是数学和工程学中的一个术语,指的是一个问题的解能用一个表达式明确写出,而不需要通过迭代或近似方法来求解。这种解通常是精确的,并且可以用有限的数学运算直接计算出来。在处理方程、函数或优化问题时,如果可以得到一个封闭形式的解,那么计算通常更简单、更快速,因为可以直接应用公式计算出结果。例如,线性方程组的解可以表示为封闭形式的解,如果系数矩阵是方阵且可逆的话。相对的,如果一个问题不能用一个简单的表达式来解决,而需要通过数值方法(如迭代法、插值法、数值积分等)来近似求解,那么这种解就不是封闭形式的。在机器学习和数据科学中,如果一个模型的参数可以推导出一个封闭形式的解,这通常意味着模型训练更快、更直接,并且解的表达式有助于理解和解释模型的行为。
引理2.2。当\(\gamma\rightarrow\infty\)时,Eq.(6)中的\(Z_{\mathcal{U}}\)是Eq.(3)中优化问题的闭型解。
此处\(Lu\)节点集\(U\)的邻接矩阵\(B_{\mathcal U}\)的归一化版本。\(\mathbf{L}_{\mathcal{U}}\mathbf{L}_{\mathcal{U}}^{\top}\)归一化邻接矩阵与其转置的乘积,表示节点间的连接关系。\(x_U\)是节点集\(U\)的输入属性向量矩阵。
在实践中,为了提高效率,将Eq.(6)中的\(\gamma\)设置为有限的数(通常为5)。直观地说,\(Z_\mathcal U\)的计算本质上是根据\(\mathcal G\)中其他同质节点的多尺度邻近度(例如,通过多个跳数(最多为\(\gamma\)跳数)的连接强度)聚集属性。因此,具有许多直接或间接连接的节点的特征向量将更有可能接近,从而在Eq.(1)中产生高MSA。
2.3 目标函数
基于前述𝑘-ABGC和MSA的定义,将𝑘-ABGC问题表述为以下目标函数:
更准确地说,Eq.(8)是为了识别U中𝑘个不相交的簇C1, C2,···,C𝑘,使得不同簇中两个节点的平均MSA较低。同时,在此优化目标下,使同一集群中任意两个节点的平均MSA最大化;换句话说,同一集群中的节点是紧密结合的。
由[52]可知,Eq.(8)是一个NP-complete组合优化问题。因此,当U包含大量节点时,Eq.(8)的精确解在计算上是不可行的。而且,Eq.(8)的直接优化要求实现\(\mathcal U ×\mathcal U\)中每个节点对的\(𝑠(𝑢_i,𝑢_𝑗)\)。因此,通过优化Eq.(8)得到一个近似解需要\(𝑂(|\mathcal E |·|\mathcal U|·𝑑_{\mathcal U})\)的计算成本和二次空间开销\(𝑂(|\mathcal U|^2)\),使得它不适合大型ABGs。
补充:
非负矩阵分解(Non-negative Matrix Factorization,简称NMF)是一种矩阵分解技术,它将一个非负矩阵分解为两个非负矩阵的乘积。这种方法在数据挖掘、机器学习、图像处理和推荐系统等领域有广泛的应用。NMF的目标是找到两个非负矩阵,使得它们的乘积尽可能接近原始矩阵。
1、原理:给定一个非负矩阵\(V \in \mathbb{R}^{m \times n}\),NMF旨在找到两个非负矩阵\(W \in \mathbb{R}^{m \times r}\)和\(H \in \mathbb{R}^{r \times n}\) ,使得:
\(V \approx WH\)
其中,\(r\)是分解的秩(rank),通常\(r\)远小于\(m\)和\(n\),这样可以捕捉矩阵\(V\)的主要特征,同时降低数据的维度。
2、目标函数
NMF通常通过最小化原始矩阵\(V\)和分解后的矩阵 WH 之间的差异来实现。常用的差异度量是Frobenius范数,目标函数可以表示为:
其中,\(\| \cdot \|_F\)表示Frobenius范数,即矩阵元素的平方和的平方根。
3、算法
NMF的求解通常采用迭代算法,以下是一些常用的方法:
-
乘法更新规则(Multiplicative Update Rules):这种方法通过交替更新 W 和 H 来最小化目标函数。更新规则基于梯度下降的思想,但使用乘法而不是加法来更新矩阵元素。
-
交替最小二乘法(Alternating Least Squares, ALS):这种方法通过固定一个矩阵,然后求解另一个矩阵的最小二乘问题,交替进行直到收敛。
-
梯度下降法(Gradient Descent):直接对目标函数进行梯度下降,更新 W 和 H 。
4、优点和限制
优点:
- NMF能够处理非负数据,这使得它在处理实际应用中的计数数据或强度数据时非常有用。
- 通过降低数据维度,NMF有助于数据的可视化和解释。
限制:
- NMF可能难以找到全局最优解,通常只能保证找到局部最优解。
- 对于大规模数据集,NMF的计算成本可能很高,尽管有一些方法可以加速计算,如随机初始化和并行计算。
- NMF对初始化敏感,不同的初始化可能导致不同的结果。
3 TPO算法
为了解决上述挑战,本节将三相优化框架(TPO:Three-Phase Optimization framework)引入到𝑘-ABGC基于Eq.(8)的计算,而无需显式构建MSA矩阵。
3.1 概述
在高层次上,TPO的灵感来自于Eq.(8)和Eq.(9)中优化目标之间的等价性,如引理3.1。
引理3.1。Eq.(8)等价于以下目标:
具体的说,如果能确定一个矩阵\(\mathbf R\)如\(\mathbf R[i] \cdot\mathbf{R}[j]=\)\(s(u_{i},u_{j})\:\forall u_{i}.u_{j}\in\mathcal{U}\), 使用优化目标Eq. (8) 计算\(k\)个不重叠集群\(C_{\mathrm{l}}\),\(C_{2}\),\(\cdots\),\(C_{k}\)等价于将\(\mathbf R\)分解为两个非负矩阵\(\mathbf Y\)和\(\mathbf H\),其中\(\mathbf Y\)代表一个归一化聚类指示器(NCI: normalized cluster indicator,其中每一行仅包含一个非零值,表示聚类成员身份),矩阵\(\mathbf{Y}\in\mathbb{R}^{|\mathcal{U}|\times k}\)定义如Eq. (10).
根据Eq. (10), 对每个节点\(u_{i}\in\mathcal{U}\), 在归一化聚类指示器 NCI 矩阵中对应的向量\(Y[i]\)仅包含一个非零元素\(Y[i,\ell]\),这个非零元素表示节点\(u_i\)的聚类归属, 其值应为\(1/\sqrt{|C_{\ell}|}\). 这种特性确保了\(Y\)矩阵是列正交的,即\(Y^{\top}Y=I\)。然而,\(Y\)矩阵上的这种约束使得矩阵\(\mathbf R\)的分解难以收敛。不直接计算精确\(Y\)矩阵 , 而是采用两步近似策略。更具体地说, TPO首先构建一个\(|\mathcal{U}|\times k\)矩阵\(\Upsilon\)(\(\mathbf Y\)的连续版本) ,该矩阵最小化了Eq. (11)中的分解损失:
在其中,Eq. (9)中对\(Y\)的约束被放宽为\(\Upsilon\ge 0\)且\(\Upsilon^{\top}\Upsilon=I.\)之后,任务是通过最小化它们在Eq. (9)中的差值将\(\Upsilon\)转换为NCI矩阵\(Y\).
如图2, 给定一个属性二分图\(\mathcal G\)、聚类数量\(k\), 以及作为输入的节点集\({\mathcal{U}}\),TPO通过三个阶段输出方程(8)中\(k\)-ABGC 问题的近似解:
(i) 构建一个低维矩阵\(R\)使得\(\:\forall u_{i}.u_{j}\in\mathcal{U}\)有\(\mathbf{R}[i]\cdot\mathbf{R}[j]\approx s(u_{i},u_{j})\),而不需要显式地实现所有节点对的多尺度属性亲和力( MSA )(Algorithm 1, Section 3.2);
(ii) 根据Eq. (11) 分解\(R\)以创建一个\(\mathcal{U}\times k\)非负列正交矩阵\(\Upsilon\)(Algorithm 2, Section 3.3);
(iii) 有效地将\(\Upsilon\)转换为归一化聚类指示器(NCI )\(Y\)(Algorithm 3, Section 3.4). 下文将详细阐述这三种算法子程序的细节。
由于篇幅限制,将其复杂性分析和 TPO 的分析推迟到的技术报告[78]中进行。
- 多尺度属性亲和力 (MSA):一种用于描述节点对之间在多个尺度上(文中只有一阶尺度?)的相似度或关系的度量。
- 归一化聚类指示器 (NCI):一种矩阵,用于表示节点的聚类成员身份,其中每一行对应一个节点,每一列对应一个聚类,节点属于某个聚类就在相应的位置有一个非零值。(这不就是非负矩阵分解嘛?)

3.2 基于随机特征的MSA近似

算法1展示了将Eq. (1)中的多尺度属性亲和力(MSA)近似计算线性化的伪代码,即将其表示为矩阵乘积\(\mathbf{R}\cdot\mathbf{R}^{\top}\). 这个基本思想是利用并调整随机特征[49, 82]技术,该技术旨在近似任意向量\(\mathbf x\)和\(\mathbf y\)的高斯核\(e^{-\|\mathbf{x}-\mathbf{y}\|^{2}/2}\)。在输入属性二分图\(\mathcal G\)和参数\(\alpha\),\(y\)之后,算法1首先根据Eq. (7) 计算\(L_{\mathcal U}\)并初始化\(Z_{\mathcal{U}}\)为\(\alpha X_{\mathcal{U}}\)(Lines 1-2)。在第3-4行,通过\(\gamma\)次迭代更新\(Z_{\mathcal{U}}\),每次迭代执行以下矩阵乘法:
特别地,将矩阵乘法\(\mathbf{L}_{\mathcal{U}}\mathbf{L}_{\mathcal{U}}^{\top}\mathbf{Z}_{\mathcal{U}}\)重构为方程(12)中的\(\mathbf{L}_{\mathcal{U}}\cdot(\mathbf{L}_{\mathcal{U}}^{\top}\mathbf{Z}_{\mathcal{U}})\)以提升计算效率。之后,算法1通过在\(Z_{\mathcal{U}}\)的每一行应用\(L_{2}\)归一化将\(Z_{\mathcal{U}}\)转换为\(\bar{Z}_{\mathcal{U}}\)(第5行),然后继续构建\(R\)(第6-9行)。具体来说,首先生成一个\(d_{\mathcal U}\times d_{\mathcal U}\)的高斯随机矩阵\(G\),每个条目都是独立地从标准正态分布中抽取的(第6行),然后对其执行\(QR\)分解,得到一个\(d\eta\times d\eta\)的正交矩阵\(Q\)(第7行)。矩阵\(Q\)在Stiefel流形上均匀分布,即所有正交矩阵的空间[43]。
- QR分解:一种将矩阵分解为正交矩阵和上三角矩阵的分解方法。
- Stiefel流形:所有具有相同列数的正交矩阵构成的空间。
公式(12)是用于更新属性二分图(ABG)中节点集\(\mathcal{U}\)的特征向量\(Z_{\mathcal{U}}\)的迭代过程。这个过程是算法1的一部分,旨在通过迭代矩阵乘法来近似计算多尺度属性亲和力(MSA)。公式(12)的迭代更新过程:
- 初始化:首先,\(Z_{\mathcal{U}}\)被初始化为\(\alpha X_{\mathcal{U}}\),这意味着初始的特征向量主要由节点的属性决定。
- 迭代更新:在接下来的\(\gamma\)次迭代中,\(Z_{\mathcal{U}}\)通过公式(12)进行更新。每次迭代中,\(Z_{\mathcal{U}}\)被更新为\(\alpha\)乘以\(X_{\mathcal{U}}\)加上\(L_{\mathcal{U}}\)与\(L_{\mathcal{U}}^T Z_{\mathcal{U}}\)的乘积。这个过程可以看作是将节点的属性信息与其邻居的属性信息相结合,以反映节点间的拓扑结构。
- 效率提升:通过将矩阵乘法\(L_{\mathcal{U}} L_{\mathcal{U}}^T Z_{\mathcal{U}}\)重构为\(L_{\mathcal{U}} \cdot \left( L_{\mathcal{U}}^T Z_{\mathcal{U}} \right)\),算法提高了计算效率。在原始的矩阵乘法中,如果直接计算\(L_{\mathcal{U}} L_{\mathcal{U}}^T\),这将涉及到一个\(|U| \times |U|\)矩阵与自身的乘法,这在大规模图中是非常耗时的。通过先计算\(L_{\mathcal{U}}^T Z_{\mathcal{U}}\),我们得到一个\(|U| \times d_{\mathcal{U}}\)的矩阵,其中\(d_{\mathcal{U}}\)通常远小于\(|U|\)。这样,避免了直接计算大矩阵的乘法。
接下来,算法1通过以下方式计算\(R'\),矩阵\(R'\)将用于后续的多尺度属性亲和力(MSA)的近似计算:
- \(R'\):一个中间矩阵,其维度为\(|\mathcal{U}| \times 2d_{\mathcal{U}}\),其中\(|\mathcal{U}|\)是节点集\(\mathcal{U}\)中节点的数量,\(d_{\mathcal{U}}\)是节点属性的维度。
- \(\sqrt{\frac{e}{d_{\mathcal{U}}}}\):一个缩放因子,用于调整矩阵的尺度。这里\(e\)是自然对数的底数,\(d_{\mathcal{U}}\)是节点属性的维度。
- \(\sin(\widehat{Z}_{\mathcal{U}}^{\circ})\)和\(\cos(\widehat{Z}_{\mathcal{U}}^{\circ})\):分别表示对\(\widehat{Z}_{\mathcal{U}}^{\circ}\)进行正弦和余弦变换。这是通过随机特征方法来近似高斯核的一种技术。
- \(\widehat{Z}_{\mathcal{U}}^{\circ} = \sqrt{d_{\mathcal{U}}} \cdot \widehat{Z}_{\mathcal{U}} \cdot Q^{\top}\):这里\(\widehat{Z}_{\mathcal{U}}\)是经过\(L_2\)归一化处理的\(Z_{\mathcal{U}}\),\(Q\)是从高斯随机矩阵\(G\)通过QR分解得到的正交矩阵。
最终,在第9行,通过将\(R'\)的每一行进行归一化,得到矩阵\(R\)。
定理 3.2. 对于任意两个节点\(u_{i}, u_{j} \in \mathcal{U}\),如果\(\mathbf R\)是算法1的输出,那么以下不等式成立:
定理3.2表明\(\mathbb{E}[\mathbf{R}[i] \cdot \mathbf{R}[j]]\)作为\(s(u_{i}, u_{j})\)的一个准确估计器,表现出极低的偏差,特别是在实际场景中\(d_{\mathcal U}\)通常超过数百的情况下。
3.2.1 基于svd的属性降维
尽管算法1避免了为所有节点对构建多尺度属性亲和力(MSA),但在处理具有大量属性集的属性二分图(ABGs)时,也就是当\(d_{\mathcal{U}}\)较大时,它仍然面临巨大挑战。回想一下,算法1的主要计算开销位于第3-4行和第7-8行,分别需要\(O(\gamma \cdot |\mathcal{E}| \cdot d_{\mathcal U})\)和\(O(d_{\mathcal{U}}^{3} + |\mathcal{U}| \cdot d_{\mathcal{U}}^{2})\)时间。因此,当\(d_{\mathcal{U}}\)较大时,例如\(d_{\mathcal U} = O(|\mathcal{U}|)\),算法1的计算复杂度急剧增加至三次方,使其在大规模ABGs中变得不实用。为了解决这个问题,通过将输入属性向量\(X_\mathcal U\)的维度从\(d_{\mathcal U}\)降低到一个更小的常数\(d\)来提炼它们 (\(d \ll d_{\mathcal{U}}\))。这种方法旨在确保 d 维近似\(X_{\mathcal{U}}^{\prime}\)仍然能够根据方程(1)准确地保留MSA。这种调整将计算成本降低到线性时间复杂度\(O(\gamma \cdot |\mathcal{E}| + |\mathcal{U}|)\),因为\(d\)是一个常数。为了实现这个想法,首先对\(X_{\mathcal{U}}\)应用 top-d 奇异值分解(SVD),得到分解结果\(\mathbf{X}_{\mathcal{U}} \approx \boldsymbol{\Gamma\Sigma\Psi}^{\top}\)。利用\(\Psi\)的列正交(半酉)属性,即\(\Psi^{\top}\Psi = I\),有\(\mathbf{X}_{\mathcal{U}}\mathbf{X}_{\mathcal{U}}^{\top} \approx \Gamma\Sigma\Psi^{\top}\Psi\Sigma\Gamma^{\top} = \Gamma\Sigma^{2}\Gamma^{\top}\),这意味着:
- 奇异值分解(SVD):一种将矩阵分解为三个特定矩阵的因子的线性代数技术。
- 列正交(半酉)属性:指的是矩阵的列向量彼此正交,并且通常是单位向量。
这可以作为算法1输入\(X_{\mathcal U}\)的低维替代品。沿着这条线,可以通过简单地将\(X_{\mathcal U}\)替换为\(X_{\mathcal{U}}^{\prime}\),在算法1的第2-4行的迭代过程中推导出特征向量\(Z_{\mathcal{U}}\)的低维版本\(Z_{u}^{\prime}\),即:
引理 3.3. 设\(\Gamma\Sigma\Psi^{\top}\)是\(X_{\mathcal U}\)的精确 top-d奇异值分解(SVD)。
对每一对节点\(u_{i}, u_{j} \in \mathcal{U}\)都成立,其中\(\sigma_{d+1}\)是\(X_{\mathcal U}\)的第\((d+1)\)个最大奇异值。
引理3.3建立了\(\mathbf{Z}_{\mathcal{U}}^{\prime}\)的近似保证,从理论上保证了Eq.(1)中定义的MSA的精确近似。除了保留MSA和减少计算负载的能力之外,这种基于SVD的技巧可以通过与主成分分析(PCA)的密切联系,令人惊讶地去噪属性数据以增强聚类,正如在第4.2节中的实验所验证的那样。
3.3 贪婪正交NMF

在构建\(\mathbf{R} \in \mathbb{R}^{|\mathcal{U}|\times2d}\)(如果未应用第3.2.1节中的降维,则\(d=d_{\mathcal U}\))之后,TPO 将其传递给第二阶段,即对\(R\)进行正交非负矩阵分解(NMF),如方程(11)所述,以创建\(\Upsilon\)。对此问题的伪代码在算法2中给出,使用交替框架迭代更新\(\Upsilon\)和\(H\),以优化方程(11)中的目标函数(第3-5行)。具体而言,给定迭代次数\(T_f\)以及\(H\)和\(\Upsilon\)的初始估计,在每次迭代中,首先在固定\(\Upsilon\)的情况下,按照方程(16)更新\(H\)中的每个\((j,\ell)\)-元素(\(1 \leq j \leq 2d\)和\(1 \leq \ell \leq k\)),然后更新\(\Upsilon[i,\ell]\),对于\(u_i \in \mathcal{U}\)和\(1 \leq \ell \leq k\),按照方程(17)进行,此时\(H\)保持固定。
式16表示,固定\(Y\),逐步调整\(H\)矩阵,使得\(YH\)更接近于原始矩阵\(R\)。
式17表示,固定\(H\),逐步调整\(Y\)矩阵。
上述用于求解方程(11)的更新规则可以通过利用辅助函数方法[32]以及凸优化中的拉格朗日乘数法来推导,其收敛性由单调性定理[10]保证。注意,重新排序了方程(16)和(17)中的矩阵乘法\(H\Upsilon^{\top}\Upsilon\)和\(\Upsilon\Upsilon^{\top}RH\),分别变为\(\mathbf{H}\cdot(\mathbf{\Upsilon}^{\top}\mathbf{\Upsilon})\)和\(\mathbf{\Upsilon}\cdot(\mathbf{\Upsilon}^{\top}\cdot(\mathbf{RH}))\),以避免实现\(2d \times |\mathcal{U}|\)密集矩阵\(H\Upsilon^{\top}\)和\(|\mathcal{U}|\times|\mathcal{U}|\)密集矩阵\(\Upsilon\Upsilon^{\top}\)。因此,更新\(H\)和\(\Upsilon\)在方程(16)和(17)中的计算复杂度降低到每次迭代\(O(|\mathcal{U}|dk+|\mathcal{U}|k^{2})\)。
由于\(\Upsilon\)和\(H\)需要多次迭代才能收敛,尤其是当它们被随机初始化时,上述计算仍然相当昂贵。采用贪婪播种策略(一种选择初始值以加速优化算法收敛的策略)来加速收敛,这在许多优化问题中都有应用。也就是说,以快速但理论上合理的的方式谨慎选择\(\Upsilon\)和\(H\)的良好初始值。如算法1的第1-2行所述,设置\(\Upsilon\)和\(H\)如下:
其中\(\Gamma\)和\(\Psi\)分别是\(R\)的top-\(k\)个左奇异向量和右奇异向量,\(\Sigma\)是一个对角矩阵,其对角线元素是\(R\)的top-\(k\)个奇异值,这些值是通过调用截断随机奇异值分解(SVD)算法[19],配合\(R\)和\(k\)获得的。请注意,这个例程需要\(O(|\mathcal{U}|dk+(\mathcal{U}+d)k^{2})\)时间[19],并且由于其随机算法设计以及底层高度优化的矩阵操作库(LAPACK 和 BLAS)可以在实践中高效地完成。
鉴于奇异向量\(\Upsilon=\Gamma\)是列正交的,即\(\mathbf{\Upsilon}^{\top}\mathbf{\Upsilon}=\mathbf{I}\),Eckart-Young 定理[15](附录A中的定理A.1)明确指出,当对\(\Upsilon\)和\(H\)的非负约束被放宽时,方程(18)为方程(11)提供了最优解。换句话说,方程(18)立即为在方程(11)中的优化目标提供了一个粗略的解决方案,从而大幅度减少了第3-5行所需的迭代次数。
- Eckart-Young 定理:一个关于最佳低秩逼近的定理,表明在一定条件下,奇异值分解可以提供最佳的低秩矩阵逼近。
- 截断随机SVD算法:一种用于近似大型矩阵的SVD的算法,特别适用于处理具有大量数据的情况。
3.4 高效的NCI生成

在最后阶段,TPO 通过最小化算法2返回的\(\Upsilon\)与目标 NCI 矩阵\(Y\)之间的“差异”来生成 NCI 矩阵\(Y\)。回想方程(9),最初的目标是找到一个\(|\mathcal{U}|\times k\)NCI 矩阵\(Y\)和一个\(2d\times k\)非负矩阵\(H\),使得总的平方重构误差\(\|\mathbf{R}-\mathbf{YH}^{\top}\|_{F}^{2}=\sum_{u_{i}\in\mathcal{U}}\sum_{j=1}^{d}\left(\mathbf{R}[i,j]-\mathbf{Y}[i]\cdot\mathbf{H}[j]\right)^{2}\)最小化。考虑到\(\Upsilon\)是\(Y\)的连续版本(放宽方程(10)中的约束),\(\|\mathbf{R}-\mathbf{\Upsilon H}^{\top}\|_{F}^{2}\)能够获得比\(\|\mathbf{R}-\mathbf{YH}^{\top}\|_{F}^{2}\)更低的重构误差。因此,方程(9)的理想解\(Y\)确保\(\|\mathbf{R}-\mathbf{YH}^{\top}\|_{F}^{2}\)紧密近似于方程(11)中的\(\|\mathbf{R}-\mathbf{\Upsilon H}^{\top}\|_{F}^{2}\)。从数学上讲,将矩阵\(\Upsilon\)转换为 NCI 矩阵\(Y\)可以表述为最小化它们重构误差的差异,即\(\left|\|\mathbf{R}-\mathbf{YH}^{\top}\|_{F}^{2}-\|\mathbf{R}-\mathbf{\Upsilon H}^{\top}\|_{F}^{2}\right|=\left|\mathrm{trace}((\mathbf{Y}\mathbf{Y}^{\top}-\mathbf{\Upsilon}\mathbf{Y}^{\top})\cdot\mathbf{R}\mathbf{R}^{\top})\right|\),根据引理 3.4。
引理 3.4. 以下等式成立:
进一步,将问题重新表述为:
这意味着,如果 NCI 矩阵\(Y\)和\(k \times k\)行正交矩阵\(\Phi\)最小化\(\|\Upsilon\Phi-Y\|_{2}\),那么\(\mathbf{Y}\mathbf{Y}^{\top}-\mathbf{\Upsilon}\mathbf{\Upsilon}^{\top}\approx\mathbf{\Upsilon}\mathbf{\Phi}\mathbf{\Phi}^{\top}\mathbf{\Upsilon}^{\top}-\mathbf{\Upsilon}\mathbf{\Upsilon}^{\top}\approx0\)成立,因此方程(19)中的目标损失被最小化。
为了解方程(20),在 TPO 中开发了算法3,它通过迭代框架获得 NCI 矩阵\(Y\),在该框架中,\(\Phi\)和\(Y\)以交替方式被细化直到收敛。最初,算法3以矩阵\(\Upsilon\)和迭代次数\(T_{g}\)作为输入,并初始化\(\Phi\)为\(k \times k\)单位矩阵(第1行)。然后它在第2-7行启动一个迭代过程来共同细化\(Y\)和\(\Phi\)。具体来说,在\(T_{g}\)次迭代中的每一轮中,TPO 首先通过(第4行)确定每个节点\(u_{i} \in \mathcal{U}\)的聚类ID。
然后更新节点\(u_{i}\)的聚类指标\(Y[i]\),如下所示(Line 5):
在\(Y\)中的每一列随后进行了\(L_{2}\)-归一化,即:
根据方程(10)中 NCI 约束(第6行),\(Y\)中的每一列随后进行了\(L_{2}\)-归一化。简而言之,第3-6行通过在固定\(\Phi\)的情况下更新\(Y\)来优化方程(20)。解释一下,回想方程(10)中 NCI 矩阵\(Y\)的约束,\(Y\)的每一行只有一个非零项。因此,通过定位第\(i\)行的\(\Upsilon\Phi\)中对应项\((\Upsilon\Phi)[i,\ell^{*}]\)最大的列 ID\(\ell^{*}\)(即,方程(21)),并且同时按照第5-6行的方程(22)和(23)更新\(Y[i]\),方程(20)中\(\Upsilon\Phi\)与\(Y\)之间的距离自然就被最小化了。
有了经过细化的\(Y\),接下来的工作变成了更新\(k \times k\)矩阵\(\Phi\),以优化
给定\(Y\),利用文献[61]中的引理 4.14,这个问题的最小化解是\(\Phi=\Upsilon^{\top}Y\)。因此,在第7行,\(\Phi\)被更新为\(\Upsilon^{\top}Y\)。
在重复了\(T_{g}\)次迭代上述程序之后,TPO 返回\(Y\)作为最终的聚类结果。实际上,一打(大约十二次)迭代足以产生高质量的\(Y\),这一点在第4.3节中得到了验证。
个人总结:简单来说就是使用NMF处理二部图聚类问题。在算法中引进了亲和力计算公式(亲和力计算的时候只考虑了一阶邻居,没有加入高阶的网络结构信息);改进了矩阵维度过大计算效率低的问题。这种传统处理方法的公式对我来说属实有点费劲。


浙公网安备 33010602011771号