Randomized Spectral Clustering for Large-Scale Multi-Layer Networks 阅读笔记
文中提出了一种基于随机化的多层网络谱聚类方法,可用于对大规模的多层网络进行高效的社区检测
引入
多层随机块模型
多层网络有\(L\)层,\(n\)个节点,\(K\)个社区,第\(l\)层邻接矩阵为\(A_l \in \{0,1\}^{n \times n}\),\(g_i\)表示节点i所属社区,\(B_l\)为第\(l\)层社区间连接的概率矩阵,\(A_{l,ij}\)服从伯努利分布:
为减小直接求和邻接矩阵导致的 “社区抵消”(部分层为同类社区密集连接、部分层为跨社区密集连接),采用Lei and Lin (2023)的结果,使用偏差调整后的平方邻接矩阵和作为聚合矩阵:
其中\(D_l\)为对角矩阵,\(D_{l,ii}=\sum_{j=1}^n{A_{l,ij}}\)
算法设计
1.随机采样
对每层按概率\(p\)随机采样,得到稀疏矩阵\(\tilde{A}_{ij}\),为保证期望相同,选中的\(A_{ij}\)还需乘上 \(\frac 1p\)
2.修正采样误差
经分析误差主要来自对角线部分,修正为
其中\(\tilde D_l\)为对角矩阵,\(\tilde D_{l,ii}=\sum_{j=1}^n \mathbb I (\tilde A_{l,ij}=\frac 1p)\)
3.使用随机投影加速特征分解
采用随机块 Krylov 方法,通过迭代生成低维子空间逼近原矩阵,提高特征分解速度

实验
1.仿真实验
仿真实验基于多层随机块模型(Multi-layer SBM)与多层随机共块模型(Multi-layer ScBM,用于有向网络)生成数据,通过控制节点数\(n\)、层数\(L\)稀疏度
\(ρ\)(连接概率缩放因子)等参数,分析各因素对算法性能的影响。


2.真实数据实验
选取 7 个涵盖有向 / 无向、小规模 / 大规模的多层网络数据集,重点验证 RSC 在实际大规模数据上的计算效率优势,并在小规模数据上验证精度一致性。



相关工作

思考
1.主要贡献
方法创新:提出高效的随机化谱聚类算法,突破大规模计算瓶颈
实验验证:全方位验证算法的效率与精度,覆盖仿真与真实大规模数据,通过 “仿真实验 + 真实数据实验” 的双层验证体系,充分证明算法的实用性
工程实现:开发开源 R 包 MLRclust,降低应用门槛/
2.存在的不足
理论假设的局限性:依赖 “平衡社区” 与 “固定 K”,适配性受限
超参数敏感性:p 与 q 的选择依赖经验,缺乏自适应机制
真实数据的精度评估不充分:论文在真实数据实验中,仅通过 “与 SC 结果的相似度(ARI/AMI)” 验证 RSC 的精度,缺乏 “外部标签”(如节点的真实社区归属)的直接验证,精度评估的说服力有限

浙公网安备 33010602011771号