LINE:Large-scale Information Network Embedding
LINE:Large-scale Information Network Embedding
摘要:
本文研究了将大型信息网络嵌入到低维向量空间中的问题,该问题在可视化、节点分类和链路预测等许多任务中都有用。现有的大多数图嵌入方法都不适用于通常包含数百万节点的真实信息网络。本文提出了一种新的网络嵌入方法,称为“LINE”,它适用于任意类型的信息网络:无向、有向和/或加权。该方法优化了精心设计的目标函数,该目标函数同时保留了局部和全局网络结构。针对经典随机梯度下降算法的局限性,提出了一种边缘采样算法,提高了推理的效率和效果。实验证明,LINE在语言网络、社会网络和引文网络等多种现实信息网络中都具有有效性。该算法非常有效,它能够在几个小时内学会在典型的单台机器上嵌入具有数百万个顶点和数十亿个边缘的网络。LINE的源代码可以在线获得。
1、介绍
信息网络在现实世界中无处不在,例如航空公司网络、出版物网络、社交和通信网络以及万维网。
这些信息网络的规模从几百个节点到几百万个和几十亿个节点不等。分析大型信息网络越来越受到学术界和工业界的关注。本文研究信息网络嵌入低维空间的问题,其中每个顶点都表示为低维向量。这种低维嵌入在诸如可视化[21]、节点分类[3]、链路预测[10]和建议[23]等各种应用中非常有用。
在机器学习文献(例如,[4,20,2])中已经提出了各种图嵌入方法。它们通常在较小的网络上表现良好。当涉及到一个真实世界的信息网络时,问题变得更加具有挑战性,它通常包含数百万个节点和数十亿个边缘。例如,在2012年,Twitter追随者网络包含1.75亿活跃用户和约200亿边缘用户[14]。现有的大多数图嵌入算法都不适合这种规模的网络。例如,经典的图嵌入算法,如MDS[4]、IsoMap[20]、Laplacian特征映射[2],其时间复杂度至少与顶点的数目成二次关系,这对于具有数百万节点的网络来说太昂贵了。尽管最近有一些研究探讨了大规模网络的嵌入,但是这些方法要么使用不为网络设计的间接方法(例如,[1]),要么缺乏为网络嵌入量身定制的清晰目标函数(例如,[16])。我们预计,一个具有精心设计的目标函数、保持图性质的新模型和一个有效的优化技术将有效地发现数百万节点的嵌入。
在本文中,我们提出了一个称为“LINE”的网络嵌入模型,它能够扩展到非常大的任意类型的网络:无向、有向和/或加权。该模型优化了一个既保留局部网络结构又保留全局网络结构的目标。自然地,局部结构由网络中观察到的链路来表示,这些链路捕获顶点之间的一阶近似。大多数现有的图嵌入算法被设计成保持这种一阶邻近性,例如,IsoMap[20]和Laplacian特征映射[2],即使它们没有缩放。我们注意到,在真实的网络中,许多(如果不是大多数)合法链接实际上没有被观察到。换言之,真实世界数据中观察到的一阶邻近性不足以保持全局网络结构。作为补充,我们探索了顶点之间的二阶邻近性,这并非通过观察到的系结强度来确定,而是通过顶点的共享邻域结构来确定。二阶邻近度的一般概念可以被解释为具有共享邻居的节点可能相似。这种直觉可以在社会学和语言学的理论中找到。例如,“两个人的友谊网络的重叠程度与他们之间纽带的强度相关,”在社交网络中[6];在文本语料库[5]中,“你应该知道一个词由它所保存的公司”(Firth,J.R.1957:11)。的确,分享许多共同朋友的人很可能分享相同的兴趣并成为朋友,并且与许多相似单词一起使用的单词可能具有相似的含义。
图一:一个信息网络的小例子。边可以是有向的或无向的,也可以是有权的或无权的。节点6和节点7应该在低维空间的关系应该更加紧密,由于它们之间具有很强的关系。节点5和节点6也需要在低维空间具有紧密的关系,因为它们具有相同的邻居节点。
图1给出了一个示例。由于顶点6和7之间的边缘的重量很大,即6和7具有高的一阶接近度,因此它们应该在嵌入空间中彼此紧密地表示。另一方面,虽然在顶点5和6之间没有链接,但它们共享许多公共的邻居,即它们具有高的二阶邻近度,因此也应当彼此紧密表示。我们期望二阶邻近性的考虑能有效地补充一阶邻近性的稀疏性,并更好地保持网络的全局结构。在本文中,我们将提出精心设计的目标,以保持一阶和二阶近似。
即使找到了一个合理的目标,在一个非常大的网络中对其进行优化也是具有挑战性的。利用随机梯度下降进行优化是近年来备受关注的一种方法。然而,我们发现直接部署随机梯度下降对于真实世界的信息网络是有问题的。这是因为在许多网络中,边是加权的,并且权重通常呈现高方差。考虑一个单词共现网络,其中单词对的权重(共现)可能从1到几十万不等。这些边缘的权重将乘以梯度,导致梯度的爆炸,从而影响性能。为了解决这个问题,我们提出了一种新的边缘采样方法,提高了推理的效率和效果。我们用与其权重成比例的概率对边进行采样,然后将采样的边作为二进制边进行模型更新。通过这种采样过程,目标函数保持不变,并且边缘的权重不再影响梯度。
LINE非常通用,对于有向或无向、加权或无权图都适用。我们评估了LINE与各种真实信息网络的性能,包括语言网络、社交网络和引文网络。学习嵌入的有效性在多个数据挖掘任务中进行评估,包括单词类比、文本分类和节点分类。结果表明,LINE模型在效率和有效性方面优于其他竞争基准。它能够在几个小时内学会在单台机器上嵌入具有数百万节点和数十亿个边缘的网络。
总之,我们作出了以下贡献:
我们提出了一种新的网络嵌入模型,称为“LINE”,它适合于任意类型的信息网络,并且易于扩展到数百万个节点。它有一个精心设计的目标函数,既保持一阶接近又保持二阶接近。
本文提出了一种用于优化目标的边缘采样算法。该算法克服了经典随机梯度下降算法的局限性,提高了推理的有效性和效率。
我们在真实世界的信息网络上进行了广泛的实验。实验结果证明了该模型的有效性和有效性。
组织。本文的其余部分组织如下。第二节对相关工作进行了总结。第3节正式定义了大规模信息网络嵌入问题。第4节详细介绍了LINE模型。第五部分给出了实验结果。最后,我们在第六节进行总结。
2 相关工作
我们的工作涉及一般的图嵌入或降维的经典方法,如多维缩放(MDS)[4]、IsoMap[20]、LLE[18]和Laplacian Eigenmap[2]。这些方法通常首先使用数据点的特征向量,例如数据的K最近邻图来构造引力图,然后将引力图[22]嵌入到低维空间中。然而,这些算法通常依赖于求解引力矩阵的前导特征向量,其复杂度与节点数目至少是二次的,使得它们处理大规模网络的效率很低。
在最近的文献中,有一种叫做图分解的技术[1]。通过矩阵分解得到大型图的低维嵌入,利用随机梯度下降进行优化。这是可能的,因为图可以表示为引力矩阵。然而,矩阵分解的目标不是为网络设计的,因此不一定要保持全局网络结构。直观地,图分解期望具有较高一阶邻近度的节点被紧密地表示。相反,LINE模型使用一个特别为网络设计的目标,该目标同时保持一阶和二阶接近度。在实际应用中,图分解方法只适用于无向图,而提出的模型适用于无向图和有向图。
与我们相关的最新工作是DeepWalk[16],它部署了用于嵌入社交网络的截断随机行走。尽管从经验上讲是有效的,但DeepWalk并没有提供一个清晰的目标,说明保留了哪些网络属性。直观地,DeepWalk期望具有较高二阶邻近度的节点产生类似的低维表示,而LINE同时保留一阶和二阶邻近度。深度漫步使用随机漫步来扩展顶点的邻域,这与深度优先搜索类似。我们使用广度优先搜索策略,这是一种更合理的二阶近似方法。实际上,DeepWalk只适用于非加权网络,而我们的模型适用于具有加权边和未加权边的网络。
在第五节中,我们使用不同的真实世界网络,将所提出的模型与这些方法进行实证比较。
3.问题定义
我们使用一阶和二阶近似度来定义大型信息网络嵌入的问题?????
定义1。(信息网络)信息网络被定义为G=(V,E),其中V是顶点集合,每个顶点表示数据对象,E是顶点之间的边缘集合,每个顶点表示两个数据对象之间的关系。每个边e∈E是有序对e=(u,v),并且与权重Wuv>0相关联,这表示关系的强度。如果G是无向的,我们有(u,v)=(v,u)和Wuv=Wvu;如果G是有向的,我们有(u,v)≠(v,u)和wuv 不等于wvu。
在实践中,信息网络可以是定向的(例如,引文网络)或非定向的(例如,Facebook中的用户的社交网络)。边缘的权重可以是二进制的,也可以取任何实际值。注意,虽然负边权重是可能的,但在本研究中,我们只考虑非负权重。例如,在引文网络和社交网络中,Wuv取二进制值;在不同的对象之间的共现网络中,Wuv可以取任何非负值。一些网络中的边的权重可能发散,因为有些对象共现多次,而另一些对象可能仅共现几次。
将信息网络嵌入到低维空间中在多种应用中是有用的。为了进行嵌入,必须保留网络结构。第一种直觉是,必须保持本地网络结构,即顶点之间的局部成对接近性。我们将本地网络结构定义为顶点之间的一阶接近度:
定义2。(一阶接近度)网络中的一阶接近度是两个顶点之间的局部成对接近度。对于由边(u,v)链接的每对顶点,该边上的权重wuv表示u和v之间的一阶近似。如果在u和v之间没有观察到边,则它们的一阶近似为0。
一阶邻近度通常表示现实网络中两个节点的相似性。例如,在社交网络中彼此是朋友的人倾向于分享相似的兴趣;在万维网中彼此链接的网页倾向于谈论相似的主题。由于这种重要性,许多现有的图嵌入算法,如IsoMap、LLE、Laplacian特征映射和图分解都具有保持一阶邻近性的目的。
然而,在现实世界的信息网络中,所观察到的链接仅占很小的比例,而许多其他链接则没有[10]。缺失链路上的一对节点具有一阶零接近度,即使它们本质上非常接近彼此相似。因此,仅靠一阶邻近度是不足以保持网络结构的,并且寻求解决稀疏性问题的替代邻近度概念是重要的。一个自然的直觉是,具有相似邻居的顶点往往彼此相似。例如,在社交网络中,共享相似朋友的人往往具有相似的兴趣并因此成为朋友;在单词共现网络中,总是与同一组单词共现的单词往往具有相似的含义。因此,我们定义了二阶近似,它补充了一阶近似并保持了网络结构。
定义3。(二阶近似)网络中一对顶点(u,v)之间的二阶近似是它们的邻域网络结构之间的相似性。数学上,让pu=(ω(u1),.…ω(u|v|))表示u与所有其它顶点的一阶接近度,然后u和v之间的二阶接近度由pu和pv之间的相似度决定。如果没有顶点连接u和v,则u和v之间的二阶接近度为0。
我们研究了网络嵌入的一阶和二阶邻近性,其定义如下。
定义4。(大规模信息网络嵌入)给定一个大网络G=(V,E),大规模信息网络嵌入问题旨在将每个顶点v∈V表示为低维空间Rd,即学习函数fG:V→Rd,其中d《|V|。在空间Rd中,保持顶点之间的一阶接近和二阶接近。
接下来,我们介绍一个同时保留一阶和二阶近似的大规模网络嵌入模型。
4 LINE:大范围信息网络嵌入
一个理想的现实信息网络嵌入模型必须满足以下几个要求:第一,它必须能够同时保持顶点之间的一阶接近和二阶接近;第二,它必须适用于非常大的网络,例如数百万个顶点和数十亿个边缘;第三,它能够处理任意类型的边:有向、无向和无权或加权。在这一部分中,我们提出了一种新的网络嵌入模型,称为“LINE”,它满足所有这三个要求。
4.1 模型描述
我们分别描述了保持一阶近似和二阶近似的LIN模型,然后介绍了将两者结合的简单方法。
4.1.1 LINE with First-order Proximity
一阶接近度是指网络中顶点之间的局部成对接近度。为了建模一阶接近度,对于每个无向边(i,j),我们定义顶点vi和vj之间的联合概率如下:![]()
(1)
其中ui∈Rd是节点vi的低维向量空间表示。(1)在空间V×V上定义一个分布p(*,*),p(*,*)为经验概率定义为p(i,j)=wij/W 其中W=∑(i,j)∈Eωij。为了保存一阶相似性,一个直接的方法就是最小化以下函数
O1=d(p(*,*),p1(*,*)) (2)
,其中d(*,*)为两个分布之间的距离。(????)
我们选择最小化两个概率分布的kl散度(????)。用kl散度代替d(*,*),省略一些常数,我们有:
注意,一阶邻近仅适用于无向图,而不适用于有向图。通过找到{ui}i=1...|V|使方程中(3)的目标最小化。我们可以表示d维空间中的每个顶点。
4.1.2 LINE with Second-order Proximity
二阶贴近度适用于有向图和无向图。 给定一个网络,在不损失通用性的情况下,我们假设它是有向的(一个无向边可以被认为是两个方向相反且权值相等的有向边)。 二阶邻近性假设共享多个顶点到其他顶点的连接的顶点彼此相似。 在这种情况下,每个顶点也被视为一个特定的“上下文”,在“上下文”上具有相似分布的顶点被假定是相似的。 因此,每个顶点都扮演两个角色:顶点本身和其他顶点的特定“上下文”。 我们引入两个向量ui和 ui',当用ui表示vi时是指将vi看做节点,ui'表示vi时指将vi看做具体的“上下文”。 对于每条有向边(i, j),我们首先定义顶点vi生成“上下文”vj的概率为:![]()
(4)
其中|V|是顶点数或“上下文”。对于每个顶点vi,方程式(4)实际上定义了在上下文(即网络中的整个顶点集)上的条件分布p2(*|vi)。如上所述,二阶近似假设上下文中具有相似分布的顶点彼此相似。为了保持二阶近似性,我们应该使低维表示所指定的上下文p2(*|vi)的条件分布接近经验分布_p2(*|vi)。因此,我们最小化以下目标函数:![]()
(5)
其中d(*,*)是两个分布之间的距离。由于网络中顶点的重要性可能不同,我们在目标函数中引入λi来表示网络中顶点i的威望,这可以通过度度量或通过诸如PageRank[15]之类的算法来估计。经验分布p2(*|vi)定义为
p2(vj|vi) =ωij /di,其中ωij是边缘(i,j)的权重,di是顶点i的外度,即di=∑k∈N(i)ωik,其中N(i)是vi的外邻居集。在这篇文章中,为了简化我们将λi定义为节点的等级,λi=di,也采用KL散度计算距离函数。用KL发散代替
d(*,*),设置λi=d i并省略一些常数,我们有:![]()
(6)
通过学习{u i}i=1...|v|和{ui'}i=1...|v|最小化这个目标,我们能够用d维向量
u i来表示每个顶点vi。
4.1.3 Combining first-order and second-order proximities
为了同时保持一阶和二阶接近度来嵌入网络,我们在实践中发现一种简单而有效的方法是训练分别保持一阶接近度和二阶接近度的LINE模型,然后对每个顶点将两种方法训练的嵌入连接起来。将两者结合的更有原则的方法是联合训练目标函数(3)和(6),我们将其留作将来的工作。
4.2 Model Optimization
4.3讨论
5、实验
我们主要测试LINE的效果以及效率。我们将LINE应用于几个不同类型的大型网络,包括语言网络,两个社交网络,两个引用网络。
5.1 实验设置
数据集
(1)语言网络。我们从整个英语维基百科页面构建了一个单词共现网络。每个5个单词滑动窗口中的单词被认为是同时出现的。频率小于5的单词被过滤掉。
(2)社交网络。使用两个社交网络:Flickr和YouTube。Flickr网络比YouTube更加密集(DeepWalk也使用了同样的网络[16])
(3)引用网络。利用DBLP数据集[19]3构建了作者之间和论文之间的引文网络。作者引文网络记录了一个作者所写和被另一个作者引用的论文数量。这些网络的具体数据总结在了表1当中。它们具有各种类型的信息网络:有向的无向的,二进制的权重的。每个 网络都含有至少50万节点和百万的边,最大的网络含有约两百万的节点和边。
比较算法
我们将LINE算法模型与几个已有的图嵌入算法进行比较,这些图嵌入算法对超大型网络都是适用的。而对于MDS,IsoMap,Laplacian eigenmap这类算法,由于其无法解决大型网络,不与之比较。
·Graph factorization(GF 图分解):比较了图分解的矩阵分解技术。信息网络可以表示为亲和矩阵,并且可以通过矩阵分解用低维向量表示每个顶点。图分解是通过随机梯度下降优化的,能够处理大型网络。它只适用于无向网络。
·DeepWalk[16]:DeepWalk是最近提出的针对社交网络嵌入的方法,只适合于边权值为二进制的网络。每个节点的截断随机游走来获取上下文信息,因此只适用于二阶近似。
·LINE-SGD:在4.1节中介绍的使用随机梯度递减优化了公式(3)或(6)后的LINE模型。该方法在进行模型更新时对边采样,将边的权值直接乘以梯度。这种方法有两种变体:LINE-SGD(1)和LINE-SGD(2),它们分别使用一阶和二阶邻近性。
·LINE:通过4.2节中边采样处理优化的LINE模型。在每次的随机梯度步骤中,边被采样的概率为其权值所占比例,然后转换为二进制用于模型更新。同样也有两种LINE的变体LINE(1st)和LINE(2nd)。跟图分解一样,LINE(1st)和LINE-SGD(1st)仅应用于无向图。LINE(2nd)和LINE-SGD(2nd)应用于无向图和有向图。
·LINE(1st+2nd):为了同时使用一阶近似和二阶近似,一种简单有效的方法就是将LINE(1st)和LINE(2nd)得到的向量串联成一个长向量。串联之后,这个维度应该重新分配权重来保持两个向量的平衡。在监督学习任务中,可以根据训练集自动的计算出维度的权重。在非监督学习任务中,很难去设置其权重。因此我们只在监督学习任务中使用LINE(1st+2nd)。
参数设置
所有方法的随机梯度下降的mini-batch均设为1。与[13]相似,学习率的初始值设置为ρ0=0.025,ρt=ρ0(1-t/T),其中T是mini-batches和边样本集的总数。为了公平比较语言网络的嵌入维度设置为200,如word embedding[13] 中设置的。对于其他网络,维度默认设置为128,如[16]中所设置的。其他的默认设置包括:LINE和LINE-SGD负样本的数量K=5;LINE(1st)和LINE(2nd)中样本总数T=1000万,对于图分解GF,T=2000万,window大小win=1000,对于DeepWalk,walk length t=40,walk per vertex γ=40。所有的嵌入向量最终都进行归一化||ω||=1。
5.2 定量结果
5.2.1 语言网络
我们从语言网络的结果开始,它包含200万个节点和10亿个边。 用于计算嵌入学习效率的两个应用:单词类比[12]和文档分类。
单词类比: 这个任务是由Mikolov[12]提出的。给出一个单词对(a,b)以及单词a和单词c,任务目标为找到一个词d,使得c与d之间得关系与a与b之间的关系相同,或者可以表示为:a:b→c:?。举个例子,给出一个单词对(“China”,“Beijing”)以及一个单词“France”,正确的答案应该是“Paris”,因为“Beijing”是“China”的首都同样“Paris”是“France”的首都。鉴于word embedding,这个任务的解决方法是找到单词d*,使得d*的嵌入最接近矢量ub-ua+uc的余弦距离,例如d*=argmax cos((ub-ua+uc),ud)。在这个任务中使用了两类词类类比:语义类和句法类。
表2报告了使用Wikipedia语料库(SkipGram)或Wikipedia单词网络(所有其他方法)中学习的单词嵌入进行单词类比的结果。对于图分解,将每对单词之间的权值定义为共现次数的对数,这使得其性能优于共现的原始值。对于随机游走,将语言网络转换为二进制网络时尝试不同的阈值,当网络中所有的边都保存在网络中时,可以获得更好的性能。我们还将其与最先进的单词嵌入模型SkipGram[12]进行了比较,该模型直接从维基百科的原始页面学习单词嵌入,也是一种隐式的矩阵分解方法[8]。窗口大小设置为5,与构建语言网络时相同。
我们可以看出LINE(2nd)比其他的方法表现更好,包括图嵌入方法和SkipGram。这表明了二阶近似相对于一阶近似更加能捕捉到单词语义。这并不让人奇怪,因为较高的二阶近似意味着两个单词可以在相同的上下文中替换,这比一阶共出现更能说明相似的语义。有趣的是,LINE(2nd)比最先进的单词嵌入模型在原始语料库训练表现得更好。原因可能是语言网络比原始单词序列更好地捕捉单词共现的全局结构。在其他的方法中,图分解和LINE(1st)比DeepWalk表现更加好,虽然DeepWalk是挖掘二阶近似。这是因为DeepWalk忽略了边的权重,在语言网络中边的权重是非常重要的。由SGD直接优化LINE模型则表现更加差,因为语言网络中边的权重存在较大差异,从个位数到一万不等,使得学习过程受到影响。由边采样处理优化的LINE模型能够有效地解决这个问题,在一阶临近和二阶临近方面效果很好。
所有的模型都运行在单独的机器上,1T的内存,40个2.0GHZ的CPU内核,16个线程。LINE(1st)和LINE(2nd)都很有效,跑200w节点和10亿边的网络用了不到3个小时。都比图分解方法快了10%,比DeepWalk更加快(5倍)。LINE-SGDs稍慢的原因是必须应用阈值切割技术来防止梯度爆炸。
文档分类:评估单词嵌入质量的另一种方法是使用单词向量来计算文档表示,可以使用文档分类任务对文档表示进行评估。我们选择一个较简单的方法来获取文档向量,取词向量表示的均值。这是因为我们的目标是将单词嵌入与不同的方法进行比较而不是找到文档嵌入最好的方法。读者可以在[7]中找到之前的文档嵌入方法。我们从 http://downloads.dbpedia.org/3.9/en/long_abstracts_en.nq.bz2 下载了维基百科页面的摘要以及从 http://downloads.dbpedia.org/3.9/en/article_categories_en.nq.bz2
下载了这些页面的分类。我们选择了7种分类包括“History”,“Human”,“Mathematics”,“Nature”,“Technology”和“Sports”。对于每一个分类,我们随机选择了10000篇文章,其中属于交叉领域的文章丢弃掉。我们随机采样不同比例标签文档来做训练,用剩余的做评价。所有的文档向量都使用LibLinear包的one-vs-rest逻辑回归分类器做训练。我们报告分类指标Micro-F1和Macro-F1[11]。通过对不同的训练数据进行抽样,结果平均超过10次。
表3报告了维基百科页面的分类结果。在单词类比中也可以得到类似的结论。图分解方法比DeepWalk方法表现更好,因为DeepWalk方法忽略了边的权值。LINE-SGDs 由于边的权重的差异表现更差。通过边采样处理优化的LINE模型比直接采用SGD表现的更好。LINE(2nd)比LINE(1st)表现更加好,也比图分解表现更好。在监督任务中,将LINE(1st)与LINE(2nd)串联的方法是可行的。所以LINE(1st+2nd)方法要显著的比其他方法更加好。这表明了一阶和二阶相似是可以互补的。
为了让读者对一阶相似和二阶相似更加直观,表4比较了给定单词通过一阶和二阶相似得到的最相似的单词。我们可以看到,通过使用上下文邻近性,二阶邻近性返回的最相似的单词都是语义相关的单词。由一阶近似返回的最相似的单词是句法相关单词和语义相关单词的组合。
5.2.2 社交网络
与语言网络相比,社交网络要少得多,尤其是Youtube网络。我们通过将每个节点分配到一个或多个社区的多标签分类任务来评估顶点嵌入。随机抽取不同比例的顶点进行训练,其余的顶点进行评价。结果平均超过10次不同的运行。
Flickr Network:让我们首先看Flickr 网络的结果。我们选择最受欢迎的5个社区作为顶点的类别进行多标签分类。表5展示了分类结果。同样,LINE(1st+2nd)的性能显著优于所有其他方法。LINE(1st)略优于LINE(2nd),这与语言网络上的结果相反。原因有两个方面:(1)在社交网络中,一阶邻近性仍然比二阶邻近性更重要,这表明了紧密的联系;(2)当网络过于稀疏,且节点的平均邻域数过小时,二阶邻近性可能变得不准确。我们将在5.4节中进一步研究这个问题。LINE(1st)表现优于图分解,表明其对一阶近似性的建模能力较好。LINE(2nd)的性能优于DeepWalk,表明其具有更好的二阶近似建模能力。通过将LINE(1st)和LINE(2nd)学习到的表示串联起来,性能进一步提高,证实了这两种代理是互补的。
YouTube network:表6给出了Youtube网络上的结果,结果非常稀疏,平均度低至5。在大多数情况下,在不同比例的训练数据下,LINE(1)优于LINE(2),这与Flickr网络上的结果一致。由于极度稀疏,LINE(2)的性能甚至不如DeepWalk。将LINE模型的一阶和二阶近似的学习结果相结合,其性能优于128维或256维的DeepWalk,表明这两种近似是互补的,能够解决网络稀疏的问题。
观察DeepWalk如何通过截断的随机游走来处理网络稀疏性是很有趣的,它丰富了每个顶点的邻居或上下文。随机游走方法类似于深度优先搜索。这种方法可以通过引入间接邻居来快速缓解节点邻域的稀疏性,但也可能引入距离较远的节点。更合理的方法是使用广度优先搜索策略来扩展每个顶点的邻域,即,递归地添加邻居的邻居。为了验证这一点,我们通过添加邻居的邻居来扩展度小于1000的顶点的邻域,直到扩展的邻域的大小达到1000个节点。我们发现添加超过1000个顶点不会进一步提高性能。
表6中括号内的结果是在此重构网络上得到的。GF、LINE(1st)、LINE(2nd)的性能都有所提高,尤其是LINE(2nd)。在重建的网络中,LINE(2nd)在大多数情况下都优于DeepWalk。我们还可以看到,重构网络上的LINE(1st +2nd)性能与原网络相比并没有太大的改善。这意味着在原始网络上的一阶和二阶近似的组合已经捕获了大部分的信息,LINE(1st +2nd)方法是一种非常有效的网络嵌入方法,适用于密集网络和稀疏网络。
5.2.3 引用网络
我们给出了两个引文网络的结果,它们都是有向网络。GF方法和LINE方法都使用一阶近似,不适用于有向网络,因此我们只比较DeepWalk和LINE(2nd)。我们还通过一个多标签分类任务来评估顶点嵌入。我们选择AAAI、CIKM、ICML、KDD、NIPS、SIGIR、WWW等7个热门会议作为分类类别。在会议上发表的作者或在会议上发表的论文,假定属于与会议相对应的类别。
DBLP(作者引用网络)Network:表7报告了DBLP(AuthorCitation)网络上的结果。由于这个网络也非常稀疏,DeepWalk的性能优于LINE(2nd)。然而,对于小于500度的顶点,通过递归添加邻节点的邻节点来重构网络,LINE(2nd)的性能显著提高,优于DeepWalk。由随机梯度下降法直接优化的LINE,LINE(2),表现不如预期。
DBLP(文章引用)Network:表8报告了DBLP(PaperCitation)网络的结果。LINE(2nd)的表现明显优于DeepWalk。这是因为论文引文网络上的随机游走只能沿着引文路径(即,而且无法找到其他参考文献。相反,LINE(2nd)展示了每篇论文及其参考文献,这显然更合理。通过对小于200度顶点的邻域进行丰富,重构后的网络性能得到进一步提高。
5.3 网络布局
网络嵌入的一个重要应用是创建有意义的可视化,在二维空间中布局网络。我们将从DBLP数据中提取的合著者网络可视化。我们从三个不同的研究领域中选择了一些会议:WWW, KDD来自“数据挖掘”,NIPS, ICML来自“机器学习”,CVPR, ICCV来自“计算机视觉”。合著者网络是根据这些会议上发表的论文构建的。对度小于3的作者进行过滤,最终得到网络包含18,561位作者,207,074条边。由于这三个研究领域彼此非常接近,所以建立这样的合作网络是非常具有挑战性的。我们首先用不同的嵌入方法将合著者网络映射到一个低维空间,然后用t-SNE包[21]将顶点的低维向量映射到一个二维空间。图二比较了不同嵌入方法的结果。图分解方法的可视化不是很有意义,属于同一个社团的作者并不在同一个簇中。DeepWalk的结果更加好,然而,许多属于不同社区的作者紧密地聚集在中心区域,其中大多数是高阶顶点。这是因为DeepWalk使用了一种基于随机游走的方法来丰富顶点的邻居,这种方法由于随机性带来了大量的噪声,尤其是对于具有更高程度的顶点。LINE(2nd)效果很好,展示了网络中有意义的布局(颜色相同的节点分布较近)
5.4 Performance w.r.t. Network Sparsity
在本小节中,我们正式分析了上述模型在网络稀疏性下的性能。我们使用社交网络作为例子。我们首先看网络的稀疏性是如何影响LINE(1st)和LINE(2nd)的。图3(a)展示Flickr网络中边的比例。我们选择Flickr网络时因为Flickr网络比YouTube网络更加紧密。我们随机的从原始网络中选择不同比例的边来构建不同稀疏度的网络。我们可以发现,当网络非常稀疏的时候,LINE(1st)比LINE(2nd)效果更好。随着我们逐渐增加边的比例,LINE(2nd)的效果开始比LINE(1st)要好。这表明当网络极其稀疏时二阶近似会受到影响,当有节点足够多的邻居节点时会比一阶近似要好。
图3(b)为YouTube原始网络和重构网络节点度的表现。我们根据节点度的不同将节点分为不同的组包括(0,1],[2、3],[4 6],[7、12],[13日30],[31日,+∞),然后计算顶点在不同组的表现。总的来说,不同模型的性能随着顶点度的增加而提高。在原网络中,除了第一组外,第二组的性能优于第一组,这证明了对于低阶节点,二阶邻近性效果不佳。在重建的密集网络中,LINE(1st)或LINE(2nd)的性能得到了改善,特别是保持二阶邻近的LINE(2nd)。我们还可以看到重建网络上的LINE(2)模型在所有组中都优于DeepWalk。
5.5 参数敏感性
5.6可扩展性
6 结论
本文提出了一种新的网络嵌入模型,称为“LINE”,它可以很容易地扩展到具有数百万顶点和数十亿边缘的网络。它精心设计了目标函数,以保持一阶近似和二阶近似,这两种近似是互补的。提出了一种有效的边缘采样方法,在不影响模型推理效率的前提下,解决了随机梯度下降在加权边缘上的局限性。在各种实际网络上的实验结果证明了该方法的有效性。在未来,我们计划研究网络中一级和二级代理之外的高阶邻近性。此外,我们还计划研究异构信息网络的嵌入,例如具有多种类型的顶点。
LINE模型的优化
affinity matrix:引力矩阵 (待定)

浙公网安备 33010602011771号