图
六、对图相关的概念要理解,掌握GraphFrames的使用以及实现的经典算法。
1、图概念
在计算机科学中,图是一种重要的数据结构,它具有强大的表达能力,广泛应用于通信网络、搜索引擎、社交网络及自然语言处理等领域。
一般地,图(Graph)是由顶点的非空有限集和边的有限集构成的,记作G=<V,E>,其中G表示一个图,V表示图G中顶点(vertices)的集合,E表示是图G中边(edges)的集合,E中的边连接V中的两个顶点。
若E中的边没有方向,则用无序顶点对表示边,构成的图称为无向图;若E中的边有方向,则用有序顶点对来表示,构成的图成为有向图。
2、图的度
对于无向图,顶点的度是指连接该顶点的边的总和。
对于有向图,顶点的度分为出度(out-degree)和入度(in-degree):
出度: 离开顶点的有向边的条数
入度: 进入该顶点的有向边的条数
3、图的路径和环
路径:一个连接两个不同顶点的序列v0e0...viej...ek-1vk,其中vi∈V,0<i<k;ej∈E,0<j<k-1,ej与vi,vi+1关联,且序列中的顶点各不相同。
环:起点和终点相同的路径就是环。
路径长度:路径长度为该路径上边的数目。
路径长度为1的环称为自环,即边的起点和终点为同一顶点。
4、连通分量
无向图G的极大连通子图称为G的连通分量。连通图的连通分量只有一个,即是其自身,非连通图有多个连通分量。
有向图G的极大强连通子图称为G的强连通分量,强连通图也只有一个强连通分量,即是其自身。非强连通的有向图有多个强连通分量。
极大连通子图一般称为连通分量
网页排名算法 PageRank(Google左侧排名或佩奇排名)
原理:PageRank 通过网络的超链接关系来确定一个页面的等级。
pageRank函数的返回值为一个GraphFrame对象,在原GraphFrame对象的基础上,顶点df增加了pagerank列,为这个顶点的pagerank值,越大说明这个顶点就越重要。边表的df增加了weight列,为运行pageRank算法后该边的权重值,越高说明这条边就越重要。

浙公网安备 33010602011771号