Spark2.x管理与开发-Spark GraphX-什么是Spark GraphX+Spark GraphX有哪些抽象
Posted on 2020-08-13 17:40 MissRong 阅读(158) 评论(0) 收藏 举报Spark2.x管理与开发-Spark GraphX-什么是Spark GraphX+Spark GraphX有哪些抽象
一、什么是Spark GraphX
1)Spark GraphX是Saprk的一个模块,主要用于进行以图为核心的计算和分布式计算。
2)GraphX底层计算也是RDD计算,他和RDD共用一种存储形态,在展示形态上以数据集来表示,也就是以图的形式表示。
二、Spark GraphX有哪些抽象?
1.顶点
顶点的表示用RDD[(VertexId,VD)]来表示
[(VertexId,VD)]这个元组用来具体表示一个顶点
VertexId表示顶点的ID,是Long型
VD是顶点的属性,是一个类型参数,可以是任何类型,Eg:(1,new Person())
2.边
边的表示用RDD[Edge[ED]]表示
Edge表示具体的一个边
Edge里面包含一个ED类型来设定的属性,一个源顶点的ID和一个目标顶点的ID。
3.三元组(用的有限)
三元组结构用RDD[EdgeTriple[VD,ED]]来表示
EdgeTriple[VD,ED]表示一个三元组,三元组包含一个边,边的属性,源顶点ID,源顶点属性,目标顶点ID,目标顶点属性
VD和ED是类型参数,VD表示的是顶点的属性,ED表示的是边的属性。
4.图
图在Spark中用顶点和边来构建。

浙公网安备 33010602011771号