Spark2.x管理与开发-Spark GraphX-什么是Spark GraphX+Spark GraphX有哪些抽象

一、什么是Spark GraphX

1Spark GraphXSaprk的一个模块,主要用于进行以图为核心的计算和分布式计算。

2GraphX底层计算也是RDD计算,他和RDD共用一种存储形态,在展示形态上以数据集来表示,也就是以图的形式表示。

二、Spark GraphX有哪些抽象?

1.顶点

顶点的表示用RDD[(VertexId,VD)]来表示

[(VertexId,VD)]这个元组用来具体表示一个顶点

VertexId表示顶点的IDLong

VD是顶点的属性,是一个类型参数,可以是任何类型,Eg:(1,new Person())

2.

边的表示用RDD[Edge[ED]]表示

Edge表示具体的一个边

Edge里面包含一个ED类型来设定的属性,一个源顶点的ID和一个目标顶点的ID

3.三元组(用的有限)

三元组结构用RDD[EdgeTriple[VD,ED]]来表示

EdgeTriple[VD,ED]表示一个三元组,三元组包含一个边,边的属性,源顶点ID,源顶点属性,目标顶点ID,目标顶点属性

VDED是类型参数,VD表示的是顶点的属性,ED表示的是边的属性。

4.

图在Spark中用顶点和边来构建。

 

博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3