摘要:def aggregateMessages[Msg: ClassTag]( sendMsg: EdgeContext[VD, ED, Msg] => Unit, mergeMsg: (Msg, Msg) => Msg, tripletFields: TripletFields = TripletFi
阅读全文
摘要:方式一 package graphx import org.apache.log4j.{Level, Logger} import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.graphx._ import o
阅读全文
摘要:1. subgraph: 返回的对象是一个图,图中包含着的顶点和边分别要满足vpred和epred两个函数。 def subgraph( epred: EdgeTriplet[VD, ED] => Boolean = (x => true), vpred: (VertexId, VD) => Boo
阅读全文
摘要:joinvertices: graph1.joinVertices(graph2)((id2, VD1, data2) = > VD2) 这里的id2是graph2的点, data2是graph2的属性,这样写就会用新属性VD2覆盖老属性VD1outerjoinvertices: 这个操作其实跟上面
阅读全文
摘要:节点与边的变换操作 def mapVertices[VD2](map: (VertexID, VD) => VD2): Graph[VD2, ED] def mapEdges[ED2](map: Edge[ED] => ED2): Graph[VD, ED2] def mapEdges[ED2](m
阅读全文
摘要:graph包含三个基本的类集合视图 val vertices: VertexRDD[VD] val edges: EdgeRDD[ED] val triplets: RDD[EdgeTriplet[VD, ED]],即可理解为:RDD(srcId,srcAttr,dstId,dstAttr,attr
阅读全文
摘要:1. GraphX的框架 1.1图存储模式 边分割(Edge-Cut): 每个顶点都存储一次,但有的边会被打断分到两台机器上。 优点:节省存储空间; 缺点:对图进行基于边的计算时,对于一条两个顶点被分到不同机器上的边来说,要跨机器通信传输数据,内网通信流量大。 点分割(Vertex-Cut) 每条边
阅读全文
摘要:版本介绍 **********************************************************************************18 /data/soft/spark-2.1.0-bin-hadoop2.7spark version 2.3.2 Pyth
阅读全文