随笔分类 -  graphx

摘要:def aggregateMessages[Msg: ClassTag]( sendMsg: EdgeContext[VD, ED, Msg] => Unit, mergeMsg: (Msg, Msg) => Msg, tripletFields: TripletFields = TripletFi 阅读全文

posted @ 2020-10-28 16:19 happygril3 阅读(195) 评论(0) 推荐(0)

摘要:方式一 package graphx import org.apache.log4j.{Level, Logger} import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.graphx._ import o 阅读全文

posted @ 2020-10-28 15:28 happygril3 阅读(70) 评论(0) 推荐(0)

摘要:1. subgraph: 返回的对象是一个图,图中包含着的顶点和边分别要满足vpred和epred两个函数。 def subgraph( epred: EdgeTriplet[VD, ED] => Boolean = (x => true), vpred: (VertexId, VD) => Boo 阅读全文

posted @ 2020-10-27 18:37 happygril3 阅读(570) 评论(0) 推荐(0)

摘要:joinvertices: graph1.joinVertices(graph2)((id2, VD1, data2) = > VD2) 这里的id2是graph2的点, data2是graph2的属性,这样写就会用新属性VD2覆盖老属性VD1outerjoinvertices: 这个操作其实跟上面 阅读全文

posted @ 2020-10-27 18:06 happygril3 阅读(202) 评论(0) 推荐(0)

摘要:节点与边的变换操作 def mapVertices[VD2](map: (VertexID, VD) => VD2): Graph[VD2, ED] def mapEdges[ED2](map: Edge[ED] => ED2): Graph[VD, ED2] def mapEdges[ED2](m 阅读全文

posted @ 2020-10-27 18:04 happygril3 阅读(153) 评论(0) 推荐(0)

摘要:graph包含三个基本的类集合视图 val vertices: VertexRDD[VD] val edges: EdgeRDD[ED] val triplets: RDD[EdgeTriplet[VD, ED]],即可理解为:RDD(srcId,srcAttr,dstId,dstAttr,attr 阅读全文

posted @ 2020-10-27 18:00 happygril3 阅读(66) 评论(0) 推荐(0)

摘要:1. GraphX的框架 1.1图存储模式 边分割(Edge-Cut): 每个顶点都存储一次,但有的边会被打断分到两台机器上。 优点:节省存储空间; 缺点:对图进行基于边的计算时,对于一条两个顶点被分到不同机器上的边来说,要跨机器通信传输数据,内网通信流量大。 点分割(Vertex-Cut) 每条边 阅读全文

posted @ 2020-10-27 14:50 happygril3 阅读(718) 评论(0) 推荐(0)

摘要:版本介绍 **********************************************************************************18 /data/soft/spark-2.1.0-bin-hadoop2.7spark version 2.3.2 Pyth 阅读全文

posted @ 2019-09-04 11:32 happygril3 阅读(137) 评论(0) 推荐(0)

导航