《spark内核 架构设计与实现原理》 读书笔记6-----graphX

0 分布式并行图计算的进化路线:pregel => graphlab => GraphX => graphFrame

1)pregel 是谷歌很早开发的一个分布式图计算系统,类似于mapreduce将大数据的处理分成两个阶段:map 和 reduce,谷歌将图计算分成三个阶段GAS: gather apply scatter。gather是一个顶点收集其他相邻顶点的信息, apply是进行顶点上的计算, scatter是将该顶点的计算结果分发到其他顶点。pregel 是让程序像一个顶点思考

2)graphlab 是cmu大学开源的一个图计算框架,它的运行速度比mapreduce和mahout要快几个数量级. graphlab 是让程序像一条边一样思考。

3)GraphX 是spark的四大扩展组建之一,逻辑上是对pregel和graphlab的一个重写

4)graphFrame:是基于dataFrame的一个图计算框架,它比GraphX有更快的速度

 

1 超步:BSP 批量同步并行, 将一个完整的job划分成一系列连续顺序执行的超步,这样可以避免没有必要的超步,一个超步内部划分为:本地计算,全局通信,栏杆屏障 

2 triplets:一条边带两个顶点

3 内部表的引用:点表 路由表 边表

posted on 2018-07-26 01:56  钻研spark  阅读(130)  评论(0)    收藏  举报

导航