摘要: 一、引言 在了解GraphX之前,需要先了解关于通用的分布式图计算框架的两个常见问题:图存储模式和图计算模式。 二、图存储模式 巨型图的存储总体上有边分割和点分割两种存储方式。2013年,GraphLab2.0将其存储方式由边分割变为点分割,在性能上取得重大提升,目前基本上被业界广泛接受并使用。 2 阅读全文
posted @ 2018-05-16 19:37 扎心了,老铁 阅读(6129) 评论(0) 推荐(0) 编辑
摘要: 一、图 1.1 基本概念 图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种数据结构。 这里的图并非指代数中的图。图可以对事物以及事物之间的关系建模,图可以用来表示自然发生的连接数据,如:社交网络、互联网web页面 常用的应用有:在地图应用中找到最短路径、基于与他人的相似度图, 阅读全文
posted @ 2018-05-16 19:22 扎心了,老铁 阅读(2671) 评论(1) 推荐(0) 编辑
摘要: 一、SparkCore、SparkSQL和SparkStreaming的类似之处 二、SparkStreaming的运行流程 2.1 图解说明 2.2 文字解说 1、我们在集群中的其中一台机器上提交我们的Application Jar,然后就会产生一个Application,开启一个Driver,然 阅读全文
posted @ 2018-05-16 18:41 扎心了,老铁 阅读(4741) 评论(2) 推荐(2) 编辑