2017 年 3月 23 日随笔档案 - 卖臭豆腐喽

2017年3月23日

摘要：从hdfs上加载文件并创建graph scala> var graphs = GraphLoader.edgeListFile(sc,"/tmp/dataTest/graphTest.txt") graphs: org.apache.spark.graphx.Graph[Int,Int] = org 阅读全文

posted @ 2017-03-23 19:48 卖臭豆腐喽阅读(1352) 评论(0) 推荐(0)

graph小案例

摘要：（小案例，有五个人他们参见相亲节目，这个五个人分别是0,1,2,3,4,号选手，计算出追随者年龄大于被追随者年龄的人数和平均年龄） scala> import org.apache.spark._ import org.apache.spark._ scala> import org.apache. 阅读全文

posted @ 2017-03-23 19:48 卖臭豆腐喽阅读(459) 评论(0) 推荐(0)

（三）spark算子分为3大类

摘要： ation算子通过sparkContext执行提交作业的runJob，触发rdd的DAG执行（foreach） foreach（f）会对rdd中的每个函数进行f操作，下面的f操作就是打印输出没有元素 saveAsTextFile foreach（f）会对rdd中的每个函数进行f操作，下面的f操阅读全文

posted @ 2017-03-23 19:24 卖臭豆腐喽阅读(605) 评论(0) 推荐(0)

（二）spark算子分为3大类

摘要： transgormation的算子对key-value类型的数据有三种：（1）输入与输出为一对一关系 mapValue();针对key-value类型的数据并只对其中的value进行操作，不对key进行操作（2）对单个rdd聚集（2）对单个rdd聚集 combineByKey 相当于将(v 阅读全文

posted @ 2017-03-23 19:21 卖臭豆腐喽阅读(716) 评论(0) 推荐(0)

（一）spark算子分为3大类

摘要： value类型的算子处理数据类型为value型的算子（也就是这个算子只处理数据类型为value的数据），可以根据rdd的输入分区与输出分区的关系分为以下几个类型（1）输入分区与输出分区一对一型 map型：对rdd的每个数据项，通过用户自定义的函数映射转换成一个新的rdd 上面4个方框表示4个rd 阅读全文

posted @ 2017-03-23 19:18 卖臭豆腐喽阅读(2501) 评论(0) 推荐(0)

薛定谔的猫！

公告