摘要:
Spark的join与mysql的join类似,mysql的join是将表与表之间连接查询,spark中join是将RDD数据集进行连接,Spark主要有join、leftOuterJoin、rightOuterJoin及fullOuterJoin这4种连接 join:相当于mysql的INNER 阅读全文
posted @ 2018-10-06 22:08
HarvardFly
阅读(9835)
评论(0)
推荐(2)
摘要:
groupByKey把相同的key的数据分组到一个集合序列当中: [("hello",1), ("world",1), ("hello",1), ("fly",1), ("hello",1), ("world",1)] --> [("hello",(1,1,1)),("word",(1,1)),(" 阅读全文
posted @ 2018-10-06 17:18
HarvardFly
阅读(2587)
评论(1)
推荐(1)
摘要:
map将函数作用到数据集的每一个元素上,生成一个新的分布式的数据集(RDD)返回 map函数的源码: map将每一条输入执行func操作并对应返回一个对象,形成一个新的rdd,如源码中的rdd.map(lambda x: (x, 1) --> [('a', 1), ('b', 1), ('c', 1 阅读全文
posted @ 2018-10-06 14:39
HarvardFly
阅读(8628)
评论(0)
推荐(0)

浙公网安备 33010602011771号