摘要:
1、rdd持久化 2、广播 3、累加器 1、rdd持久化 通过spark-shell,可以快速的验证我们的想法和操作! 启动hdfs集群 spark@SparkSingleNode:/usr/local/hadoop/hadoop-2.6.0$ sbin/start-dfs.sh 启动spark集群 阅读全文
posted @ 2016-09-27 23:03
大数据和AI躺过的坑
阅读(2461)
评论(0)
推荐(0)
摘要:
声明: 大数据中,最重要的算子操作是:join !!! 典型的transformation和action 成为大牛,必写的写法 -> http://blog.csdn.net/kimyoungvon/article/details/51417910 另推荐一篇好的博客,https://www.ite 阅读全文
posted @ 2016-09-27 18:18
大数据和AI躺过的坑
阅读(1546)
评论(0)
推荐(0)
摘要:
本博文的主要内容是: 1、rdd基本操作实战 2、transformation和action流程图 3、典型的transformation和action RDD有3种操作: 1、 Trandformation 对数据状态的转换,即所谓算子的转换 2、 Action 触发作业,即所谓得结果的 3、 C 阅读全文
posted @ 2016-09-27 16:29
大数据和AI躺过的坑
阅读(1019)
评论(0)
推荐(0)
摘要:
map、 flatMap、fliter、distinct、repartition、coalesce、sample、randomSplit、randomSampleWithRange、takeSample、union、++、sortBy、intersection map源码 fliter源码 coal 阅读全文
posted @ 2016-09-27 12:02
大数据和AI躺过的坑
阅读(2514)
评论(0)
推荐(0)

浙公网安备 33010602011771号