打赏
摘要: 1、rdd持久化 2、广播 3、累加器 1、rdd持久化 通过spark-shell,可以快速的验证我们的想法和操作! 启动hdfs集群 spark@SparkSingleNode:/usr/local/hadoop/hadoop-2.6.0$ sbin/start-dfs.sh 启动spark集群 阅读全文
posted @ 2016-09-27 23:03 大数据和AI躺过的坑 阅读(2461) 评论(0) 推荐(0)
摘要: 声明: 大数据中,最重要的算子操作是:join !!! 典型的transformation和action 成为大牛,必写的写法 -> http://blog.csdn.net/kimyoungvon/article/details/51417910 另推荐一篇好的博客,https://www.ite 阅读全文
posted @ 2016-09-27 18:18 大数据和AI躺过的坑 阅读(1546) 评论(0) 推荐(0)
摘要: 本博文的主要内容是: 1、rdd基本操作实战 2、transformation和action流程图 3、典型的transformation和action RDD有3种操作: 1、 Trandformation 对数据状态的转换,即所谓算子的转换 2、 Action 触发作业,即所谓得结果的 3、 C 阅读全文
posted @ 2016-09-27 16:29 大数据和AI躺过的坑 阅读(1019) 评论(0) 推荐(0)
摘要: map、 flatMap、fliter、distinct、repartition、coalesce、sample、randomSplit、randomSampleWithRange、takeSample、union、++、sortBy、intersection map源码 fliter源码 coal 阅读全文
posted @ 2016-09-27 12:02 大数据和AI躺过的坑 阅读(2514) 评论(0) 推荐(0)