随笔分类 -  spark

摘要:General logical plan 典型的 Job 逻辑执行图如上所示,经过下面四个步骤可以得到最终执行结果: 从数据源(可以是本地 file,内存数据结构, HDFS,HBase 等)读取数据创建最初的 RDD。上一章例子中的 parallelize() 相当于 createRDD()。 对 阅读全文
posted @ 2016-09-07 20:54 Evil_XJZ 阅读(452) 评论(0) 推荐(0)
摘要:配置eclipse出错解决 山重水复疑无路,柳暗花明又一村!经过大量的验证。。。终于make it。 参考博客:http://blog.csdn.net/wankunde/article/details/41843217 其中四个步骤: Scala 工程版本 该方法和Java 工程类似。 新建sca 阅读全文
posted @ 2016-09-02 16:53 Evil_XJZ 阅读(1218) 评论(0) 推荐(0)
摘要:【译】避免使用GroupByKey Scala Spark 技术 Scala Spark Scala Spark 技术 by:leotse 原文:Avoid GroupByKey 译文 让我们来看两个wordcount的例子,一个使用了reduceByKey,而另一个使用groupByKey: 12 阅读全文
posted @ 2016-08-28 21:25 Evil_XJZ 阅读(7192) 评论(0) 推荐(0)