摘要: 一般而言,saveAsTextFile会按照执行task的多少生成多少个文件,比如part-00000一直到part-0000n,n自然就是task的个数,亦即是最后的stage的分区数。那么有没有办法最后只生成一个文件,而不是成百上千个文件了?答案自然是有办法。 在RDD上调用coalesce(1 阅读全文
posted @ 2015-07-29 10:12 boiledwater 阅读(7014) 评论(0) 推荐(0) 编辑
摘要: Spark编程指南 (写在前面,本文是翻译自2015年7月29日的http://spark.apache.org/docs/latest/programming-guide.html,由于水平所限,肯定存在很多翻译不到位地方。本文的翻译是为了加深自己作为初学者对Spark的理解,欢迎大家指出各种理解 阅读全文
posted @ 2015-07-29 09:47 boiledwater 阅读(833) 评论(0) 推荐(0) 编辑