摘要: 原文地址:http://blog.jobbole.com/102645/ 我们使用spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程。根据你使用的部署模式(deploy-mode)不同,Driver进程可能在本地启动,也可能在集群中某个工作节点上启动。Dr 阅读全文
posted @ 2018-04-04 11:33 _fred 阅读(537) 评论(0) 推荐(0) 编辑
摘要: 1. 避免重复加载RDD 比如一份从HDFS中加载的数据 val rdd1 = sc.textFile("hdfs://url:port/test.txt"),这个test.txt只应该在你的程序中被加载一次,避免多次加载造成的性能开销。 2. 重复使用的RDD需要被缓存 Spark有数据持久化的几 阅读全文
posted @ 2018-04-04 11:11 _fred 阅读(1015) 评论(0) 推荐(0) 编辑