2018 年 4月 4 日随笔档案 - _fred

2018年4月4日

摘要：原文地址：http://blog.jobbole.com/102645/ 我们使用spark-submit提交一个Spark作业之后，这个作业就会启动一个对应的Driver进程。根据你使用的部署模式（deploy-mode）不同，Driver进程可能在本地启动，也可能在集群中某个工作节点上启动。Dr 阅读全文

posted @ 2018-04-04 11:33 _fred 阅读(537) 评论(0) 推荐(0) 编辑

Spark性能优化总结

摘要： 1. 避免重复加载RDD 比如一份从HDFS中加载的数据 val rdd1 = sc.textFile("hdfs://url:port/test.txt")，这个test.txt只应该在你的程序中被加载一次，避免多次加载造成的性能开销。 2. 重复使用的RDD需要被缓存 Spark有数据持久化的几阅读全文

posted @ 2018-04-04 11:11 _fred 阅读(1015) 评论(0) 推荐(0) 编辑

_fred

公告