摘要: Spark学习 简述总结 引言 1 Hadoop 和 Spark 的关系 Spark 系统架构 1 spark 运行原理 RDD 初识 shuffle 和 stage 性能优化 1 缓存机制和 cache 的意义 2 shuffle 的优化 3 资源参数调优 4 小结 本地搭建 Spark 开发环境 阅读全文
posted @ 2017-06-01 20:55 XGogo 阅读(409) 评论(0) 推荐(0)
摘要: 在分布式计算中,为了提高计算速度,数据本地性是其中重要的一环。 不过有时候它同样也会带来一些问题。 一.问题描述 在分布式计算中,大多数情况下要做到移动计算而非移动数据,所以数据本地性尤其重要,因此我们往往也是将hdfs和spark部署在相同的节点上,有些人可能会发现即使他已经这么做了,在spark 阅读全文
posted @ 2017-06-01 17:40 XGogo 阅读(379) 评论(0) 推荐(0)