摘要: 一、Spark SQL的特点 1、支持多种数据源:Hive、RDD、Parquet、JSON、JDBC等。2、多种性能优化技术:in-memory columnar storage、byte-code generation、cost model动态评估等。3、组件扩展性:对于SQL的语法解析器、分析 阅读全文
posted @ 2018-08-22 17:23 南边雪 阅读(298) 评论(0) 推荐(0) 编辑
摘要: DAGScheduler stage 划分算法 stage划分算法很重要,对于spark开发人员来说,必须对stage划分算法很清晰,知道自己编写的spark Application被划分成了几个job,每个job被划分成了几个stage,每个stage包括哪些代码,这样当发现哪个stage报错或者 阅读全文
posted @ 2018-08-22 15:03 南边雪 阅读(648) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2018-08-22 12:24 南边雪 阅读(144) 评论(0) 推荐(0) 编辑