摘要: 谓词下推就是指将各个条件先应用到对应的数据上,而不是根据写入的顺序执行,这样就可以先过滤掉部分数据,降低join等一系列操作的数据量级,提高运算速度,如下图: 阅读全文
posted @ 2019-03-31 18:10 云山之巅 阅读(1700) 评论(0) 推荐(0)
摘要: 一.Client模式 提交命令: ./spark-submit --master yarn --class org.apache.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.7.3.jar 1000 ./spark-submit --ma 阅读全文
posted @ 2019-03-31 17:48 云山之巅 阅读(1169) 评论(0) 推荐(0)