随笔分类 -  spark

摘要:·1. 以序列化形式存储RDD 广播变量允许程序员在每台机器上保留一个只读变量 阅读全文
posted @ 2019-01-07 18:10 uuhh 阅读(129) 评论(0) 推荐(0)
摘要:spark-submit --class com.bmac.util.TradeSuccesssRateStart \ --master yarn \ --deploy-mode cluster \ --driver-memory 650m \ --num-executors 1 \ --execu 阅读全文
posted @ 2018-12-28 09:49 uuhh 阅读(144) 评论(0) 推荐(0)
摘要:checkpoint的作用就是将DAG中比较重要的中间数据做一个检查点将结果存储到一个高可用的地方(通常这个地方就是HDFS里面) 阅读全文
posted @ 2018-12-03 16:54 uuhh 阅读(1091) 评论(0) 推荐(0)
摘要:使用Maven构建Spark需要Maven 3.3.3或更高版本以及Java 7+ Spark仅支持YARN 2.2.0及更高版本。 默认情况下,Spark将使用Hive 0.13.1绑定进行构建。 要生成使用Scala 2.11编译的Spark包 阅读全文
posted @ 2018-11-28 21:08 uuhh 阅读(468) 评论(1) 推荐(0)
摘要:1. spark 1.x 升级到spark 2.x 对于普通的spark来说,变动不大 : 1 举一个最简单的实例: spark1.x public static JavaRDD workJob(JavaRDD spark1Rdd) { JavaPairRDD testRdd = spark1Rdd .flatMapToPair(new Pai... 阅读全文
posted @ 2018-11-19 12:43 uuhh 阅读(912) 评论(0) 推荐(0)