随笔分类 - spark
摘要:·1. 以序列化形式存储RDD 广播变量允许程序员在每台机器上保留一个只读变量
阅读全文
摘要:spark-submit --class com.bmac.util.TradeSuccesssRateStart \ --master yarn \ --deploy-mode cluster \ --driver-memory 650m \ --num-executors 1 \ --execu
阅读全文
摘要:checkpoint的作用就是将DAG中比较重要的中间数据做一个检查点将结果存储到一个高可用的地方(通常这个地方就是HDFS里面)
阅读全文
摘要:使用Maven构建Spark需要Maven 3.3.3或更高版本以及Java 7+ Spark仅支持YARN 2.2.0及更高版本。 默认情况下,Spark将使用Hive 0.13.1绑定进行构建。 要生成使用Scala 2.11编译的Spark包
阅读全文
摘要:1. spark 1.x 升级到spark 2.x 对于普通的spark来说,变动不大 : 1 举一个最简单的实例: spark1.x public static JavaRDD workJob(JavaRDD spark1Rdd) { JavaPairRDD testRdd = spark1Rdd .flatMapToPair(new Pai...
阅读全文

浙公网安备 33010602011771号