摘要: 一:实现HA 1-基于zookeeper实现HA 配置spark-env.sh,master节点挂掉以后,会进行恢复操作。 export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zook 阅读全文
posted @ 2019-11-06 18:12 上海小墨子 阅读(820) 评论(0) 推荐(0)
摘要: 前言 spark streaming在2.2.1版本之后出现一个类似的实时计算框架Structured Streaming。 引用一句spark streaming structured streaming区别博客的原话,建议扩展读下:Structured Streaming 通过提供一套 high 阅读全文
posted @ 2019-11-06 15:47 上海小墨子 阅读(330) 评论(0) 推荐(0)
摘要: 一、工作原理剖析 二、性能优化 1、设置Shuffle过程中的并行度:spark.sql.shuffle.partitions(SQLContext.setConf()) 2、在Hive数据仓库建设过程中,合理设置数据类型,比如能设置为INT的,就不要设置为BIGINT。减少数据类型导致的不必要的内 阅读全文
posted @ 2019-11-06 13:45 上海小墨子 阅读(2860) 评论(0) 推荐(0)