2019 年 11月 6 日随笔档案 - 上海小墨子

2019年11月6日

摘要：一：实现HA 1-基于zookeeper实现HA 配置spark-env.sh，master节点挂掉以后，会进行恢复操作。 export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zook 阅读全文

posted @ 2019-11-06 18:12 上海小墨子阅读(822) 评论(0) 推荐(0)

spark streaming基础

摘要：前言 spark streaming在2.2.1版本之后出现一个类似的实时计算框架Structured Streaming。引用一句spark streaming structured streaming区别博客的原话，建议扩展读下：Structured Streaming 通过提供一套 high 阅读全文

posted @ 2019-11-06 15:47 上海小墨子阅读(334) 评论(0) 推荐(0)

spark sql工作原理、性能优化和spark on hive----转载

摘要：一、工作原理剖析二、性能优化 1、设置Shuffle过程中的并行度：spark.sql.shuffle.partitions(SQLContext.setConf()) 2、在Hive数据仓库建设过程中，合理设置数据类型，比如能设置为INT的，就不要设置为BIGINT。减少数据类型导致的不必要的内阅读全文

posted @ 2019-11-06 13:45 上海小墨子阅读(2865) 评论(0) 推荐(0)

上海小墨子

公告