摘要:
- 初始化配置给rdd和dataframe带来的影响
- repartition的相关说明
- cache&persist的相关说明
- 性能优化的说明建议以及实例 阅读全文
posted @ 2021-10-17 19:50
NLPer_wx
阅读(265)
评论(0)
推荐(0)
本文环境说明 centos服务器 jupyter的scala核spylon-kernel spark-2.4.0 scala-2.11.12 hadoop-2.6.0 本文主要内容 spark读取hive表的数据,主要包括直接sql读取hive表;通过hdfs文件读取hive表,以及hive分区表的 阅读全文