随笔分类 -  Spark

Spark学习
摘要:Master应该就是管理资源分配的节点模式设定 首先说明一下Spark作业的部署模式。部署Spark的计算框架,有多种方式,可以部署到一台计算机,也可以是多台(cluster)。计算机越多,则集群规模越大,我们的计算力就越强。 一.local模式 local模式即本地化模式,即单台计算机模式,它可以 阅读全文
posted @ 2020-03-23 10:01 NirvanaInFire 阅读(681) 评论(0) 推荐(0)
摘要:如何安装Spark和Pyspark构建Spark学习环境【MacOs】 JDK环境 Python环境 Spark引擎 下载地址: "Apache Spark官网" MacOs下一般安装在 /usr/local (也可以安装在别的地方,不管安装在哪, 最终都要指定环境变量) pyspark端 法一 : 阅读全文
posted @ 2019-10-13 22:37 NirvanaInFire 阅读(3931) 评论(0) 推荐(0)
摘要:hive优化 一.小文件简述 1.1. HDFS上什么是小文件? HDFS存储文件时的最小单元叫做Block,Hadoop1.x时期Block大小为64MB,Hadoop2.x时期Block大小为128MB。(在hadoop部署下可以通过dfs.block.size进行设置) 小文件就是指,在HDF 阅读全文
posted @ 2019-10-13 10:53 NirvanaInFire 阅读(605) 评论(0) 推荐(0)