摘要:
补交 02 Spark架构与运行流程 和 07 Spark RDD编程 综合实例 英文词频统计 作业 未交原因: 发在随笔上忘记提交了 期末大作业: 1.选择使用什么数据,有哪些字段,多大数据量。 数据集:2020年新冠肺炎疫情数据作为数据集 字段:5个字段,分别是:date,county,stat 阅读全文
摘要:
补交 02Spark架构与运行流程 和 07 Spark RDD编程 综合实例 英文词频统计 作业 未交原因 发在随笔上忘记提交了 02Spark架构与运行流程 1.为什么要引入Yarn和Spark 1.部署Application和服务更加方便 只需要yarn服务,包括Spark,Storm在内的多 阅读全文
摘要:
1.为什么要引入Yarn和Spark 1.部署Application和服务更加方便 只需要yarn服务,包括Spark,Storm在内的多种应用程序不要要自带服务,它们经由客户端提交后,由yarn提供的分布式缓存机制分发到各个计算节点上。 2.资源隔离机制 yarn只负责资源的管理和调度,完全由用户 阅读全文
摘要:
1. 用Pyspark自主实现词频统计过程。 >>> s = txt.lower().split()>>> dd = {}>>> for word in s:... if word not in dd:... dd[word] = 1... else:... dd[word] = dic[word] 阅读全文