摘要: 补交 02 Spark架构与运行流程 和 07 Spark RDD编程 综合实例 英文词频统计 作业 未交原因: 发在随笔上忘记提交了 期末大作业: 1.选择使用什么数据,有哪些字段,多大数据量。 数据集:2020年新冠肺炎疫情数据作为数据集 字段:5个字段,分别是:date,county,stat 阅读全文
posted @ 2021-06-06 22:56 hhhhhh1122 阅读(42) 评论(0) 推荐(0) 编辑
摘要: 补交 02Spark架构与运行流程 和 07 Spark RDD编程 综合实例 英文词频统计 作业 未交原因 发在随笔上忘记提交了 02Spark架构与运行流程 1.为什么要引入Yarn和Spark 1.部署Application和服务更加方便 只需要yarn服务,包括Spark,Storm在内的多 阅读全文
posted @ 2021-06-04 17:10 hhhhhh1122 阅读(74) 评论(0) 推荐(0) 编辑
摘要: 1.为什么要引入Yarn和Spark 1.部署Application和服务更加方便 只需要yarn服务,包括Spark,Storm在内的多种应用程序不要要自带服务,它们经由客户端提交后,由yarn提供的分布式缓存机制分发到各个计算节点上。 2.资源隔离机制 yarn只负责资源的管理和调度,完全由用户 阅读全文
posted @ 2021-06-04 16:56 hhhhhh1122 阅读(47) 评论(0) 推荐(0) 编辑
摘要: 1. 用Pyspark自主实现词频统计过程。 >>> s = txt.lower().split()>>> dd = {}>>> for word in s:... if word not in dd:... dd[word] = 1... else:... dd[word] = dic[word] 阅读全文
posted @ 2021-06-04 16:54 hhhhhh1122 阅读(28) 评论(0) 推荐(0) 编辑
摘要: spark连接mysql数据库 1、安装启动检查Mysql服务。 netstat -tunlp (3306) 2、spark 连接mysql驱动程序。 –cp /usr/local/hive/lib/mysql-connector-java-5.1.40-bin.jar /usr/local/spa 阅读全文
posted @ 2021-05-30 22:11 hhhhhh1122 阅读(19) 评论(0) 推荐(0) 编辑
摘要: 用DataFrame的操作或SQL语句完成以下数据分析要求,并和用RDD操作的实现进行对比: 每个分数+5分。 总共有多少学生? 总共开设了哪些课程 每个学生选修了多少门课? 每门课程有多少个学生选? 每门课程大于95分的学生人数? Tom选修了几门课?每门课多少分? Tom的成绩按分数大小排序。 阅读全文
posted @ 2021-05-24 11:33 hhhhhh1122 阅读(31) 评论(0) 推荐(0) 编辑
摘要: 0.前次作业:从文件创建DataFrame 1.pandas df 与 spark df的相互转换 df_s=spark.createDataFrame(df_p) df_p=df_s.toPandas() 答:(1)代码: (2)运行结果: 2. Spark与Pandas中DataFrame对比 阅读全文
posted @ 2021-05-13 22:06 hhhhhh1122 阅读(38) 评论(0) 推荐(0) 编辑
摘要: 1.Spark SQL的前身是 Shark,Shark最初是美国加州大学伯克利分校的实验室开发的Spark生态系统的组件之一,它运行在Spark系统之上,Shark重用了Hive的工作机制,并直接继承了Hive的各个组件, Shark将SQL语句的转换从MapReduce作业替换成了Spark作业, 阅读全文
posted @ 2021-05-09 22:13 hhhhhh1122 阅读(118) 评论(0) 推荐(0) 编辑
摘要: 1. 用Pyspark自主实现词频统计过程。 >>> s = txt.lower().split()>>> dd = {}>>> for word in s:... if word not in dd:... dd[word] = 1... else:... dd[word] = dic[word] 阅读全文
posted @ 2021-04-22 22:13 hhhhhh1122 阅读(89) 评论(0) 推荐(0) 编辑
摘要: 总共有多少学生?map(), distinct(), count() 开设了多少门课程? 每个学生选修了多少门课?map().countByValue() //map(), countByKey() 每门课程有多少个学生选?map(), countByValue() Tom选修了几门课?每门课多少分 阅读全文
posted @ 2021-04-16 17:24 hhhhhh1122 阅读(38) 评论(0) 推荐(0) 编辑