摘要: 未交原因:忘记了时间,错过了 第六次 集合运算练习 内连接与外连接 网盘下载sc.txt文件,通过RDD操作实现以下数据分析: 持久化 总共有多少学生? 开设了多少门课程? 每个学生选修了多少门课? 每门课程有多少个学生选? 有多少个100分? Tom选修了几门课?每门课多少分? Tom选修了几门课 阅读全文
posted @ 2022-06-06 18:53 Menway 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 第六次 集合运算练习 内连接与外连接 网盘下载sc.txt文件,通过RDD操作实现以下数据分析: 持久化 总共有多少学生? 开设了多少门课程? 每个学生选修了多少门课? 每门课程有多少个学生选? 有多少个100分? Tom选修了几门课?每门课多少分? Tom选修了几门课?每门课多少分? 第七次 1. 阅读全文
posted @ 2022-04-23 15:13 Menway 阅读(24) 评论(0) 推荐(0) 编辑
摘要: 1.准备文件 上传到hdfs上 2.读文件创建RDD 3.分词 4.排除大小写 5.停用词,可网盘下载stopwords.txt,filter(), 长度小于2的词filter() 5.统计词频 6.按词频排序 7.输出并查看文件 二、求top值 1.丢弃不合规范的行: (1)空行 (2)数据不完整 阅读全文
posted @ 2022-04-07 16:26 Menway 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 1.从本地文件系统中加载数据创建RDD 从HDFS加载数据创建RDD 通过并行集合(列表)创建RDD 转换操作 行动操作 6.分词 7.单词映射成键值对 阅读全文
posted @ 2022-03-21 21:15 Menway 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 1.Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 (1)Spark Core:Spark核心组件,它实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集( 阅读全文
posted @ 2022-03-13 12:26 Menway 阅读(39) 评论(0) 推荐(0) 编辑
摘要: 一、安装Spark 二、Python编程练习:英文文本的词频统计 def gettext(): txt = open("wenben.txt","r",errors='ignore').read() txt = txt.lower() for ch in '!"#$&()*+,-./:;<=>?@[ 阅读全文
posted @ 2022-03-06 12:23 Menway 阅读(32) 评论(0) 推荐(0) 编辑
摘要: 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 (1)HDFS(分布式文件系统)HDFS是整个hadoop体系的基础,负责数据的存储与管理。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高吞吐量来访问应用程序的数据,适合那些有 阅读全文
posted @ 2022-02-24 15:38 Menway 阅读(34) 评论(0) 推荐(0) 编辑