Menway - 博客园

2022年6月6日

摘要：未交原因：忘记了时间，错过了第六次集合运算练习内连接与外连接网盘下载sc.txt文件，通过RDD操作实现以下数据分析: 持久化总共有多少学生？开设了多少门课程？每个学生选修了多少门课？每门课程有多少个学生选？有多少个100分？ Tom选修了几门课？每门课多少分？ Tom选修了几门课阅读全文

posted @ 2022-06-06 18:53 Menway 阅读(37) 评论(0) 推荐(0)

2022年4月23日

第六、七次作业

摘要：第六次集合运算练习内连接与外连接网盘下载sc.txt文件，通过RDD操作实现以下数据分析: 持久化总共有多少学生？开设了多少门课程？每个学生选修了多少门课？每门课程有多少个学生选？有多少个100分？ Tom选修了几门课？每门课多少分？ Tom选修了几门课？每门课多少分？第七次 1. 阅读全文

posted @ 2022-04-23 15:13 Menway 阅读(44) 评论(0) 推荐(0)

2022年4月7日

第五次作业

摘要： 1.准备文件上传到hdfs上 2.读文件创建RDD 3.分词 4.排除大小写 5.停用词,可网盘下载stopwords.txt,filter()，长度小于2的词filter() 5.统计词频 6.按词频排序 7.输出并查看文件二、求top值 1.丢弃不合规范的行：（1）空行（2）数据不完整阅读全文

posted @ 2022-04-07 16:26 Menway 阅读(14) 评论(0) 推荐(0)

2022年3月21日

第四次作业

摘要： 1.从本地文件系统中加载数据创建RDD 从HDFS加载数据创建RDD 通过并行集合（列表）创建RDD 转换操作行动操作 6.分词 7.单词映射成键值对阅读全文

posted @ 2022-03-21 21:15 Menway 阅读(15) 评论(0) 推荐(0)

2022年3月13日

第三次作业

摘要： 1.Spark已打造出结构一体化、功能多样化的大数据生态系统，请用图文阐述Spark生态系统的组成及各组件的功能。（1）Spark Core：Spark核心组件，它实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集( 阅读全文

posted @ 2022-03-13 12:26 Menway 阅读(84) 评论(0) 推荐(0)

2022年3月6日

第二次作业

摘要：一、安装Spark 二、Python编程练习：英文文本的词频统计 def gettext(): txt = open("wenben.txt","r",errors='ignore').read() txt = txt.lower() for ch in '!"#$&()*+,-./:;<=>?@[ 阅读全文

posted @ 2022-03-06 12:23 Menway 阅读(48) 评论(0) 推荐(0)

2022年2月24日

第一次作业

摘要： 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。（1）HDFS（分布式文件系统）HDFS是整个hadoop体系的基础，负责数据的存储与管理。HDFS有着高容错性的特点，并且设计用来部署在低廉的硬件上。而且它提供高吞吐量来访问应用程序的数据，适合那些有阅读全文

posted @ 2022-02-24 15:38 Menway 阅读(59) 评论(0) 推荐(0)

软工1904曹祁

公告