摘要: 实验123因加入班级博客迟了点没及时提交,实验7暂缓在家忘记提交了,不好意思 1.大数据概述 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 生态系统,顾名思义就是很多组件组成的一个生态链,经过多年的发展,Hadoop生态系统不断完善和成熟,目前已经 阅读全文
posted @ 2022-06-01 09:20 201906120100 阅读(104) 评论(0) 推荐(0)
摘要: 网盘下载sc.txt文件,分别用RDD操作、DataFrame操作和spark.sql执行SQL语句实现以下数据分析: 总共有多少学生? RDD DF SQL 总共开设了多少门课程? RDD DF SQL 每个学生选修了多少门课? RDD DF SQL 每门课程有多少个学生选? RDD DF SQL 阅读全文
posted @ 2022-05-26 06:43 201906120100 阅读(69) 评论(0) 推荐(0)
摘要: 一、集合运算练习 union(), intersection(),subtract(), cartesian() 二、内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 多个考勤文件,签到日期汇总,出勤次数统计 三、综 阅读全文
posted @ 2022-04-20 19:01 201906120100 阅读(23) 评论(0) 推荐(0)
摘要: 准备文件,上传到hdfs上 读文件创建RDD 分词 排除大小写,标点符号 统计词频 排序 输出到文件 查看结果 B.一句话实现 阅读全文
posted @ 2022-04-05 20:46 201906120100 阅读(10) 评论(0) 推荐(0)
摘要: 输入列表 字符串 numpy生成数组 若没有装numpy库,需先执行以下命令再继续操作 sudo apt install python3-pip pip install numpy pip install nose 二、 RDD操作 转换操作 1、map(func) 显式定义函数 lambda函数 阅读全文
posted @ 2022-03-24 20:06 201906120100 阅读(44) 评论(0) 推荐(0)