会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
cyl733571
博客园
首页
新随笔
联系
订阅
管理
2022年6月1日
8. SparkSQL综合作业
摘要: 实验123因加入班级博客迟了点没及时提交,实验7暂缓在家忘记提交了,不好意思 1.大数据概述 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 生态系统,顾名思义就是很多组件组成的一个生态链,经过多年的发展,Hadoop生态系统不断完善和成熟,目前已经
阅读全文
posted @ 2022-06-01 09:20 201906120100
阅读(104)
评论(0)
推荐(0)
2022年5月26日
八、SparkSQL综合作业
摘要: 网盘下载sc.txt文件,分别用RDD操作、DataFrame操作和spark.sql执行SQL语句实现以下数据分析: 总共有多少学生? RDD DF SQL 总共开设了多少门课程? RDD DF SQL 每个学生选修了多少门课? RDD DF SQL 每门课程有多少个学生选? RDD DF SQL
阅读全文
posted @ 2022-05-26 06:43 201906120100
阅读(69)
评论(0)
推荐(0)
2022年4月20日
6. RDD综合练习:更丰富的操作
摘要: 一、集合运算练习 union(), intersection(),subtract(), cartesian() 二、内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 多个考勤文件,签到日期汇总,出勤次数统计 三、综
阅读全文
posted @ 2022-04-20 19:01 201906120100
阅读(23)
评论(0)
推荐(0)
2022年4月5日
5.RDD操作实例
摘要: 准备文件,上传到hdfs上 读文件创建RDD 分词 排除大小写,标点符号 统计词频 排序 输出到文件 查看结果 B.一句话实现
阅读全文
posted @ 2022-04-05 20:46 201906120100
阅读(10)
评论(0)
推荐(0)
2022年3月24日
4.RDD操作
摘要: 输入列表 字符串 numpy生成数组 若没有装numpy库,需先执行以下命令再继续操作 sudo apt install python3-pip pip install numpy pip install nose 二、 RDD操作 转换操作 1、map(func) 显式定义函数 lambda函数
阅读全文
posted @ 2022-03-24 20:06 201906120100
阅读(44)
评论(0)
推荐(0)
公告