04 2022 档案

摘要:1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 因为关系数据库已经很流行,而且关系数据库在大数据时代已经不能满足要求。首先,用户需要从不同数据源执行各种操作,包括结构化、半结构化和非结构化数据。其次,用户需要执行高级分析,比如机器学习和图像处理。在实际大数据应用中,经常需 阅读全文
posted @ 2022-04-25 21:24 yoke` 阅读(81) 评论(0) 推荐(0)
摘要:集合运算练习 union(), intersection(),subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 数据: 多个考勤文件,签到日期汇总,出勤次数统计 三、综 阅读全文
posted @ 2022-04-19 12:39 yoke` 阅读(49) 评论(0) 推荐(0)
摘要:一、词频统计 A. 分步骤实现 1.准备文件 1.下载小说或长篇新闻稿 2.上传到hdfs上 2.读文件创建RDD 3.分词 4.排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(), 停用词,可网盘下载stopwords.txt,filter 阅读全文
posted @ 2022-04-08 17:34 yoke` 阅读(56) 评论(0) 推荐(0)