04 2022 档案
摘要:1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 因为关系数据库已经很流行,而且关系数据库在大数据时代已经不能满足要求。首先,用户需要从不同数据源执行各种操作,包括结构化、半结构化和非结构化数据。其次,用户需要执行高级分析,比如机器学习和图像处理。在实际大数据应用中,经常需
阅读全文
摘要:集合运算练习 union(), intersection(),subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 数据: 多个考勤文件,签到日期汇总,出勤次数统计 三、综
阅读全文
摘要:一、词频统计 A. 分步骤实现 1.准备文件 1.下载小说或长篇新闻稿 2.上传到hdfs上 2.读文件创建RDD 3.分词 4.排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(), 停用词,可网盘下载stopwords.txt,filter
阅读全文

浙公网安备 33010602011771号