摘要: 总共有多少学生? RDD DataFrame Spark.Sql 总共开设了多少门课程? RDD DataFrame Spark.Sql 每个学生选修了多少门课? RDD DataFrame Spark.Sql 每门课程有多少个学生选? RDD DataFrame Spark.Sql 每门课程>95 阅读全文
posted @ 2022-05-31 09:25 fdmlqy 阅读(91) 评论(0) 推荐(0) 编辑
摘要: 1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 随着 Spark 的不断发展, Shark 对 Hive 的重度依赖体现在架构上的瓶颈越来越突出。一方面, Hive 的语法解析和查询优化等模块本身针对的是 MapReduce ,限制了在 Spark 系统上的深度优化和维护 阅读全文
posted @ 2022-05-11 19:07 fdmlqy 阅读(33) 评论(0) 推荐(0) 编辑
摘要: 集合运算练习 union(), intersection(),subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 多个考勤文件,签到日期汇总,出勤次数统计 三、综合练习: 阅读全文
posted @ 2022-04-19 14:48 fdmlqy 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 作业a 准备文件 下载小说或长篇新闻稿 上传到hdfs上 读文件创建RDD 分词 排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(),停用词,可网盘下载stopwords.txt,filter(), 长度小于2的词filter() 统计词频 阅读全文
posted @ 2022-04-07 22:14 fdmlqy 阅读(33) 评论(0) 推荐(0) 编辑
摘要: RDD创建 1.SparkContext的创建 2.传入lambda函数 3.lambda函数 显示函数 显示定义函数 实例2 lambda函数 显示定义函数 将数据集中的每个元素进行输出 将数据集中的每个元素传递到lambda函数中运行 以数组的形式返回数据集中的所有元素 返回数据集中 的元素个数 阅读全文
posted @ 2022-03-18 20:21 fdmlqy 阅读(36) 评论(0) 推荐(0) 编辑
摘要: 1.Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 目前,Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分析引擎,它是基于内存计算的大数据并行计算框架,适用于各种各样的分布式平台系统。在Spark生态圈中包含了Spark 阅读全文
posted @ 2022-03-12 21:32 fdmlqy 阅读(52) 评论(0) 推荐(0) 编辑
摘要: 一、安装Spark 检查基础环境hadoop,jdk 下载spark 解压,文件夹重命名、权限 配置文件 2. 环境变量 试运行Python代码 二、Python编程练习:英文文本的词频统计 准备文本文件 读文件 预处理:大小写,标点符号,停用词 分词 统计每个单词出现的次数 按词频大小排序 结果写 阅读全文
posted @ 2022-03-06 20:02 fdmlqy 阅读(32) 评论(0) 推荐(0) 编辑
摘要: 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 1.Hadoop分布式文件系统HDFS是针对谷歌分布式文件系统的开源实现,它是Hadoop两大核心组成部分之一,提供了在廉价服务器集群中进行大规模分布式文件存储的能力。 2.MapReduce 是一种分 阅读全文
posted @ 2022-02-26 23:40 fdmlqy 阅读(49) 评论(0) 推荐(0) 编辑