摘要: 网盘下载sc.txt文件,分别用RDD操作、DataFrame操作和spark.sql执行SQL语句实现以下数据分析: 0. 创建RDD,并转换为DataFrame;scm持久化;创建spark.sql临时表等预处理: 总共有多少学生? RDD: DataFrame: spark.sql: 总共开设 阅读全文
posted @ 2022-05-18 09:01 甜包。 阅读(119) 评论(0) 推荐(0) 编辑
摘要: 1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 ->SparkSQL的前身Shark对于Hive的太多依赖(如采用Hive的语法解析器、查询优化器等等),制约了Spark的One Stack Rule Them All的既定方针,制约了Spark各个组件的相互集成,所以提出 阅读全文
posted @ 2022-04-27 09:25 甜包。 阅读(63) 评论(0) 推荐(0) 编辑
摘要: 三、学生课程分数 持久化 scm.cache() 总共有多少学生?map(), distinct(), count() 开设了多少门课程? 每个学生选修了多少门课?map(), countByKey() 每门课程有多少个学生选?map(), countByValue() 多少个100分? Tom选修 阅读全文
posted @ 2022-04-06 11:29 甜包。 阅读(21) 评论(0) 推荐(0) 编辑
摘要: 一、词频统计 A.分步骤实现 1.准备文件 ->查看文件 ->上传到hdfs 2.读文件创建RDD 3.分词 4.清洗数据 ->处理标点 ->排除大小写 ->导入停用词文件并且应用于数据中进行过滤 处理前后对比: ->去除长度小于2的词 5.统计词频 ->先将单词转换成键值对,再将key相同的val 阅读全文
posted @ 2022-03-30 09:38 甜包。 阅读(18) 评论(0) 推荐(0) 编辑
摘要: 一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 3.通过并行集合(列表)创建RDD 二、 RDD操作 1.filter(func) lambda函数 显式定义函数 2.map(func) a-> lambda函数 显式定义函数 b-> lambda函数 显 阅读全文
posted @ 2022-03-16 09:38 甜包。 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 1.Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 Spark的生态系统主要包含如下: Spark Core:Spark Core包含Spark最基础和最核心的功能,如内存计算、任务调度、部署模式、故障恢复、存储管理等,主要面向批数据处 阅读全文
posted @ 2022-03-09 10:35 甜包。 阅读(33) 评论(0) 推荐(0) 编辑
摘要: 一、安装Spark 验证截图: (Spark运行成功) (基本操作以及简单运算) 二、Python编程练习:英文文本的词频统计 源码: path='/home/hadoop/wc/f1.txt' with open(path) as f: #text read and down text=f.rea 阅读全文
posted @ 2022-03-02 10:53 甜包。 阅读(31) 评论(0) 推荐(0) 编辑
摘要: 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 Hadoop是一个能处理大量数据的分布式软件框架,使用高效,稳定可靠。 Hadoop 的核心是 HDFS 和 Mapreduce,其中HDFS中包含了YARN。 1,HDFS(hadoop分布式文件系统 阅读全文
posted @ 2022-02-23 11:14 甜包。 阅读(17) 评论(0) 推荐(0) 编辑