摘要:
网盘下载sc.txt文件,分别用RDD操作、DataFrame操作和spark.sql执行SQL语句实现以下数据分析: 0. 创建RDD,并转换为DataFrame;scm持久化;创建spark.sql临时表等预处理: 总共有多少学生? RDD: DataFrame: spark.sql: 总共开设 阅读全文
摘要:
1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 ->SparkSQL的前身Shark对于Hive的太多依赖(如采用Hive的语法解析器、查询优化器等等),制约了Spark的One Stack Rule Them All的既定方针,制约了Spark各个组件的相互集成,所以提出 阅读全文
摘要:
三、学生课程分数 持久化 scm.cache() 总共有多少学生?map(), distinct(), count() 开设了多少门课程? 每个学生选修了多少门课?map(), countByKey() 每门课程有多少个学生选?map(), countByValue() 多少个100分? Tom选修 阅读全文
摘要:
一、词频统计 A.分步骤实现 1.准备文件 ->查看文件 ->上传到hdfs 2.读文件创建RDD 3.分词 4.清洗数据 ->处理标点 ->排除大小写 ->导入停用词文件并且应用于数据中进行过滤 处理前后对比: ->去除长度小于2的词 5.统计词频 ->先将单词转换成键值对,再将key相同的val 阅读全文
摘要:
一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 3.通过并行集合(列表)创建RDD 二、 RDD操作 1.filter(func) lambda函数 显式定义函数 2.map(func) a-> lambda函数 显式定义函数 b-> lambda函数 显 阅读全文
摘要:
1.Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 Spark的生态系统主要包含如下: Spark Core:Spark Core包含Spark最基础和最核心的功能,如内存计算、任务调度、部署模式、故障恢复、存储管理等,主要面向批数据处 阅读全文
摘要:
一、安装Spark 验证截图: (Spark运行成功) (基本操作以及简单运算) 二、Python编程练习:英文文本的词频统计 源码: path='/home/hadoop/wc/f1.txt' with open(path) as f: #text read and down text=f.rea 阅读全文
摘要:
1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 Hadoop是一个能处理大量数据的分布式软件框架,使用高效,稳定可靠。 Hadoop 的核心是 HDFS 和 Mapreduce,其中HDFS中包含了YARN。 1,HDFS(hadoop分布式文件系统 阅读全文