摘要: ## 综合练习:学生课程分数 网盘下载sc.txt文件,创建RDD,并转换得到DataFrame。 分别用**RDD操作**、**DataFrame操作**和**spark.sql执行SQL语句**实现以下数据分析: ## 预处理 (1)RDD:生成RDD ```shellsc_stu = sc.t 阅读全文
posted @ 2022-06-07 20:47 一晚上两本寒假作业 阅读(56) 评论(0) 推荐(0) 编辑
摘要: 1.请分析sparkSQL出现的原因,并简述SparkSQL的起源和发展 1.1 出现的原因# 1.关系数据库已经很流行 2.关系数据库在大数据时代已经不能满足要求•首先,用户需要从不同数据源执行各种操作,包括结构化、半结构化和非结构化数据。其次,用户需要执行高级分析,比如机器学习和图像处理•在实际 阅读全文
posted @ 2022-05-11 10:49 一晚上两本寒假作业 阅读(12) 评论(0) 推荐(0) 编辑
摘要: 集合运算练习 union(), intersection(),subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 多个考勤文件,签到日期汇总,出勤次数统计 三、综合练习: 阅读全文
posted @ 2022-04-14 18:07 一晚上两本寒假作业 阅读(39) 评论(0) 推荐(0) 编辑
摘要: 一、词频统计 A. 分步骤实现 1.准备文件 (1)下载小说或长篇新闻稿 (2)上传到hdfs上 2.读文件创建RDD 3.分词 4. ·排除大小写lower(),map() ·标点符号re.split(pattern,str),flatMap(), ·停用词,可网盘下载stopwords.txt, 阅读全文
posted @ 2022-04-07 17:11 一晚上两本寒假作业 阅读(13) 评论(0) 推荐(0) 编辑
摘要: 一、RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 启动hdfs 上传文件 查看文件 加载 停止hdfs 3.通过并行集合(列表)创建RDD 输入列表 字符串 numpy生成数组 二、RDD操作 转换操作 1.map(func) 显式定义函数 lambda函数 阅读全文
posted @ 2022-03-29 19:26 一晚上两本寒假作业 阅读(7) 评论(0) 推荐(0) 编辑
摘要: 一、请用图文阐述Spark生态系统的组成及各组件的功能。 Spark的生态系统主要包含了Spark Core、Spark SQL、Spark Streaming、Structured Streaming、MLlib和GraphX等组件。 图1-1 Spark生态系统的组成及各组件 各个组件的具体功能 阅读全文
posted @ 2022-03-15 19:06 一晚上两本寒假作业 阅读(72) 评论(0) 推荐(0) 编辑
摘要: 一、安装并配置Spark 1.首先检查一下java和hadoop的环 2.下载spark 3.解压spark安装包,对文件夹重命名,复制配置文件 4.对配置文件进行修改 3.配置好环境变量之后,进行 source ~/.bashrc 5.配置好环境之后就可以启动spark了, 6.输入python代 阅读全文
posted @ 2022-03-08 00:25 一晚上两本寒假作业 阅读(29) 评论(0) 推荐(0) 编辑
摘要: 一、列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述 1.HDFS(分布式文件系统) HDFS是hadoop体系中数据存储管理的基础。它是 Hadoop 技术体系中的核心基石,负责分布式存储数据,你可以把它理解为一个分布式的文件系统。此文件系统的主要特征是数 阅读全文
posted @ 2022-03-02 14:52 一晚上两本寒假作业 阅读(35) 评论(0) 推荐(0) 编辑
摘要: 2.Hadoop与Spark之间的比较 Hadoop框架的主要模块包括如下: Hadoop Common Hadoop分布式文件系统(HDFS) Hadoop YARN Hadoop MapReduce 虽然上述四个模块构成了Hadoop的核心,不过还有其他几个模块。这些模块包括:Ambari、Av 阅读全文
posted @ 2022-03-02 14:49 一晚上两本寒假作业 阅读(31) 评论(0) 推荐(0) 编辑
摘要: 一、列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述 1.HDFS(分布式文件系统) HDFS是hadoop体系中数据存储管理的基础。它是 Hadoop 技术体系中的核心基石,负责分布式存储数据,你可以把它理解为一个分布式的文件系统。此文件系统的主要特征是数 阅读全文
posted @ 2022-02-28 18:07 一晚上两本寒假作业 阅读(47) 评论(0) 推荐(0) 编辑