摘要: 综合练习:学生课程分数 网盘下载sc.txt文件,分别创建RDD、DataFrame和临时表/视图; 分别用RDD操作、DataFrame操作和spark.sql执行SQL语句实现以下数据分析: 总共有多少学生? 总共开设了多少门课程? 每个学生选修了多少门课? 每门课程有多少个学生选? 每门课程> 阅读全文
posted @ 2022-05-27 20:38 Eudemonia⁰ 阅读(43) 评论(0) 推荐(0)
摘要: 1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展 SparkSQL出现的原因 Spark SQL 抛弃原有 Spark 的架构方式,但汲取了 Spark 的一些优点,如内存列存储( In-Memory Columnar Storage )、 Hive 兼容性等,重新开发了 SQ 阅读全文
posted @ 2022-05-11 17:51 Eudemonia⁰ 阅读(87) 评论(0) 推荐(0)
摘要: 持久化 scm.cache() 总共有多少学生?map(), distinct(), count() 开设了多少门课程? 生成(姓名,课程分数)键值对RDD,观察keys(),values() 每个学生选修了多少门课?map(), countByKey() 每门课程有多少个学生选?map(), co 阅读全文
posted @ 2022-04-20 18:17 Eudemonia⁰ 阅读(18) 评论(0) 推荐(0)
摘要: 一、词频统计 A:分步骤实现 1.准备文件 下载小说或长篇新闻稿 上传到hdfs上 2.读文件创建RDD 3.分词 4.排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap() 停用词,可网盘下载stopwords.txt,filter() 长度小 阅读全文
posted @ 2022-04-07 21:37 Eudemonia⁰ 阅读(35) 评论(0) 推荐(0)
摘要: 一、 RDD创建 1、从本地文件系统中加载数据创建RDD 2、从HDFS加载数据创建RDD 启动hdfs 上传文件 查看文件 停止hdfs 3、通过并行集合(列表)创建RDD 输入列表 字符串 numpy生成数组 二、 RDD操作 转换操作 1.转换操作 1.filter(func) 显式定义函数 阅读全文
posted @ 2022-03-27 21:13 Eudemonia⁰ 阅读(162) 评论(0) 推荐(0)
摘要: 1、图文阐述Spark生态系统的组成及各组件的功能。 1.1、Spark Core: Spark核心组件,它实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed Dataset 阅读全文
posted @ 2022-03-13 21:58 Eudemonia⁰ 阅读(37) 评论(0) 推荐(0)
摘要: 1、检查基础环境hadoop,jdk 2、下载spark(省略,原来已下好Spark) 3、解压,文件夹重命名、权限(省略,原来已下好Spark) 4、配置文件 5、环境变量 6、试运行Python代码 二、Python编程练习:英文文本的词频统计 1、准备文本文件 2、读文件 path='/hom 阅读全文
posted @ 2022-03-06 22:21 Eudemonia⁰ 阅读(45) 评论(0) 推荐(0)
摘要: 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 (1)HDFS(分布式文件系统) HDFS是整个hadoop体系的基础,负责数据的存储与管理。HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件 阅读全文
posted @ 2022-02-28 15:48 Eudemonia⁰ 阅读(72) 评论(0) 推荐(0)