摘要: 综合练习:学生课程分数 网盘下载sc.txt文件,分别用RDD操作、DataFrame操作和spark.sql执行SQL语句实现以下数据分析: 创建RDD RDD转换DataFrame 1. 总共有多少学生? 2. 总共开设了多少门课程? 3. 每个学生选修了多少门课? 4. 每门课程有多少个学生选 阅读全文
posted @ 2022-05-27 12:20 *啥也不是* 阅读(56) 评论(0) 推荐(0) 编辑
摘要: 1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 SparkSQL的前身是Shark,是给MapReduce的技术人员提供快速上手的工具。Hive是基于Hadoop之上的一个开源的工具,它提供的就是类似于SQL的一种HQL语言,它的好处就是可以直接把你的SQL语句转换成Map 阅读全文
posted @ 2022-04-30 00:31 *啥也不是* 阅读(159) 评论(0) 推荐(1) 编辑
摘要: 1.集合运算练习 RDD转换操作 --union():并集 --intersection():交集 --subtract():差集 --cartesian():笛卡尔积 2.内连接与外连接 键值对RDD的内连接与外连接 --join():内连接 --leftOuterJoin():左外连接 --ri 阅读全文
posted @ 2022-04-07 00:26 *啥也不是* 阅读(57) 评论(0) 推荐(0) 编辑
摘要: welcome to 肥怡滴blog~~ 1、词频统计 A. 分步骤实现 1.准备文件 下载小说或长篇新闻稿 上传到hdfs上 2.读文件创建RDD 3.分词 4.标点符号[re.split(pattern,str),flatMap()] # 导入正则表达式re库,使用re.split分词 # 再次 阅读全文
posted @ 2022-04-01 00:16 *啥也不是* 阅读(77) 评论(2) 推荐(1) 编辑
摘要: 1. RDD创建 从本地文件系统中加载数据创建RDD 图1.1 查看文本信息 图1.2 本地文件加载数据 从HDFS加载数据创建RDD # 启动HDFS start-all.sh # 查看HDFS文件 hdfs dfs -ls 查看的文件目录 图2.1 启动HDFS # 上传文件到HDFS hdfs 阅读全文
posted @ 2022-03-17 16:41 *啥也不是* 阅读(63) 评论(0) 推荐(0) 编辑
摘要: 1.Spark生态系统 题目1.Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 答: Spark生态圈以Spark Core为核心,从HDFS、Hive、HBase和Hadoop等s数据源读取数据,以MESOS、YARN和自身携带的St 阅读全文
posted @ 2022-03-09 22:53 *啥也不是* 阅读(572) 评论(0) 推荐(0) 编辑
摘要: 1.安装Spark 检查基础环境hadoop,jdk 图1 hadoop,jdk环境 配置文件 vim /usr/local/spark/conf/spark-env.sh 图2 spark配置文件 环境变量 # 修改环境变量 vim ~/.bashrc # 加载修改后的设置,使之生效 source 阅读全文
posted @ 2022-03-03 15:55 *啥也不是* 阅读(85) 评论(0) 推荐(1) 编辑
摘要: 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 答:Hadoop生态图如下: Hadoop生态图中包含很多组件,包含HDFS【分布式存储系统】、YARN【资源调度】、MapReduce【任务计算】等。 HDFS【分布式存储系统】,是Hadoop体系中 阅读全文
posted @ 2022-02-24 22:29 *啥也不是* 阅读(414) 评论(0) 推荐(0) 编辑