摘要: 综合练习 一、DataFrame操作 1.创建RDD,并转换得到DataFrame > 生成表头 fields = [StructField('name',StringType(),True),StructField('course',StringType(),True),StructField(' 阅读全文
posted @ 2022-05-25 11:54 牛蛙点点 阅读(193) 评论(0) 推荐(0) 编辑
摘要: 1.请分析sparkSQL出现的原因,并简述SparkSQL的起源和发展 1.1 出现的原因 1.关系数据库已经很流行 2.关系数据库在大数据时代已经不能满足要求•首先,用户需要从不同数据源执行各种操作,包括结构化、半结构化和非结构化数据。其次,用户需要执行高级分析,比如机器学习和图像处理•在实际大 阅读全文
posted @ 2022-05-11 15:46 牛蛙点点 阅读(57) 评论(0) 推荐(0) 编辑
摘要: 集合运算练习 union(), intersection(),subtract(), cartesian() 操作 内连接和外连接 : join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 出勤情况统计 三、综合练习:学生课程分数 ## 阅读全文
posted @ 2022-04-13 15:28 牛蛙点点 阅读(92) 评论(0) 推荐(0) 编辑
摘要: 一、词频统计 A.分步骤实现 1.准备文件 下载小说或者长篇新闻稿 上传到hdfs上 hdfs dfs -put /usr/local/pythonspace/noval.txt /pythonspace/02/noval.txt 2.读文件创建RDD >>> noval = sc.textFile 阅读全文
posted @ 2022-03-30 16:24 牛蛙点点 阅读(327) 评论(0) 推荐(0) 编辑
摘要: 一、RDD的创建 从本地文件系统创建加载数据创建RDD lines1 = sc.textFile("file:///home/zt/my.txt") lines1 lines1.collect() 从hdfs加载数据创建RDD 1.hdfs的创建 start-all.sh 或 start-dfs.s 阅读全文
posted @ 2022-03-26 16:30 牛蛙点点 阅读(112) 评论(0) 推荐(0) 编辑
摘要: 一、请用图文阐述Spark生态系统的组成及各组件的功能 Spark大数据计算平台包含许多子模块,构成了整个Spark的生态系统,其中Spark为核心。 其中spark最主要包含的核心组件有:Spark Core、Spark SQL、Spark Streaming、Structured Streami 阅读全文
posted @ 2022-03-13 15:29 牛蛙点点 阅读(185) 评论(1) 推荐(0) 编辑
摘要: 一、安装并配置Spark 1.首先检查一下java和hadoop的环境 2.下载spark 3.解压spark安装包,对文件夹重命名,复制配置文件 4.对配置文件进行修改 1.对/usr/local/spark/conf/spark-env.sh的配置文件进行修改,加入 export SPARK_D 阅读全文
posted @ 2022-03-05 14:55 牛蛙点点 阅读(50) 评论(0) 推荐(0) 编辑
摘要: 大数据的概念 随着大数据时代的到来,“大数据”已经成为互联网信息技术行业的流行词汇。关于什么是大数据这个问题,大家比较认可大数据的“4V”说法。大数据的四个V,即说的是大数据的四个特征,分别是数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)、价值密度低(Val 阅读全文
posted @ 2022-02-28 14:42 牛蛙点点 阅读(142) 评论(0) 推荐(0) 编辑