摘要: 1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 SparkSQL出现的原因:为了替代Mapreduce,解决Mapreduce计算短板。 SparkSQL的起源与发展:Hadoop刚开始出来的时候,使用的是hadoop自带的分布式计算系统MapReduce,但是MapRed 阅读全文
posted @ 2022-06-06 13:51 tt理 阅读(77) 评论(0) 推荐(0)
摘要: 集合运算练习 union(), intersection(),subtract(), cartesian() 三、学生课程分数 网盘下载sc.txt文件,通过RDD操作实现以下数据分析: 持久化 scm.cache() 总共有多少学生?map(), distinct(), count() 开设了多少 阅读全文
posted @ 2022-05-18 10:46 tt理 阅读(25) 评论(0) 推荐(0)
摘要: 一、词频统计 A、分步骤实现 1.准备文件 2.读文件创建RDD 3.分词 4.排除大小写lower(),map()标点符号re.split(pattern,str),flatMap() 排除大小写 停用词,可网盘下载stopwords.txt,filter() 长度小于2的词filter() 5. 阅读全文
posted @ 2022-04-06 08:23 tt理 阅读(43) 评论(0) 推荐(0)
摘要: 一、RDD操作 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 1.启动hdfs 2.上传文件 3.查看文件 4.加载 5.停止hdfs 3.通过并行集合(列表)创建RDD输入列表、字符串、生成数组 二、RDD操作 转换操作 1.filter(func)显式定义函数lamb 阅读全文
posted @ 2022-03-30 09:24 tt理 阅读(59) 评论(0) 推荐(0)
摘要: 1.Spark生态系统的组成及各组件的功能(图文) Spark大数据计算平台包含许多子模块,构成了整个Spark的生态系统,其中Spark为核心。 伯克利将整个Spark的生态系统称为伯克利数据分析栈(BDAS),其结构如图1-1所示。 以下简要介绍BDAS的各个组成部分。 1. Spark Cor 阅读全文
posted @ 2022-03-13 15:30 tt理 阅读(85) 评论(0) 推荐(0)
摘要: 一、安装Spark 1.检查基础环境hadoop,jdk 2.配置文件 vim /usr/local/spark/conf/spark-env.sh 3.环境变量 vim ~/.bashrc source ~/.bashrc 4.试运行Python代码 二、Python编程练习:英文文本的词频统计 阅读全文
posted @ 2022-03-05 18:40 tt理 阅读(33) 评论(0) 推荐(0)
摘要: 列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 hadoop生态圈中包含很多组件,有HDFS、Mapreduce、Hive、Hbase、Yarn、Pig、Zookeeper、Avro和Chukwa。 组件名 功能及作用 优势 局限 应用场景 相关功能组件 阅读全文
posted @ 2022-02-23 10:49 tt理 阅读(142) 评论(0) 推荐(1)
点击右上角即可分享
微信分享提示