tt理

2022年6月6日

摘要： 1.分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。 SparkSQL出现的原因：为了替代Mapreduce，解决Mapreduce计算短板。 SparkSQL的起源与发展：Hadoop刚开始出来的时候，使用的是hadoop自带的分布式计算系统MapReduce，但是MapRed 阅读全文

posted @ 2022-06-06 13:51 tt理阅读(90) 评论(0) 推荐(0)

2022年5月18日

作业6：RDD综合练习：更丰富的操作

摘要：集合运算练习 union()， intersection()，subtract(), cartesian() 三、学生课程分数网盘下载sc.txt文件，通过RDD操作实现以下数据分析: 持久化 scm.cache() 总共有多少学生？map(), distinct(), count() 开设了多少阅读全文

posted @ 2022-05-18 10:46 tt理阅读(41) 评论(0) 推荐(0)

2022年4月6日

作业5：RDD操作综合实例20

摘要：一、词频统计 A、分步骤实现 1.准备文件 2.读文件创建RDD 3.分词 4.排除大小写lower()，map()标点符号re.split(pattern,str)，flatMap() 排除大小写停用词,可网盘下载stopwords.txt,filter() 长度小于2的词filter() 5. 阅读全文

posted @ 2022-04-06 08:23 tt理阅读(60) 评论(0) 推荐(0)

2022年3月30日

作业4.RDD操作

摘要：一、RDD操作 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 1.启动hdfs 2.上传文件 3.查看文件 4.加载 5.停止hdfs 3.通过并行集合（列表）创建RDD输入列表、字符串、生成数组二、RDD操作转换操作 1.filter(func)显式定义函数lamb 阅读全文

posted @ 2022-03-30 09:24 tt理阅读(79) 评论(0) 推荐(0)

2022年3月13日

作业3.Spark设计与运行原理，基本操作

摘要： 1.Spark生态系统的组成及各组件的功能（图文） Spark大数据计算平台包含许多子模块，构成了整个Spark的生态系统，其中Spark为核心。伯克利将整个Spark的生态系统称为伯克利数据分析栈（BDAS），其结构如图1-1所示。以下简要介绍BDAS的各个组成部分。 1. Spark Cor 阅读全文

posted @ 2022-03-13 15:30 tt理阅读(113) 评论(0) 推荐(0)

2022年3月5日

作业2：安装Spark与Python练习

摘要：一、安装Spark 1.检查基础环境hadoop，jdk 2.配置文件 vim /usr/local/spark/conf/spark-env.sh 3.环境变量 vim ~/.bashrc source ~/.bashrc 4.试运行Python代码二、Python编程练习：英文文本的词频统计阅读全文

posted @ 2022-03-05 18:40 tt理阅读(48) 评论(0) 推荐(0)

2022年2月23日

大数据的概述

摘要：列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。 hadoop生态圈中包含很多组件，有HDFS、Mapreduce、Hive、Hbase、Yarn、Pig、Zookeeper、Avro和Chukwa。组件名功能及作用优势局限应用场景相关功能组件阅读全文

posted @ 2022-02-23 10:49 tt理阅读(180) 评论(0) 推荐(1)

公告