会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
tt理
博客园
首页
新随笔
联系
管理
订阅
2022年6月6日
作业7:Spark SQL
摘要: 1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 SparkSQL出现的原因:为了替代Mapreduce,解决Mapreduce计算短板。 SparkSQL的起源与发展:Hadoop刚开始出来的时候,使用的是hadoop自带的分布式计算系统MapReduce,但是MapRed
阅读全文
posted @ 2022-06-06 13:51 tt理
阅读(81)
评论(0)
推荐(0)
2022年5月18日
作业6:RDD综合练习:更丰富的操作
摘要: 集合运算练习 union(), intersection(),subtract(), cartesian() 三、学生课程分数 网盘下载sc.txt文件,通过RDD操作实现以下数据分析: 持久化 scm.cache() 总共有多少学生?map(), distinct(), count() 开设了多少
阅读全文
posted @ 2022-05-18 10:46 tt理
阅读(34)
评论(0)
推荐(0)
2022年4月6日
作业5:RDD操作综合实例20
摘要: 一、词频统计 A、分步骤实现 1.准备文件 2.读文件创建RDD 3.分词 4.排除大小写lower(),map()标点符号re.split(pattern,str),flatMap() 排除大小写 停用词,可网盘下载stopwords.txt,filter() 长度小于2的词filter() 5.
阅读全文
posted @ 2022-04-06 08:23 tt理
阅读(50)
评论(0)
推荐(0)
2022年3月30日
作业4.RDD操作
摘要: 一、RDD操作 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 1.启动hdfs 2.上传文件 3.查看文件 4.加载 5.停止hdfs 3.通过并行集合(列表)创建RDD输入列表、字符串、生成数组 二、RDD操作 转换操作 1.filter(func)显式定义函数lamb
阅读全文
posted @ 2022-03-30 09:24 tt理
阅读(70)
评论(0)
推荐(0)
2022年3月13日
作业3.Spark设计与运行原理,基本操作
摘要: 1.Spark生态系统的组成及各组件的功能(图文) Spark大数据计算平台包含许多子模块,构成了整个Spark的生态系统,其中Spark为核心。 伯克利将整个Spark的生态系统称为伯克利数据分析栈(BDAS),其结构如图1-1所示。 以下简要介绍BDAS的各个组成部分。 1. Spark Cor
阅读全文
posted @ 2022-03-13 15:30 tt理
阅读(103)
评论(0)
推荐(0)
2022年3月5日
作业2:安装Spark与Python练习
摘要: 一、安装Spark 1.检查基础环境hadoop,jdk 2.配置文件 vim /usr/local/spark/conf/spark-env.sh 3.环境变量 vim ~/.bashrc source ~/.bashrc 4.试运行Python代码 二、Python编程练习:英文文本的词频统计
阅读全文
posted @ 2022-03-05 18:40 tt理
阅读(40)
评论(0)
推荐(0)
2022年2月23日
大数据的概述
摘要: 列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 hadoop生态圈中包含很多组件,有HDFS、Mapreduce、Hive、Hbase、Yarn、Pig、Zookeeper、Avro和Chukwa。 组件名 功能及作用 优势 局限 应用场景 相关功能组件
阅读全文
posted @ 2022-02-23 10:49 tt理
阅读(168)
评论(0)
推荐(1)
公告