会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
tt理
博客园
首页
新随笔
联系
管理
订阅
随笔- 7 文章- 0 评论- 0 阅读-
464
2022年6月6日
作业7:Spark SQL
摘要: 1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 SparkSQL出现的原因:为了替代Mapreduce,解决Mapreduce计算短板。 SparkSQL的起源与发展:Hadoop刚开始出来的时候,使用的是hadoop自带的分布式计算系统MapReduce,但是MapRed
阅读全文
posted @ 2022-06-06 13:51 tt理
阅读(77)
评论(0)
推荐(0)
2022年5月18日
作业6:RDD综合练习:更丰富的操作
摘要: 集合运算练习 union(), intersection(),subtract(), cartesian() 三、学生课程分数 网盘下载sc.txt文件,通过RDD操作实现以下数据分析: 持久化 scm.cache() 总共有多少学生?map(), distinct(), count() 开设了多少
阅读全文
posted @ 2022-05-18 10:46 tt理
阅读(25)
评论(0)
推荐(0)
2022年4月6日
作业5:RDD操作综合实例20
摘要: 一、词频统计 A、分步骤实现 1.准备文件 2.读文件创建RDD 3.分词 4.排除大小写lower(),map()标点符号re.split(pattern,str),flatMap() 排除大小写 停用词,可网盘下载stopwords.txt,filter() 长度小于2的词filter() 5.
阅读全文
posted @ 2022-04-06 08:23 tt理
阅读(43)
评论(0)
推荐(0)
2022年3月30日
作业4.RDD操作
摘要: 一、RDD操作 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 1.启动hdfs 2.上传文件 3.查看文件 4.加载 5.停止hdfs 3.通过并行集合(列表)创建RDD输入列表、字符串、生成数组 二、RDD操作 转换操作 1.filter(func)显式定义函数lamb
阅读全文
posted @ 2022-03-30 09:24 tt理
阅读(59)
评论(0)
推荐(0)
2022年3月13日
作业3.Spark设计与运行原理,基本操作
摘要: 1.Spark生态系统的组成及各组件的功能(图文) Spark大数据计算平台包含许多子模块,构成了整个Spark的生态系统,其中Spark为核心。 伯克利将整个Spark的生态系统称为伯克利数据分析栈(BDAS),其结构如图1-1所示。 以下简要介绍BDAS的各个组成部分。 1. Spark Cor
阅读全文
posted @ 2022-03-13 15:30 tt理
阅读(85)
评论(0)
推荐(0)
2022年3月5日
作业2:安装Spark与Python练习
摘要: 一、安装Spark 1.检查基础环境hadoop,jdk 2.配置文件 vim /usr/local/spark/conf/spark-env.sh 3.环境变量 vim ~/.bashrc source ~/.bashrc 4.试运行Python代码 二、Python编程练习:英文文本的词频统计
阅读全文
posted @ 2022-03-05 18:40 tt理
阅读(33)
评论(0)
推荐(0)
2022年2月23日
大数据的概述
摘要: 列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 hadoop生态圈中包含很多组件,有HDFS、Mapreduce、Hive、Hbase、Yarn、Pig、Zookeeper、Avro和Chukwa。 组件名 功能及作用 优势 局限 应用场景 相关功能组件
阅读全文
posted @ 2022-02-23 10:49 tt理
阅读(142)
评论(0)
推荐(1)
<
2025年7月
>
日
一
二
三
四
五
六
29
30
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
6
7
8
9
公告
昵称:
tt理
园龄:
3年4个月
粉丝:
0
关注:
0
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
更多链接
随笔档案
2022年6月(1)
2022年5月(1)
2022年4月(1)
2022年3月(3)
2022年2月(1)
阅读排行榜
1. 大数据的概述(142)
2. 作业3.Spark设计与运行原理,基本操作(85)
3. 作业7:Spark SQL(77)
4. 作业4.RDD操作(59)
5. 作业5:RDD操作综合实例20(43)
推荐排行榜
1. 大数据的概述(1)
点击右上角即可分享