会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
*啥也不是*
博客园
首页
新随笔
联系
订阅
管理
2022年5月27日
作业八:SparkSQL综合作业
摘要: 综合练习:学生课程分数 网盘下载sc.txt文件,分别用RDD操作、DataFrame操作和spark.sql执行SQL语句实现以下数据分析: 创建RDD RDD转换DataFrame 1. 总共有多少学生? 2. 总共开设了多少门课程? 3. 每个学生选修了多少门课? 4. 每门课程有多少个学生选
阅读全文
posted @ 2022-05-27 12:20 *啥也不是*
阅读(67)
评论(0)
推荐(0)
2022年4月30日
作业七:Spark SQL
摘要: 1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 SparkSQL的前身是Shark,是给MapReduce的技术人员提供快速上手的工具。Hive是基于Hadoop之上的一个开源的工具,它提供的就是类似于SQL的一种HQL语言,它的好处就是可以直接把你的SQL语句转换成Map
阅读全文
posted @ 2022-04-30 00:31 *啥也不是*
阅读(197)
评论(0)
推荐(1)
2022年4月7日
作业六:RDD综合练习--更丰富的操作
摘要: 1.集合运算练习 RDD转换操作 --union():并集 --intersection():交集 --subtract():差集 --cartesian():笛卡尔积 2.内连接与外连接 键值对RDD的内连接与外连接 --join():内连接 --leftOuterJoin():左外连接 --ri
阅读全文
posted @ 2022-04-07 00:26 *啥也不是*
阅读(74)
评论(0)
推荐(0)
2022年4月1日
作业五:RDD操作综合实例
摘要: welcome to 肥怡滴blog~~ 1、词频统计 A. 分步骤实现 1.准备文件 下载小说或长篇新闻稿 上传到hdfs上 2.读文件创建RDD 3.分词 4.标点符号[re.split(pattern,str),flatMap()] # 导入正则表达式re库,使用re.split分词 # 再次
阅读全文
posted @ 2022-04-01 00:16 *啥也不是*
阅读(108)
评论(2)
推荐(1)
2022年3月17日
作业四:1. RDD创建 2. RDD操作
摘要: 1. RDD创建 从本地文件系统中加载数据创建RDD 图1.1 查看文本信息 图1.2 本地文件加载数据 从HDFS加载数据创建RDD # 启动HDFS start-all.sh # 查看HDFS文件 hdfs dfs -ls 查看的文件目录 图2.1 启动HDFS # 上传文件到HDFS hdfs
阅读全文
posted @ 2022-03-17 16:41 *啥也不是*
阅读(83)
评论(0)
推荐(0)
2022年3月9日
作业三: 1.用图文阐述Spark生态系统的组成及各组件的功能 2.详细阐述Spark的几个主要概念及相互关系 3.画出相应的RDD转换关系图
摘要: 1.Spark生态系统 题目1.Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 答: Spark生态圈以Spark Core为核心,从HDFS、Hive、HBase和Hadoop等s数据源读取数据,以MESOS、YARN和自身携带的St
阅读全文
posted @ 2022-03-09 22:53 *啥也不是*
阅读(791)
评论(0)
推荐(0)
2022年3月3日
作业二:1.安装Spark 2.Python编程练习 3.根据自己的编程习惯搭建编程环境
摘要: 1.安装Spark 检查基础环境hadoop,jdk 图1 hadoop,jdk环境 配置文件 vim /usr/local/spark/conf/spark-env.sh 图2 spark配置文件 环境变量 # 修改环境变量 vim ~/.bashrc # 加载修改后的设置,使之生效 source
阅读全文
posted @ 2022-03-03 15:55 *啥也不是*
阅读(92)
评论(0)
推荐(1)
2022年2月24日
作业一:1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 2.对比Hadoop与Spark的优缺点。 3.如何实现Hadoop与Spark的统一部署?
摘要: 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 答:Hadoop生态图如下: Hadoop生态图中包含很多组件,包含HDFS【分布式存储系统】、YARN【资源调度】、MapReduce【任务计算】等。 HDFS【分布式存储系统】,是Hadoop体系中
阅读全文
posted @ 2022-02-24 22:29 *啥也不是*
阅读(691)
评论(0)
推荐(0)
公告