会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
求包养QAQ
Baby_Monster
博客园
首页
新随笔
联系
订阅
管理
2022年5月11日
Spark SQL
摘要: 1.请分析sparkSQL出现的原因,并简述SparkSQL的起源和发展 1.1 出现的原因 1.关系数据库已经很流行 2.关系数据库在大数据时代已经不能满足要求•首先,用户需要从不同数据源执行各种操作,包括结构化、半结构化和非结构化数据。其次,用户需要执行高级分析,比如机器学习和图像处理•在实际大
阅读全文
posted @ 2022-05-11 20:59 Baby_Monster
阅读(120)
评论(0)
推荐(0)
2022年4月20日
RDD综合练习:更丰富的操作
摘要: 集合运算练习 union(), intersection(),subtract(), cartesian() rdd1=sc.parallelize('abcd') rdd2=sc.parallelize('bcde') rdd1.collect() rdd2.collect() rdd1.unio
阅读全文
posted @ 2022-04-20 15:29 Baby_Monster
阅读(72)
评论(0)
推荐(0)
2022年4月7日
RDD操作综合实例
摘要: 一、词频统计 A. 分步骤实现 准备文件 下载小说或长篇新闻稿 上传到hdfs上 hdfs dfs -put ./data/my.txt ./ hdfs dfs -ls ./ 读文件创建RDD lines=sc.textFile("hdfs://localhost:9000/user/hjq/my.
阅读全文
posted @ 2022-04-07 21:26 Baby_Monster
阅读(92)
评论(0)
推荐(0)
2022年3月19日
RDD操作
摘要: RDD创建 从本地文件系统中加载数据创建RDD 1、启动spark pyspark 从文件系统中加载数据创建RDD sc #SparkContext的创建 lines = sc.textFile("file:///home/hjq/data/text.txt") lines lines.foreac
阅读全文
posted @ 2022-03-19 21:43 Baby_Monster
阅读(98)
评论(0)
推荐(0)
2022年3月15日
Spark设计与运行原理,基本操作
摘要: Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 组件介绍 Spark Core: Spark的核心组件,其操作的数据对象是RDD(弹性分布式数据集),图中在Spark Core上面的四个组件都依赖于Spark Core,可以简单认为Sp
阅读全文
posted @ 2022-03-15 14:41 Baby_Monster
阅读(85)
评论(0)
推荐(0)
2022年3月8日
安装Spark与Python练习
摘要: 一、安装Spark 1、检查基础环境hadoop,jdk echo $JAVA_HOME java -version start-dfs.sh jps 2、下载、解压、配置spark 此步骤实验前已经完成,故跳过。 3、环境变量 gedit ~/.bashrc #编辑 source ~/.bashr
阅读全文
posted @ 2022-03-08 17:43 Baby_Monster
阅读(50)
评论(0)
推荐(0)
2022年3月1日
大数据概述
摘要: 一、列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述 1、HDFS(hadoop分布式文件系统) 是hadoop体系中数据存储管理的基础。他是一个高度容错的系统,能检测和应对硬件故障。 client:切分文件,访问HDFS,与namenode交互,获取文件位
阅读全文
posted @ 2022-03-01 14:42 Baby_Monster
阅读(47)
评论(0)
推荐(0)
公告