2022年5月10日

摘要: 1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 因为关系数据库已经很流行,而且关系数据库在大数据时代已经不能满足要求。首先,用户需要从不同数据源执行各种操作,包括结构化、半结构化和非结构化数据。其次,用户需要执行高级分析,比如机器学习和图像处理。在实际大数据应用中,经常需 阅读全文
posted @ 2022-05-10 11:13 czczczcz 阅读(22) 评论(0) 推荐(0) 编辑

2022年4月19日

摘要: 集合运算练习 union(), intersection(),subtract(), cartesian() 三、学生课程分数 网盘下载sc.txt文件,通过RDD操作实现以下数据分析: 持久化 scm.cache() 总共有多少学生?map(), distinct(), count() 开设了多少 阅读全文
posted @ 2022-04-19 14:44 czczczcz 阅读(18) 评论(0) 推荐(0) 编辑

2022年4月12日

摘要: 一、词频统计 准备文件,上传到hdfs上 读文件创建RDD 分词 排除大小写,标点符号 统计词频 排序 输出到文件 查看结果 B.一句话实现 C. 和作业2的“二、Python编程练习:英文文本的词频统计 ”进行比较,理解Spark编程的特点。 二、求Top值 网盘下载payment.txt文件,通 阅读全文
posted @ 2022-04-12 13:40 czczczcz 阅读(36) 评论(0) 推荐(0) 编辑

2022年3月27日

摘要: RDD操作 一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 3.通过并行集合(列表)创建RDD 二、RDD操作 转换操作 1.转换操作 1.filter(func) 显式定义函数 lambda函数 2.map(func) 显式定义函数 lambda函数 字 阅读全文
posted @ 2022-03-27 10:51 czczczcz 阅读(7) 评论(0) 推荐(0) 编辑

2022年3月12日

摘要: Spark生态圈也称为BDAS(伯克利数据分析栈),是伯克利APMLab实验室打造的,力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成来展现大数据应用的一个平台。伯克利AMPLab运用大数据、云计算、通信等各种资源以及各种灵活的技术方案,对海量不透明 阅读全文
posted @ 2022-03-12 17:13 czczczcz 阅读(146) 评论(1) 推荐(1) 编辑

2022年3月3日

摘要: def get_text(file_name): with open(file_name,'r') as fr: text = fr.read() text = text.lower()#注意会有大小写之分,这里不区分大小写 delete_ch = ['\n',':','!','?',',','.' 阅读全文
posted @ 2022-03-03 11:40 czczczcz 阅读(61) 评论(0) 推荐(0) 编辑

2022年2月22日

摘要: 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 网图1. 1,HDFS(hadoop分布式文件系统) 是hadoop体系中数据存储管理的基础。他是一个高度容错的系统,能检测和应对硬件故障。 client:切分文件,访问HDFS,与namenode交互 阅读全文
posted @ 2022-02-22 10:40 czczczcz 阅读(99) 评论(0) 推荐(0) 编辑