czczczcz - 博客园

7.Spark SQL

摘要： 1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。因为关系数据库已经很流行，而且关系数据库在大数据时代已经不能满足要求。首先，用户需要从不同数据源执行各种操作，包括结构化、半结构化和非结构化数据。其次，用户需要执行高级分析，比如机器学习和图像处理。在实际大数据应用中，经常需阅读全文

posted @ 2022-05-10 11:13 czczczcz 阅读(45) 评论(0) 推荐(0)

6. RDD综合练习：更丰富的操作

摘要：集合运算练习 union()， intersection()，subtract(), cartesian() 三、学生课程分数网盘下载sc.txt文件，通过RDD操作实现以下数据分析: 持久化 scm.cache() 总共有多少学生？map(), distinct(), count() 开设了多少阅读全文

posted @ 2022-04-19 14:44 czczczcz 阅读(22) 评论(0) 推荐(0)

5、RDD操作综合实例

摘要：一、词频统计准备文件,上传到hdfs上读文件创建RDD 分词排除大小写，标点符号统计词频排序输出到文件查看结果 B.一句话实现 C. 和作业2的“二、Python编程练习：英文文本的词频统计 ”进行比较，理解Spark编程的特点。二、求Top值网盘下载payment.txt文件，通阅读全文

posted @ 2022-04-12 13:40 czczczcz 阅读(46) 评论(0) 推荐(0)

4.RDD操作

摘要： RDD操作一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 3.通过并行集合（列表）创建RDD 二、RDD操作转换操作 1.转换操作 1.filter(func) 显式定义函数 lambda函数 2.map(func) 显式定义函数 lambda函数字阅读全文

posted @ 2022-03-27 10:51 czczczcz 阅读(25) 评论(0) 推荐(0)

3.Spark设计与运行原理，基本操作

摘要： Spark生态圈也称为BDAS（伯克利数据分析栈），是伯克利APMLab实验室打造的，力图在算法（Algorithms）、机器（Machines）、人（People）之间通过大规模集成来展现大数据应用的一个平台。伯克利AMPLab运用大数据、云计算、通信等各种资源以及各种灵活的技术方案，对海量不透明阅读全文

posted @ 2022-03-12 17:13 czczczcz 阅读(224) 评论(1) 推荐(1)

2.安装spark和python练习

摘要： def get_text(file_name): with open(file_name,'r') as fr: text = fr.read() text = text.lower()#注意会有大小写之分，这里不区分大小写 delete_ch = ['\n',':','!','?',',','.' 阅读全文

posted @ 2022-03-03 11:40 czczczcz 阅读(73) 评论(0) 推荐(0)

1.大数据概述

摘要： 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。网图1. 1，HDFS（hadoop分布式文件系统）是hadoop体系中数据存储管理的基础。他是一个高度容错的系统，能检测和应对硬件故障。 client：切分文件，访问HDFS，与namenode交互阅读全文

posted @ 2022-02-22 10:40 czczczcz 阅读(165) 评论(0) 推荐(0)

导航

2022年5月10日

2022年4月19日

2022年4月12日

2022年3月27日

2022年3月12日

2022年3月3日

2022年2月22日