摘要:
1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 因为关系数据库已经很流行,而且关系数据库在大数据时代已经不能满足要求。首先,用户需要从不同数据源执行各种操作,包括结构化、半结构化和非结构化数据。其次,用户需要执行高级分析,比如机器学习和图像处理。在实际大数据应用中,经常需 阅读全文
2022年5月10日
2022年4月19日
摘要:
集合运算练习 union(), intersection(),subtract(), cartesian() 三、学生课程分数 网盘下载sc.txt文件,通过RDD操作实现以下数据分析: 持久化 scm.cache() 总共有多少学生?map(), distinct(), count() 开设了多少 阅读全文
2022年4月12日
摘要:
一、词频统计 准备文件,上传到hdfs上 读文件创建RDD 分词 排除大小写,标点符号 统计词频 排序 输出到文件 查看结果 B.一句话实现 C. 和作业2的“二、Python编程练习:英文文本的词频统计 ”进行比较,理解Spark编程的特点。 二、求Top值 网盘下载payment.txt文件,通 阅读全文
2022年3月27日
摘要:
RDD操作 一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 3.通过并行集合(列表)创建RDD 二、RDD操作 转换操作 1.转换操作 1.filter(func) 显式定义函数 lambda函数 2.map(func) 显式定义函数 lambda函数 字 阅读全文
2022年3月12日
摘要:
Spark生态圈也称为BDAS(伯克利数据分析栈),是伯克利APMLab实验室打造的,力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成来展现大数据应用的一个平台。伯克利AMPLab运用大数据、云计算、通信等各种资源以及各种灵活的技术方案,对海量不透明 阅读全文
2022年3月3日
摘要:
def get_text(file_name): with open(file_name,'r') as fr: text = fr.read() text = text.lower()#注意会有大小写之分,这里不区分大小写 delete_ch = ['\n',':','!','?',',','.' 阅读全文