YUTOU_34 - 博客园

2022年6月6日

摘要：未交原因：忘记交了 1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。 spark出现的目的是为了替代Mapreduce，解决Mapreduce计算短板。我们知道最初的计算框架叫 mapreduce，他的缺点是计算速度慢，还有一个就是代码比较麻烦，所以有了 hive；hive 阅读全文

posted @ 2022-06-06 11:50 YUTOU_34 阅读(46) 评论(0) 推荐(0)

2022年4月20日

6. RDD综合练习：更丰富的操作

摘要：集合运算练习 union()， intersection()，subtract(), cartesian() 内连接与外连接 join() leftOuterJoin() rightOuterJoin() fullOuterJoin() 多个考勤文件，签到日期汇总，出勤次数统计三、综合练习：学生课阅读全文

posted @ 2022-04-20 17:41 YUTOU_34 阅读(59) 评论(0) 推荐(0)

2022年4月10日

5.RDD操作综合实例

摘要：一、词频统计 A. 分步骤实现准备文件下载小说或长篇新闻稿上传到hdfs上读文件创建RDD 分词排除大小写lower()，map() 标点符号re.split(pattern,str)，flatMap(),停用词,可网盘下载stopwords.txt,filter()，长度小于2的词fil 阅读全文

posted @ 2022-04-10 16:01 YUTOU_34 阅读(23) 评论(0) 推荐(0)

2022年3月18日

4.RDD操作

摘要：一、 RDD创建 1.从本地文件系统中加载数据创建RDD 从HDFS加载数据创建RDD启动hdfs上传文件查看文件停止hdfs 通过并行集合（列表）创建RDD输入列表字符串numpy生成数组二、 RDD操作转换操作 filter(func)显式定义函数lambda函数 map(func)显式定义阅读全文

posted @ 2022-03-18 21:05 YUTOU_34 阅读(54) 评论(0) 推荐(0)

2022年3月14日

3.Spark设计与运行原理，基本操作

摘要： 1. Spark Core 是整个BDAS 生态系统的核心组件，是一个分布式大数据处理框架。 Spark Streaming 是一个对实时数据流进行高吞吐、高容错的流式处理系统，可以处理流数据。 Spark SQL 的前身是Shark，Shark 即Hive on Spark即数据查询及调用语言。阅读全文

posted @ 2022-03-14 19:42 YUTOU_34 阅读(58) 评论(0) 推荐(0)

2022年3月3日

2.安装Spark与Python练习

摘要：一、安装Spark 检查基础环境hadoop,jdk spark配置环境变量试运行Python代码 def load_file(word_freq): # 读文件到缓冲区 try: # 打开文件 f = open(intext, 'r') except IOError as s: print(s 阅读全文

posted @ 2022-03-03 11:06 YUTOU_34 阅读(52) 评论(0) 推荐(0)

2022年2月22日

大数据概述作业

摘要： 1.Hadoop生态的各个组件及其功能（1）HDFS（hadoop分布式文件系统）是hadoop体系中数据存储管理的基础。他是一个高度容错的系统，能检测和应对硬件故障。（2）mapreduce（分布式计算框架）是一种计算模型，用于处理大数据量的计算。（3） hive（基于hadoop的数据仓库阅读全文

posted @ 2022-02-22 19:41 YUTOU_34 阅读(132) 评论(0) 推荐(0)