摘要: 1. 请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 1.1 出现原因 SparkSQL的出现源于shark存在线程安全问题和维护语法补丁问题,所以将SparkSQL拿出独立发展。SparkSQL代码由于摆脱了对Hive的依赖性,SparkSQL无论在数据兼容、性能优化、组件 阅读全文
posted @ 2022-05-11 21:52 888qqq 阅读(48) 评论(0) 推荐(0) 编辑
摘要: Spark Core: Spark核心组件,它实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed Datasets,简称RDD)的API 定义,RDD是只读的分区记录的集合, 阅读全文
posted @ 2022-03-15 21:59 888qqq 阅读(30) 评论(0) 推荐(0) 编辑