摘要: Spark 数据倾斜 数据倾斜的表现: 大部分的task都迅速完成,只有少数几个task运行非常慢,或者在运行过程中报OOM,反复执行几次都是OOM。 数据过量: 由于数据量较大而导致的整体任务运行缓慢,这种情况只需要增加资源即可。 造成数据倾斜的原因: 使用了具有shuffle的算子、数据本身就存 阅读全文
posted @ 2021-05-31 17:14 yuexiuping 阅读(382) 评论(0) 推荐(0) 编辑
摘要: Spark 优化 一、常规性能调优: 1. 最优资源配置: 在一定范围内,增加资源分配,合理的增加服务器数量、增加内存。 Driver内存:增加Driver内存的影响不是特别大,只有少部分数据会在Driver端执行。 Executor数量:可以增大Task的并行度。 Executor内存: <1>可 阅读全文
posted @ 2021-05-31 17:02 yuexiuping 阅读(81) 评论(0) 推荐(0) 编辑
摘要: Spark 源码解析 基于YarnCluster模式的任务提交流程: 通过spark-Submit命令脚本提交参数,声明部署模式、运行模式、全类名、Jar包、输入输出路径等,之后脚本启动执行。 脚本运行后会启动SparkSubmit进程,SparkSubmit启动之后会先解析命令行参数,之后会创建一 阅读全文
posted @ 2021-05-31 16:43 yuexiuping 阅读(167) 评论(0) 推荐(0) 编辑
摘要: SparkStreaming SparkStreaming 概述: SparkStreaming 是对实时数据流进行高通量、容错处理的流式处理系统,支持多对数据源输入<Kafka、Flume、HDFS>获取的数据使用Spark的高度抽象原语进行运算,并将结果数据在外部文件系统、数据库、实时仪表盘<H 阅读全文
posted @ 2021-05-31 16:30 yuexiuping 阅读(155) 评论(0) 推荐(0) 编辑
摘要: Spark SQL Spark SQL 简介: Spark用来处理结构化数据的模块。 Hive On Spark : Hive负责存储元数据和SQL解析优化,使用Spark引擎,Spark负责采用RDD执行。 Spark On Hive : Hive只负责存储元数据,Spark负责解析优化SQL,采 阅读全文
posted @ 2021-05-31 16:12 yuexiuping 阅读(124) 评论(0) 推荐(0) 编辑
摘要: Spark Core Spark Core 简介: Spark Core中封装了RDD的API,实现了高效的DAG执行引擎。 RDD 弹性分布式数据集: RDD是spark中最基本的数据抽象,是一个抽象类,里面存储了用来获取数据的逻辑,并没有存数据。 RDD 特性: '一组分区':是数据集的基本组成 阅读全文
posted @ 2021-05-31 15:33 yuexiuping 阅读(77) 评论(0) 推荐(0) 编辑
摘要: Spark 常用算子 阅读全文
posted @ 2021-05-31 15:12 yuexiuping 阅读(47) 评论(0) 推荐(0) 编辑
摘要: Spark 简介 Spark 概述: Spark发行与2013年6月,早于Yarn的发行,所以内置一套资源调度框架。 Spark基于内存进行数据的分析计算,中间过程只要不涉及Shuffle就不会落盘,减少了磁盘IO,所以性能更高。 Spark 内置模块: Spark Core :封装了RDD的API 阅读全文
posted @ 2021-05-31 14:49 yuexiuping 阅读(162) 评论(0) 推荐(0) 编辑