2021 年 5月 31 日随笔档案 - yuexiuping

2021年5月31日

摘要： Spark 数据倾斜数据倾斜的表现: 大部分的task都迅速完成,只有少数几个task运行非常慢,或者在运行过程中报OOM,反复执行几次都是OOM。数据过量: 由于数据量较大而导致的整体任务运行缓慢,这种情况只需要增加资源即可。造成数据倾斜的原因: 使用了具有shuffle的算子、数据本身就存阅读全文

posted @ 2021-05-31 17:14 yuexiuping 阅读(382) 评论(0) 推荐(0) 编辑

Spark 优化

摘要： Spark 优化一、常规性能调优： 1. 最优资源配置: 在一定范围内,增加资源分配,合理的增加服务器数量、增加内存。 Driver内存:增加Driver内存的影响不是特别大,只有少部分数据会在Driver端执行。 Executor数量:可以增大Task的并行度。 Executor内存: <1>可阅读全文

posted @ 2021-05-31 17:02 yuexiuping 阅读(81) 评论(0) 推荐(0) 编辑

Spark 源码解析

摘要： Spark 源码解析基于YarnCluster模式的任务提交流程: 通过spark-Submit命令脚本提交参数,声明部署模式、运行模式、全类名、Jar包、输入输出路径等,之后脚本启动执行。脚本运行后会启动SparkSubmit进程,SparkSubmit启动之后会先解析命令行参数,之后会创建一阅读全文

posted @ 2021-05-31 16:43 yuexiuping 阅读(167) 评论(0) 推荐(0) 编辑

SparkStreaming

摘要： SparkStreaming SparkStreaming 概述： SparkStreaming 是对实时数据流进行高通量、容错处理的流式处理系统,支持多对数据源输入<Kafka、Flume、HDFS>获取的数据使用Spark的高度抽象原语进行运算,并将结果数据在外部文件系统、数据库、实时仪表盘<H 阅读全文

posted @ 2021-05-31 16:30 yuexiuping 阅读(155) 评论(0) 推荐(0) 编辑

Spark SQL

摘要： Spark SQL Spark SQL 简介： Spark用来处理结构化数据的模块。 Hive On Spark : Hive负责存储元数据和SQL解析优化,使用Spark引擎,Spark负责采用RDD执行。 Spark On Hive : Hive只负责存储元数据,Spark负责解析优化SQL,采阅读全文

posted @ 2021-05-31 16:12 yuexiuping 阅读(124) 评论(0) 推荐(0) 编辑

Spark Core

摘要： Spark Core Spark Core 简介： Spark Core中封装了RDD的API,实现了高效的DAG执行引擎。 RDD 弹性分布式数据集： RDD是spark中最基本的数据抽象,是一个抽象类,里面存储了用来获取数据的逻辑,并没有存数据。 RDD 特性： '一组分区':是数据集的基本组成阅读全文

posted @ 2021-05-31 15:33 yuexiuping 阅读(77) 评论(0) 推荐(0) 编辑

Spark 常用算子

摘要： Spark 常用算子阅读全文

posted @ 2021-05-31 15:12 yuexiuping 阅读(47) 评论(0) 推荐(0) 编辑

Spark 简介

摘要： Spark 简介 Spark 概述： Spark发行与2013年6月，早于Yarn的发行，所以内置一套资源调度框架。 Spark基于内存进行数据的分析计算,中间过程只要不涉及Shuffle就不会落盘,减少了磁盘IO,所以性能更高。 Spark 内置模块: Spark Core ：封装了RDD的API 阅读全文

posted @ 2021-05-31 14:49 yuexiuping 阅读(162) 评论(0) 推荐(0) 编辑

yuexiuping

公告