摘要: Flink 函数与算子 富函数: Flink的每个算子都有对应的富函数,该函数中有更多的方法,如生命周期管理方法open()、close()。运行时上下文RuntimeContext可以用来获取环境变量、状态(累加器、计数器...等很多)。 说明:如果是读文件每个并行实例为了确保不是异常退出而是文件 阅读全文
posted @ 2021-06-01 15:46 青聪 阅读(791) 评论(0) 推荐(0)
摘要: Flink Flink 概述: Flink 是为分布式、高性能、随时可用以及准确的流处理应用框架,用于对无界和有界数据流进行有状态计算,并且以内存执行速度和任意规模来执行计算,在保证'exactly-once'的同时具有低延迟、高吞吐的处理能力。 Flink 特点: 基于事件驱动:是有状态的事件驱动 阅读全文
posted @ 2021-06-01 15:34 青聪 阅读(259) 评论(0) 推荐(0)
摘要: Spark 数据倾斜 数据倾斜的表现: 大部分的task都迅速完成,只有少数几个task运行非常慢,或者在运行过程中报OOM,反复执行几次都是OOM。 数据过量: 由于数据量较大而导致的整体任务运行缓慢,这种情况只需要增加资源即可。 造成数据倾斜的原因: 使用了具有shuffle的算子、数据本身就存 阅读全文
posted @ 2021-05-31 17:14 青聪 阅读(447) 评论(0) 推荐(0)
摘要: Spark 优化 一、常规性能调优: 1. 最优资源配置: 在一定范围内,增加资源分配,合理的增加服务器数量、增加内存。 Driver内存:增加Driver内存的影响不是特别大,只有少部分数据会在Driver端执行。 Executor数量:可以增大Task的并行度。 Executor内存: <1>可 阅读全文
posted @ 2021-05-31 17:02 青聪 阅读(114) 评论(0) 推荐(0)
摘要: Spark 源码解析 基于YarnCluster模式的任务提交流程: 通过spark-Submit命令脚本提交参数,声明部署模式、运行模式、全类名、Jar包、输入输出路径等,之后脚本启动执行。 脚本运行后会启动SparkSubmit进程,SparkSubmit启动之后会先解析命令行参数,之后会创建一 阅读全文
posted @ 2021-05-31 16:43 青聪 阅读(200) 评论(0) 推荐(0)
摘要: SparkStreaming SparkStreaming 概述: SparkStreaming 是对实时数据流进行高通量、容错处理的流式处理系统,支持多对数据源输入<Kafka、Flume、HDFS>获取的数据使用Spark的高度抽象原语进行运算,并将结果数据在外部文件系统、数据库、实时仪表盘<H 阅读全文
posted @ 2021-05-31 16:30 青聪 阅读(171) 评论(0) 推荐(0)
摘要: Spark SQL Spark SQL 简介: Spark用来处理结构化数据的模块。 Hive On Spark : Hive负责存储元数据和SQL解析优化,使用Spark引擎,Spark负责采用RDD执行。 Spark On Hive : Hive只负责存储元数据,Spark负责解析优化SQL,采 阅读全文
posted @ 2021-05-31 16:12 青聪 阅读(144) 评论(0) 推荐(0)
摘要: Spark Core Spark Core 简介: Spark Core中封装了RDD的API,实现了高效的DAG执行引擎。 RDD 弹性分布式数据集: RDD是spark中最基本的数据抽象,是一个抽象类,里面存储了用来获取数据的逻辑,并没有存数据。 RDD 特性: '一组分区':是数据集的基本组成 阅读全文
posted @ 2021-05-31 15:33 青聪 阅读(90) 评论(0) 推荐(0)
摘要: Spark 常用算子 阅读全文
posted @ 2021-05-31 15:12 青聪 阅读(59) 评论(0) 推荐(0)
摘要: Spark 简介 Spark 概述: Spark发行与2013年6月,早于Yarn的发行,所以内置一套资源调度框架。 Spark基于内存进行数据的分析计算,中间过程只要不涉及Shuffle就不会落盘,减少了磁盘IO,所以性能更高。 Spark 内置模块: Spark Core :封装了RDD的API 阅读全文
posted @ 2021-05-31 14:49 青聪 阅读(181) 评论(0) 推荐(0)