青聪 - 博客园

2021年6月1日

摘要： Flink 函数与算子富函数: Flink的每个算子都有对应的富函数,该函数中有更多的方法,如生命周期管理方法open()、close()。运行时上下文RuntimeContext可以用来获取环境变量、状态(累加器、计数器...等很多)。说明:如果是读文件每个并行实例为了确保不是异常退出而是文件阅读全文

posted @ 2021-06-01 15:46 青聪阅读(791) 评论(0) 推荐(0)

Flink

摘要： Flink Flink 概述： Flink 是为分布式、高性能、随时可用以及准确的流处理应用框架,用于对无界和有界数据流进行有状态计算,并且以内存执行速度和任意规模来执行计算,在保证'exactly-once'的同时具有低延迟、高吞吐的处理能力。 Flink 特点：基于事件驱动:是有状态的事件驱动阅读全文

posted @ 2021-06-01 15:34 青聪阅读(259) 评论(0) 推荐(0)

2021年5月31日

Spark 数据倾斜与解决方案

摘要： Spark 数据倾斜数据倾斜的表现: 大部分的task都迅速完成,只有少数几个task运行非常慢,或者在运行过程中报OOM,反复执行几次都是OOM。数据过量: 由于数据量较大而导致的整体任务运行缓慢,这种情况只需要增加资源即可。造成数据倾斜的原因: 使用了具有shuffle的算子、数据本身就存阅读全文

posted @ 2021-05-31 17:14 青聪阅读(447) 评论(0) 推荐(0)

Spark 优化

摘要： Spark 优化一、常规性能调优： 1. 最优资源配置: 在一定范围内,增加资源分配,合理的增加服务器数量、增加内存。 Driver内存:增加Driver内存的影响不是特别大,只有少部分数据会在Driver端执行。 Executor数量:可以增大Task的并行度。 Executor内存: <1>可阅读全文

posted @ 2021-05-31 17:02 青聪阅读(114) 评论(0) 推荐(0)

Spark 源码解析

摘要： Spark 源码解析基于YarnCluster模式的任务提交流程: 通过spark-Submit命令脚本提交参数,声明部署模式、运行模式、全类名、Jar包、输入输出路径等,之后脚本启动执行。脚本运行后会启动SparkSubmit进程,SparkSubmit启动之后会先解析命令行参数,之后会创建一阅读全文

posted @ 2021-05-31 16:43 青聪阅读(200) 评论(0) 推荐(0)

SparkStreaming

摘要： SparkStreaming SparkStreaming 概述： SparkStreaming 是对实时数据流进行高通量、容错处理的流式处理系统,支持多对数据源输入<Kafka、Flume、HDFS>获取的数据使用Spark的高度抽象原语进行运算,并将结果数据在外部文件系统、数据库、实时仪表盘<H 阅读全文

posted @ 2021-05-31 16:30 青聪阅读(171) 评论(0) 推荐(0)

Spark SQL

摘要： Spark SQL Spark SQL 简介： Spark用来处理结构化数据的模块。 Hive On Spark : Hive负责存储元数据和SQL解析优化,使用Spark引擎,Spark负责采用RDD执行。 Spark On Hive : Hive只负责存储元数据,Spark负责解析优化SQL,采阅读全文

posted @ 2021-05-31 16:12 青聪阅读(144) 评论(0) 推荐(0)

Spark Core

摘要： Spark Core Spark Core 简介： Spark Core中封装了RDD的API,实现了高效的DAG执行引擎。 RDD 弹性分布式数据集： RDD是spark中最基本的数据抽象,是一个抽象类,里面存储了用来获取数据的逻辑,并没有存数据。 RDD 特性： '一组分区':是数据集的基本组成阅读全文

posted @ 2021-05-31 15:33 青聪阅读(90) 评论(0) 推荐(0)

Spark 常用算子

摘要： Spark 常用算子阅读全文

posted @ 2021-05-31 15:12 青聪阅读(59) 评论(0) 推荐(0)

Spark 简介

摘要： Spark 简介 Spark 概述： Spark发行与2013年6月，早于Yarn的发行，所以内置一套资源调度框架。 Spark基于内存进行数据的分析计算,中间过程只要不涉及Shuffle就不会落盘,减少了磁盘IO,所以性能更高。 Spark 内置模块: Spark Core ：封装了RDD的API 阅读全文

posted @ 2021-05-31 14:49 青聪阅读(181) 评论(0) 推荐(0)

青聪

我的梦该醒了！

公告