摘要: Spark 源码解析 基于YarnCluster模式的任务提交流程: 通过spark-Submit命令脚本提交参数,声明部署模式、运行模式、全类名、Jar包、输入输出路径等,之后脚本启动执行。 脚本运行后会启动SparkSubmit进程,SparkSubmit启动之后会先解析命令行参数,之后会创建一 阅读全文
posted @ 2021-05-31 16:43 yuexiuping 阅读(40) 评论(0) 推荐(0) 编辑
摘要: SparkStreaming SparkStreaming 概述: SparkStreaming 是对实时数据流进行高通量、容错处理的流式处理系统,支持多对数据源输入<Kafka、Flume、HDFS>获取的数据使用Spark的高度抽象原语进行运算,并将结果数据在外部文件系统、数据库、实时仪表盘<H 阅读全文
posted @ 2021-05-31 16:30 yuexiuping 阅读(27) 评论(0) 推荐(0) 编辑
摘要: Spark SQL Spark SQL 简介: Spark用来处理结构化数据的模块。 Hive On Spark : Hive负责存储元数据和SQL解析优化,使用Spark引擎,Spark负责采用RDD执行。 Spark On Hive : Hive只负责存储元数据,Spark负责解析优化SQL,采 阅读全文
posted @ 2021-05-31 16:12 yuexiuping 阅读(23) 评论(0) 推荐(0) 编辑
摘要: Spark Core Spark Core 简介: Spark Core中封装了RDD的API,实现了高效的DAG执行引擎。 RDD 弹性分布式数据集: RDD是spark中最基本的数据抽象,是一个抽象类,里面存储了用来获取数据的逻辑,并没有存数据。 RDD 特性: '一组分区':是数据集的基本组成 阅读全文
posted @ 2021-05-31 15:33 yuexiuping 阅读(23) 评论(0) 推荐(0) 编辑
摘要: Spark 常用算子 阅读全文
posted @ 2021-05-31 15:12 yuexiuping 阅读(25) 评论(0) 推荐(0) 编辑
摘要: Spark 简介 Spark 概述: Spark发行与2013年6月,早于Yarn的发行,所以内置一套资源调度框架。 Spark基于内存进行数据的分析计算,中间过程只要不涉及Shuffle就不会落盘,减少了磁盘IO,所以性能更高。 Spark 内置模块: Spark Core :封装了RDD的API 阅读全文
posted @ 2021-05-31 14:49 yuexiuping 阅读(33) 评论(0) 推荐(0) 编辑
摘要: Flume Flume 概述: 特点:高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。 选Flume的原因:FLume是流式传输实时处理的。 数据的传输过程:没有将用户产生的日志直接传输给大数据平台,而是传给日志服务器,可以按自己的需求方式去日志服务器获取。 不希望以你的方式来传输而时希 阅读全文
posted @ 2021-05-30 23:48 yuexiuping 阅读(30) 评论(0) 推荐(0) 编辑
摘要: Hive Hive简介: 特点:是一个数据仓库工具,将结构化的数据映射为一张表,并提供SQL查询功能,将SQL解析成Job。 本质:数据存储在HDFS上,元数据默认存储在derby上,Hive将HQL语言转化成MapReduce程序,程序运行在yarn上。由于derby仅支持单客户端,并不支持多客户 阅读全文
posted @ 2021-05-30 21:31 yuexiuping 阅读(31) 评论(0) 推荐(0) 编辑
摘要: 面试题: 1)Kafka中的ISR(InSyncRepli)、OSR(OutSyncRepli)、AR(AllRepli)代表什么? 2)Kafka中的HW、LEO等分别代表什么? 3)Kafka中是怎么体现消息顺序性的? 4)Kafka中的分区器、序列化器、拦截器是否了解?它们之间的处理顺序是什么 阅读全文
posted @ 2021-05-26 23:12 yuexiuping 阅读(73) 评论(0) 推荐(0) 编辑
摘要: Kafka Exactly Once语义 精准一次: 将服务器的ACK级别设置为-1,可以保证Producer到Server之间不会丢失数据,即At Least Once语义。相对的,将服务器ACK级别设置为0,可以保证生产者每条消息只会被发送一次,即At Most Once语义。 At Least 阅读全文
posted @ 2021-05-26 23:11 yuexiuping 阅读(35) 评论(0) 推荐(0) 编辑