随笔分类 - spark
摘要:前置知识 spark任务模型 1. job:action的调用,触发了DAG的提交和整个job的执行。 2. stage:stage是由是否shuffle来划分,如果发生shuffle,则分为2个stage。 3. taskSet:每一个stage对应1个taskset.1个taskset有多个ta
阅读全文
摘要:spark数据倾斜处理 危害: 1. 当出现数据倾斜时,小量任务耗时远高于其它任务,从而使得整体耗时过大,未能充分发挥分布式系统的并行计算优势。 2. 当发生数据倾斜时,部分任务处理的数据量过大,可能造成内存不足使得任务失败,并进而引进整个应用失败。 表现:同一个stage的多个task执行时间不一
阅读全文
摘要:sparkstreaming关于偏移量的管理 1. 在 Direct DStream初始化的时候,需要指定一个包含每个topic的每个分区的offset用于让Direct DStream从指定位置读取数据。 offsets就是步骤4中所保存的offsets位置 2. 读取并处理消息 3. 处理完之后
阅读全文
摘要:在学习spark streaming时,建议先学习和掌握RDD。spark streaming无非是针对流式数据处理这个场景,在RDD基础上做了一层封装,简化流式数据处理过程。 spark streaming 引入一些新的概念和方法,本文将介绍这方面的知识。主要包括以下几点: 1. 初始化流上下文
阅读全文
摘要:本文概要 本文主要从以下几点阐述RDD,了解RDD 1. 什么是RDD? 2. 两种RDD创建方式 3. 向给spark传递函数Passing Functions to Spark 4. 两种操作之转换Transformations 5. 两种操作之行动Actions 6. 惰性求值 7. RDD持
阅读全文