会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
马晟
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
下一页
2020年8月17日
LeetCode第350题:两个数组的交集II
摘要: 给定两个数组,编写一个函数来计算它们的交集。 示例 1: 输入: nums1 = [1,2,2,1], nums2 = [2,2] 输出: [2,2] 示例 2: 输入: nums1 = [4,9,5], nums2 = [9,4,9,8,4] 输出: [4,9] 说明: 输出结果中每个元素出现的次
阅读全文
posted @ 2020-08-17 12:07 马晟
阅读(105)
评论(0)
推荐(0)
2020年8月8日
Spark-RDD-内部计算机制
摘要: RDD的多个Partition由不同Task处理,Task分为shuffleMapTask和resultTask 1.Task解析 Task是计算的基本单位,一个Task处理RDD的一个Partition,Task运行在Executor上,Executor位于CoarseGrainedExecuto
阅读全文
posted @ 2020-08-08 18:11 马晟
阅读(262)
评论(0)
推荐(0)
Spark-RDD-DAG解析
摘要: 1.原理说明 有向无环图:如果一个有向图无法从任意顶点出发经过若干条边回到该点,则这个图是一个 有向无环图(DAG图) 在Spark中对任务进行排队,形成一个集合就是DAG图,每一个顶点就是一个任务,每一条边代表一个依赖关系 通过DAG可以对计算流程进行优化,比如将单一节点的计算操作合并,对涉及sh
阅读全文
posted @ 2020-08-08 15:58 马晟
阅读(893)
评论(0)
推荐(0)
Spark-RDD-宽窄依赖解析
摘要: 1.窄依赖 窄依赖表示一个父RDD中的Partition最多被子RDD的一个Partition使用 窄依赖分为两种: 一种是一对一的依赖关系,比如map、filter等(OneToOneDependency) 另一种是范围依赖关系,比如union(RangeDependency) OneToOneD
阅读全文
posted @ 2020-08-08 15:12 马晟
阅读(374)
评论(0)
推荐(0)
Spark-RDD-弹性解析
摘要: 1.对数据存储自动进行内存和磁盘的切换 Spark优先将数据放入内存中,如果内存不够,放到磁盘里面,如果实际数据大于内存,需要考虑数据放置的策略和优化的算法 2.基于Lineage的容错机制 Lineage基于Spark RDD的依赖关系,对于每个操作只需要关联父操作,每个分片之间互不影响,出现错误
阅读全文
posted @ 2020-08-08 14:28 马晟
阅读(249)
评论(0)
推荐(0)
2020年8月7日
Spark-RDD-基本介绍
摘要: 1.定义 RDD是只读的记录分区的集合,是一种基于工作集的应用抽象 创建RDD的方式有两种: 从驱动程序中的集合中并行创建 从外部数据集创建 2.底层存储原理 每个RDD的数据以Block的形式存储在多个机器上,对于每个Executor都会启动一个BlockManagerSlave,并且管理一部分B
阅读全文
posted @ 2020-08-07 23:57 马晟
阅读(275)
评论(0)
推荐(0)
2020年8月4日
Kafka日志存储
摘要: 1.文件目录布局 Kafka消息以日志文件的形式存储,不同主题下不同分区的消息分开存储,同一个分区的不同副本分布在不同的broker上存储 逻辑上看来日志是以副本为单位的,每个副本对应一个log对象,实际在物理上,一个log划分为多个logSegment 创建一个topic为3个分区,会在log.d
阅读全文
posted @ 2020-08-04 23:40 马晟
阅读(1685)
评论(0)
推荐(0)
Spark反压实现原理解析
摘要: 在Spark中要启用反压机制,需要将配置spark.streaming.backpressure.enabled设置为true,默认为false 具体实现 1.RateController 该类继承StreamingListener,是一个监听器 /** * A StreamingListener
阅读全文
posted @ 2020-08-04 23:36 马晟
阅读(710)
评论(0)
推荐(0)
2020年7月30日
Kafka网络通信-流程及源码分析
摘要: 1.Reactor模式 一个线程监视一堆连接,同步等待一个或多个事件到来,然后将事件分发给对应的Handler处理 2.Kafka网络通信模型 引用源码(2.0.0)注释里的一段话: An NIO socket server. The threading model is 1 Acceptor th
阅读全文
posted @ 2020-07-30 23:52 马晟
阅读(595)
评论(0)
推荐(0)
2020年7月28日
Kafka分区管理
摘要: 1.优先副本的选举 优先副本是为了解决负载失衡的情况,是指在AR集合列表中的第一个副本,比如分区0的AR集合列表为[1,2,0],那么分区0的优先副本即为1。理想情况下优先副本就是该分区的leader副本 优先副本的选举是指通过一定的方式促使优先副本选举为leader副本,来促进集群的负载均衡,也称
阅读全文
posted @ 2020-07-28 23:46 马晟
阅读(495)
评论(0)
推荐(0)
上一页
1
2
3
4
5
下一页
公告