Spark Streaming揭秘 Day21 动态Batch size实现初探(下)

Spark Streaming揭秘 Day21

接昨天的描述，今天继续解析动态Batch size调整的实现。

动态调整采用了Fix-point迭代算法，其本质是一种回归计算，算法如下：

有点类似机器学习，学习当前SparkStreaming的状况，根据状况把Batch Duration调到最小，来获得最高的稳定性。

下面这张图比较重要，是主要描述了算法的实现思想：

基本思想是按100ms一个小的批次，根据处理情况，Job Generator会调整自己的Batch Duration。非常关键的就是在处理过程中加入了Controller这个组件，会获取作业的统计信息，动态调整时间窗口

根据测算，动态调整算法效果表现非常的稳定，成功了消除不同算子特性造成的效率波动。

同时，算法也能很好的适应外界的干扰，如下场景是指运行是突然有其他的作业加入，拿走了部分资源，这时，动态调整机制也能够有效进行工作。

文中的算法比较复杂，基于相同的思路，在SparkStreaming中有一个轻量级的实现。

最关键的是Controller组件：

其实现主要包含两个步骤：

计算代码如下，在每次Job处理完成后，根据收集的信息评估消费数据的能力。

发布代码如下，是直接调用了ReceiverTracker的接口，发送速率调整的通知。

从速率控制的实现来看，可以通过控制最大接收速率，不过这个参数作用不大，不建议设置。

DT大数据每天晚上20：00YY频道现场授课频道68917580

posted @ 2016-06-06 23:06 哎哟慰阅读(663) 评论(0) 收藏举报

刷新页面返回顶部