数据质量管理_定时任务(运维)监控应该包含哪些内容
以阿里云的运维大屏为例。
一、重点关注的数量统计,统计实例的运行情况和节点的运行情况。(实例就是节点每次到时间了的具体执行的任务)
重要的实例数量包括:
- 失败实例的数量,这是每天要观察的数据,一般为早上。第一时间能观察到失败的数量,马上进行处理。
- 运行慢实例数量,有些任务没有失败,但是运行很慢,可能是倾斜了或者机器节点挂了,出现这些情况要快速定位,防止出现问题。
- 等资源实例数量。这些任务到时间了还没有开始执行,说明资源使用不够,要防止重要的任务在指定时间没有执行而出现问题。
除了每天要观察运行的实例数量,我们还要观察节点的数量。
- 孤立节点的数量:孤立节点将无法被触发运行,请及时治理避免影响业务
- 暂停节点的数量:暂时停止进行调度的节点。
- 过期节点的数量:已经超出定时的时间范围内,不再进行调度的节点
具体例子如下图所示,可以切换"全部"和"我负责的"

二、关注当前调度的任务的整体的运行情况,得到一个全局的概览,一般按天统计
整体节点的运行情况可分为:
运行成功、运行中、运行失败。
未运行,其中未运行的原因包括:上游依赖未运行,资源未到(就是上述的等资源实例)、调度时间未到。
和第一个图一样,可以看到运行失败和等资源实例,不一样的是,可以通过饼图看到整个任务各个情况的所占比例。
具体如下图饼图所示,这里的未运行就是上游依赖未运行

三、任务完成情况的时点图(折线图)
观察当天每个时点的完成进度,可以和昨日做对比,也可以画其他历史平均线。
如下图所示,该图是当日累积完成的任务数量

四、资源调度时点图
上图是累积完成数量,也可以做每个时点各自完成的数量,查看实例的高峰期在哪个时点,包括资源的使用在哪个时点,
这样就可以观察到资源使用的高峰期,对资源做合理的分配,防止到时间的任务出现等资源的情况。
下图将实例数量和资源使用率合在了一张折线图上。

可以看到2点到3点的资源使用和任务数量非常的高,应该重点优化。
五、以上都是一天的统计值,具有偶发性,我们需要找出那些一段时间内运行问题较大的任务,可以观察一段时间内,执行时长和出错次数最多的top10,如下图所示


可以调整每张表的粒度,如周期为近一个月或最近七天,也可以按照人维度排行,看看哪位开发人员的任务最需要优化。
六、在更长一段时间内观察,比如一年。可以观察节点或实例的变化值,如下图所示

七、其他。
如果节点由多种编码组成,可以查看当前任务的类型的分布。

浙公网安备 33010602011771号