数据质量管理_定时任务(运维)监控应该包含哪些内容

以阿里云的运维大屏为例。

一、重点关注的数量统计，统计实例的运行情况和节点的运行情况。(实例就是节点每次到时间了的具体执行的任务)

重要的实例数量包括：

除了每天要观察运行的实例数量，我们还要观察节点的数量。

具体例子如下图所示，可以切换"全部"和"我负责的"

二、关注当前调度的任务的整体的运行情况，得到一个全局的概览，一般按天统计

整体节点的运行情况可分为：

运行成功、运行中、运行失败。

未运行，其中未运行的原因包括：上游依赖未运行，资源未到(就是上述的等资源实例)、调度时间未到。

和第一个图一样，可以看到运行失败和等资源实例，不一样的是，可以通过饼图看到整个任务各个情况的所占比例。

具体如下图饼图所示，这里的未运行就是上游依赖未运行

三、任务完成情况的时点图(折线图)

观察当天每个时点的完成进度，可以和昨日做对比，也可以画其他历史平均线。

如下图所示，该图是当日累积完成的任务数量

四、资源调度时点图

上图是累积完成数量，也可以做每个时点各自完成的数量，查看实例的高峰期在哪个时点，包括资源的使用在哪个时点，

这样就可以观察到资源使用的高峰期，对资源做合理的分配，防止到时间的任务出现等资源的情况。

下图将实例数量和资源使用率合在了一张折线图上。

可以看到2点到3点的资源使用和任务数量非常的高，应该重点优化。

五、以上都是一天的统计值，具有偶发性，我们需要找出那些一段时间内运行问题较大的任务，可以观察一段时间内，执行时长和出错次数最多的top10，如下图所示

可以调整每张表的粒度，如周期为近一个月或最近七天，也可以按照人维度排行，看看哪位开发人员的任务最需要优化。

六、在更长一段时间内观察，比如一年。可以观察节点或实例的变化值，如下图所示

七、其他。

如果节点由多种编码组成，可以查看当前任务的类型的分布。

posted @ 2021-04-15 17:25 肥仔佳文猪阅读(565) 评论(0) 收藏举报

刷新页面返回顶部