我所理解的监控系统

最近参与的银行项目,对于系统监控和告警机制都有一些新的理解。

但凡上生产的系统审计日志,运行日志,告警,监控都是最进本运维手段,没有这些,现场运维寸步难行。

告警系统总结出来应当有如下几点:

相同集群的同一组件或模块的告警应当单一,该策略主要应对的是重复发送告警,导致接受人麻木。

不同时段,告警渠道不同,如白天微信邮件,晚上短信。

在设计告警级别上,需要反复推敲,告警出现的可能以及实际问题对业务的影响,如zk断连不影响业务运行,夜晚可以不告警,只发邮件,白天再来处理。

告警次数限制,遵循M分钟内N次的策略,且告警自动消除后也需要有通知。

针对不同模块,不同重要程度,划分不同责任人,关键模块出现故障N分钟内无操作,或无恢复,告警上一级责任人(Leader)

 

posted @ 2018-01-28 18:26  向北说再见  阅读(190)  评论(0)    收藏  举报