如何对系统进行监控告警?

监控是为了能让系统维护人员快速发现生产问题并定位到原因。

告警的类型有:

  • 批处理效率:包括日终跑批处理效率和数据处理效率。需要配置超时阀值及监控。
  • 流量监控:主要监控的指标有:TPS(每秒完成事务量)、HPS(每秒服务端收到的请求数)、IOPS(单位时间内系统能处理的IO请求数量)、QPS(每秒服务端响应客户端的查询数量)。
  • 异常监控:程序异常等,可以记录失败响应码及相关的报错信息到日志中。
  • 资源利用率:生产环境配置系统资源时需要对系统资源利用率有一个预测,比如redis何时会耗尽内存,数据库何时会用光磁盘,需要在资源达到饱和前设置阀值,提前做好系统扩容。

监控系统需要考虑几个指标:

  1. 根据监控目标来指定监控指标采样频率,频率过高会增加监控成本。
  2. 监控覆盖了最好能覆盖所有核心指标。
  3. 监控需要注意有效性,不是越多越好。
  4. 需要注意告警时效,不同的告警应有不同的应对时效,不是所有告警都需要开发人员马上处理。
  5. 为避免长尾效应,最好不要使用平均值。

以上参考:https://mp.weixin.qq.com/s/1sFYTtruqd9Dcmw4s6IY8g

posted @ 2021-04-17 23:59  smallzhen  阅读(571)  评论(0编辑  收藏  举报