语雀的运维更新出现bug导致服务全部下线
当微服务的状态发生改变,如扩缩容时,需要实时监控服务实例的状态,如果发生异常需要及时报警
1.服务流量的异常变化
2.服务实例状态的异常变化
3.调度异常状态
思路:
1. 原有的预警检测是测定稳态状况下的异常,当集群状态发生变化时,则需要判断数据波动是否正常,非正常则需要报警。
2.istio的服务级别指标的时间序列分析,log,服务负载的上一个状态和正在变化的状态