摘要:以下我们描述如何使用 Elastic 技术栈来为 Kubernetes 构建监控环境。可观测性的目标是为生产环境提供运维工具来检测服务不可用的情况(比如服务宕机、错误或者响应变慢等),并且保留一些可以排查的信息,以帮助我们定位问题。总的来说主要包括3个方面: 监控指标提供系统各个组件的时间序列数据, 阅读全文
posted @ 2020-07-30 14:34 PassZhang 阅读(111) 评论(0) 推荐(0) 编辑
摘要:故障管理:鼓励做事,而不是处罚错误 故障发生后,我们一定要严肃对待,要对关键责任人或责任方定责,但是定责的目的不是处罚,因为故障复盘一旦以处罚为导向,就会导致非常严重的负面效应。 我们应该如何对待定责和处罚呢?今天就来分享一下我的理解,以及我个人的一些处理方式。 关于定责和处罚 定责的过程,是找出根 阅读全文
posted @ 2020-07-30 14:32 PassZhang 阅读(42) 评论(0) 推荐(0) 编辑