08 2020 档案

摘要:第一章 可靠性 针对系统的容错设计,提高系统错误的抛出率,而不是忽略它(除了安全这种不可恢复类型的),尽量避免failure 硬件错误 硬件自身容许设计 软件系统的灵活性与弹性。即容许整台机器异常,而不影响系统 软件错误 影响范围大,连锁反应,排查难。bug,依赖服务错误等 避免:考虑全面,全面测试 阅读全文
posted @ 2020-08-30 13:47 erenming 阅读(304) 评论(0) 推荐(0)
摘要:问题的发现 周五,本是一个风清气爽,令人愉悦的日子。我本还在美滋滋地等待着下班,然而天有不测,有用户反应容器日志看不到了,根据经验我知道,日志采集&收集链路上很可能又发生了阻塞。 登录目标容器所在机器找到日志采集容器,并娴熟地敲下docker logs --tail 200 -f <containe 阅读全文
posted @ 2020-08-02 13:09 erenming 阅读(477) 评论(0) 推荐(0)