摘要:一分钟精华速览 当成千上万的服务器都处于低利用率时,就意味着巨额的浪费,良好的容量管理可以帮助消除某些“最后时刻”的临时应急式的盲目或者超量采购。除了成本合理控制方面,容量管理还要预估对客户可能产生影响的业务发展和风险变化。 B站在降本增效大背景下,从业务视角对整体容量做了可视化管理,本文详细描述了
阅读全文
03 2023 档案
摘要:一分钟精华速览 聊稳定性治理的文章很多,但面对系统的“各类疾病”,到底该从哪里着手才能立竿见影,怎么才能“药到病除”?相信在看这个问题时,大家会抱着“能不能学两招回去用”的心态阅读。 「TakinTalks论道系列」第3期,我们采访了4位资深从业人员,分别从CTO、稳定性负责人、SRE架构师、研发工
阅读全文
摘要:一分钟精华速览 可观测能力是指在复杂的软件系统中能及时、准确感知到服务状态,特别是异常或故障的发生,确定异常的影响范围、异常部位边界、判定异常点位、并由相关人员或软件做出准确决策的能力。 本文作者结合虎牙SRE实践及20余年架构、研发、运维经验,重点讲述如何设计和建设观测能力,做到分钟级感知故障、定
阅读全文
摘要:引言 保险业务的数字化转型正如火如荼地进行,产品线上化、投保线上化、承保线上化、核保线上化等业务转型,导致系统的应用范围不断扩大,用户的高频访问也正在成为常态。同时,系统复杂性也呈指数上升,这些因素都增加了系统的稳定性风险。 中国人寿将无侵入在线压测作为防御稳定性风险的重要手段,作为保险行业首家落地
阅读全文

浙公网安备 33010602011771号