TakinTalks稳定性社区

  博客园 :: 首页 :: 新随笔 :: 联系 :: 订阅 :: 管理 ::

随笔分类 -  技术随笔

摘要:# 一分钟精华速览 # 故障复盘指的是及时把过去发生的错误,最大程度转化为未来可以规避的办法,其核心是不断减少失败因子繁衍的温床,将它们牢牢地掌控在不至于引发危机的范围之中。 作为国民基础设施的哈啰出行,在保障超 5.3 亿注册用户体验和系统稳定性过程中,是如何通过系统的、有策略的总结复盘来避免故障 阅读全文
posted @ 2022-12-22 17:23 TakinTalks稳定性社区 阅读(233) 评论(0) 推荐(0)

摘要:一分钟精华速览 在研发和稳定性保障过程中,人与设备、程序、组织的交互是一个复杂的过程,虽然人们极少会恶意犯错,但由于受特定情景下的实际条件影响,人为失误也时有发生,那么,如何尽可能减少这些失误的发生?如何保障研发质量和系统稳定? 「TakinTalks 论道系列」12 月刊第三期,即将发布,敬请期待 阅读全文
posted @ 2022-12-15 15:40 TakinTalks稳定性社区 阅读(221) 评论(0) 推荐(0)

摘要:# 一分钟精华速览 # 混沌工程是在分布式系统上进行实验,在整个系统中随机位置通过工具引发故障,从而提高系统健壮性以及人员的响应效率,建立对系统抵御生产环境中失控条件的能力以及信心的手段。虽然混沌工程已经发展了十余年,但对大部分公司和研发团队,它仍是一个比较陌生的领域。本文总结了去哪儿 2019 年 阅读全文
posted @ 2022-12-14 12:26 TakinTalks稳定性社区 阅读(169) 评论(0) 推荐(0)

摘要:相比在分布式系统上进行随机的故障注入实验,基于混沌工程的大规模自动化故障演练,不仅能将“作战演习”常态化,还能通过提高覆盖面而获得更高的产出价值,帮助更全面地完善故障应急预案和处理体系。 阅读全文
posted @ 2022-12-14 12:24 TakinTalks稳定性社区 阅读(109) 评论(1) 推荐(0)

摘要:美图崇尚的故障文化是 “拥抱故障,卓越运维”,倡导的基准是 No-Blame, 即「不指责,重改进」。今年 9 月 TakinTalks 社区曾经分享过美图的三段式故障治理方法(美图 SRE:一次线上大事故,我悟出了故障治理的 3 步 9 招),这次重点讲讲故障治理中的最后一个重要环节 —— 故障后 阅读全文
posted @ 2022-10-14 16:02 TakinTalks稳定性社区 阅读(607) 评论(0) 推荐(0)

摘要:​ 我们在github上收到社区用户的问题反馈: ​ 用户原先应用已经接入skywalking,需要再接入数列的LinkAgent时启动会抛java.lang.UnsupportedOperationException,导致应用启动失败。 ​ 也就是说在不修改代码的情况下如果需要启动应用,skywa 阅读全文
posted @ 2022-03-18 17:33 TakinTalks稳定性社区 阅读(129) 评论(0) 推荐(0)