摘要: 本篇开始介绍具体的实现过程,为表述方便,先定义一些名词, AutoRepairSystem: 故障自动维修系统, 缩写为ARS 原子操作:任务的最小操作,机器任务通常是指重启、重装 运维人员:运维工程师= SRE = OP,系统工程师 = sys 远程管理工具: 远程控制操作物理机器的工具,如ipm 阅读全文
posted @ 2020-01-02 08:23 曲行人 阅读(646) 评论(0) 推荐(0)
摘要: 前言 大规模集群,通常是一家公司经过多年发展积累起来的,机器规模达到数万台,服务类型涉及接入、web、业务逻辑、cache、大数据、机器学习等,有以下特点, 特点 现象&问题 机器规模大, 过保机器多,故障率高 数万台机器的集群,过保机器超过30%,硬件故障率约1.3%,其中磁盘故障率约7.5% 业 阅读全文
posted @ 2019-12-29 18:07 曲行人 阅读(420) 评论(0) 推荐(0)