会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
曲行人
博客园
首页
新随笔
联系
订阅
管理
2020年1月
大规模机器集群-故障自动处理(二)
摘要: 本篇开始介绍具体的实现过程,为表述方便,先定义一些名词, AutoRepairSystem: 故障自动维修系统, 缩写为ARS 原子操作:任务的最小操作,机器任务通常是指重启、重装 运维人员:运维工程师= SRE = OP,系统工程师 = sys 远程管理工具: 远程控制操作物理机器的工具,如ipm
阅读全文
posted @ 2020-01-02 08:23 曲行人
阅读(646)
评论(0)
推荐(0)
2019年12月
大规模机器集群-故障自动处理(一)
摘要: 前言 大规模集群,通常是一家公司经过多年发展积累起来的,机器规模达到数万台,服务类型涉及接入、web、业务逻辑、cache、大数据、机器学习等,有以下特点, 特点 现象&问题 机器规模大, 过保机器多,故障率高 数万台机器的集群,过保机器超过30%,硬件故障率约1.3%,其中磁盘故障率约7.5% 业
阅读全文
posted @ 2019-12-29 18:07 曲行人
阅读(420)
评论(0)
推荐(0)
公告