随笔分类 - Trouble Shooting
摘要:容错方式 错误始终会出现,不可避免,但可以尽最大可能延迟发生和降低错误的影响。 消除单点 实现系统更高的可用性,首先要消除单点,通过负载均衡分配流量,部署多个业务服务,存多份数据。 节点数越多,可用性就越高,根据实际情况避免浪费资源。 特性开关 实现简单的特性开关,通过配置文件或者程序中的一个静态变
阅读全文
posted @ 2024-10-22 16:03
Anliven
摘要:日志备份管理 作为历史数据的最终保存地,备份系统自身的可用性及数据存储策略显得格外重要。 如果实现本地数据双备份和重要数据跨机房复制后,那么在任何情况下均能保留一份可用副本。 关键要素 备份策略 过期时间 离线归档 恢复验证 数据分类 生产环境中备份数据可以归类为日志文件、数据文件、镜像文件等 日志
阅读全文
posted @ 2024-07-26 11:32
Anliven
摘要:应用系统评估 基本情况 应用系统配置信息完备程度 环境: 网络带宽、部署地点、部署机房等 硬件: 内存、硬盘、CPU等 软件: 操作系统、数据库、中间件等 文档: 开发文档、用户文档、产品文档等 服务: 业务服务时段、批量运行时间、停机维护时间、交易高峰时间等 应用:应用服务目录、应用支持系统、应用
阅读全文
posted @ 2024-07-26 10:55
Anliven
摘要:问题管理 问题的报告、受理、分派、督促、反馈、解决、跟踪、总结等工作过程 面对的问题 疲于解决重复性事件和问题 缺乏运维自动化:跟踪效率低,问题流转过程长; 流程性工作繁重:缺乏沉淀,难以形成问题库和深度挖掘分析底层原因和问题间关系 难以把控运维全局:不利于工作总结和持续优化 应用问题的一些基本定义
阅读全文
posted @ 2024-07-26 10:40
Anliven
摘要:通过 grep 命令查看指定配置内容 grep -vE '^#|^$' <filename> # 显示指定的内容(非空行、非注释) # -E 表示 "或" 的关系 # "^" 表示行首,"^#" 表示以#开头的行 # "$" 表示行尾,"^$" 表示空行 通过 stat 命令显示文件状态信息 # 可
阅读全文
posted @ 2024-07-25 16:41
Anliven
摘要:JStack JStack是java虚拟机自带的一种堆栈跟踪工具,主要用来查看Java线程的调用堆栈的,可以用来分析线程问题(如死锁)。 命令帮助 $ jstack -help Usage: jstack [-l] <pid> (to connect to running process) jsta
阅读全文
posted @ 2024-07-24 22:29
Anliven
摘要:本文是对 " 解决问题的一些方法" 内容的改写与补充! 首要的问题 对于发生在线上的问题, 最紧要的事项一定是“以最快最有效的方式解决问题,降低对线上业务的影响”,然后才是深挖问题,探求根本原因,防微杜渐,未雨绸缪。 而对于非线上问题,客观上会有“相对多一点的处理时间、多一些的分析和处理方法”。 1
阅读全文
posted @ 2019-07-29 21:30
Anliven
摘要:本文是已读书籍的内容摘要,少部分有轻微改动,但不影响原文表达。 ISBN: 9787508644691 https://book.douban.com/subject/25873066/ 5 基本的思考方法 在理清思绪的前提下采取行动是决定成果的关键。 5.1 不要只从硬币的正反面考虑问题 试着形成
阅读全文
posted @ 2019-05-24 00:33
Anliven
摘要:本文是已读书籍的内容摘要,少部分有轻微改动,但不影响原文表达。 ISBN: 9787508644691 https://book.douban.com/subject/25873066/ 1 专业作风 1.1 客户第一主义 正规的工作方法:分析案例、展开讨论、逻辑思考、框架分析、资料制作、图表绘制等
阅读全文
posted @ 2019-05-22 23:15
Anliven
摘要:原文链接 今天要说的这种分析问题的方法,它是所有“自我提升方法论”的基石,掌握这种分析问题的方式,你认知世界的方式将发生巨大转变。 曾经困扰你许久的问题会迎刃而解,一直在努力却不见成效的学习会突破瓶颈——瞧,这就是“系统思考”的魅力。 所谓系统思考,就是要“观察整体”,即认为我们学习、工作与生活中的
阅读全文
posted @ 2018-12-04 23:37
Anliven
摘要:"原文 线上系统性问题定位与方法论" 一线程序员在工作中经常需要处理线上的问题或者故障,但工作几年下来发现,有些同事其实并不知道该如何去分析和解决这些问题,毫无章法的猜测和尝试,虽然在很多时候可以最终解决问题,但往往也会浪费大量的时间,时间就是金钱,对线上系统而言甚至是生命。 本文尝试将本人工作过程
阅读全文
posted @ 2017-11-27 23:37
Anliven
摘要:故障处理的关键指标 使用故障树作为参考模型,把故障树的每个分支与错误的可能性相关联,通过可能性来指导诊断过程 在灾难发生时,需要保持关键服务可用,也许可以容忍数据的丢失,但无法容忍不能提供服务 使用2个关键参数对能够维持业务连续性的多个可选方案进行成本/收益分析 目标恢复时间(Recovery Ti
阅读全文
posted @ 2017-10-27 23:39
Anliven
摘要:"原文 系统管理员的 18 个基本准则" 01 靠规则而活 不是仅仅只要知道怎么建立维护服务器和理解系统命令是怎么工作的就可以让你成为一个好的系统管理员。 甚至也不是知道当系统宕掉时怎么去修复,怎么去监控系能,怎么去管理备份或者怎么可以写出漂亮的脚本。 而是除此之外还要为自己制定一套能让系统良好运行
阅读全文
posted @ 2017-08-27 23:42
Anliven
摘要:此文为转载,原文出处难以明确考证,特此说明! 前言 高效的逻辑思维能力无比重要。它能立刻让你找到问题的关键,让问题迎刃而解。 简单先说一下我对逻辑思维的理解。逻辑思维的过程,是化繁为简,目的,是找到解决方法。因此,所有和“寻求解决方法”无关的信息,都是无用信息,都需要剔除。 花半秒钟就看透事物本质的
阅读全文
posted @ 2017-02-08 13:51
Anliven
摘要:On Duty This is xxx and will be duty engineer in the next week. Thanks. Here is a kindly reminder. This is xxx and will take the duty task in the next
阅读全文
posted @ 2016-12-26 17:47
Anliven
摘要:定义与区分运维中的事件、变更、应急与问题 运维管理工作可以分为事件管理、变更管理、问题管理等几个方面。 事件管理 事件是指在信息系统运行中引起或可能引起服务中断或服务水平质量下降的活动及服务请求,包括生产故障事件及服务请求等。 事件管理就是在生产环境中对各类生产运行事件的报告、受理、处理和反馈的管理
阅读全文
posted @ 2016-12-19 14:33
Anliven
摘要:可用性与可靠性 可用性 关于系统可以被使用的时间的描述,以丢失的时间为驱动 可用性百分比 = 可用时间 / ( 可用时间 + 不可用时间 ) 可靠性 关于系统无失效时间间隔的描述,以发生的失效个数为驱动 可靠性百分比 = 平均无故障工作时间 / ( 平均无故障工作时间 + 平均故障修复时间 ) 平均
阅读全文
posted @ 2016-11-27 22:06
Anliven
摘要:Grep with Regular Expression grep命令基本用法 grep [-acinv] [--color=auto] [-A n] [-B n] '搜寻字符串' 文件名参数说明: -a:将二进制文档以文本方式处理-c:显示匹配次数-i:忽略大小写差异-n:在行首显示行号-A:Af
阅读全文
posted @ 2016-11-01 10:15
Anliven
摘要:获取基本的相关信息(后续处理问题的基础) 在怎样的背景环境下?发生了怎样的问题? 如果无法清楚地辨别或陈述问题的基本信息,那么,此时要面对的将不仅仅是问题本身! 问题的归属(自身的问题?还是外部问题?) 问题现象的描述 级别及影响(影响层面、时间和资源投入等) 对应级别和影响的问题,应由对应级别和影
阅读全文
posted @ 2016-04-12 23:20
Anliven

浙公网安备 33010602011771号