随笔分类 - 故障处理及改进
摘要:收到报警,某一域名报警404状态码五分钟超过2000条,通过日志分析平台可以快速定位故障。 可以看到主要是宁波的一个IP访问错误的url。如:xxx.51.com//Files/Image/diaosi.asp/lpnpl73757.jpg 解决办法: 1、限制访问频率,可参考ngx_http_li
阅读全文
posted @ 2017-03-04 14:43
hexm
摘要:早上收到502报警,设置的报警规则是502错误两分钟超过500就报警。 排障流程: 日志分析系统报障-->查看日志系统日志-->nginx错误日志-->php错误日志-->php-fpm.log日志 在日志分析系统里面看到产生502报警的机器只有一台xxx.xxx.xxx.170,客户端IP也只有一
阅读全文
posted @ 2016-12-29 10:17
hexm
摘要:早上接到open-falcon报警,一台mysql从库同步延迟2w多秒,mysql版本比较老,用的5.1.37。 连接从库查找原因: show processlist一下,查看哪些线程在跑。 看到Time=25565,也就是说这个线程保持当前状态25565秒,一直在执行Updating操作。怀疑是由
阅读全文
posted @ 2016-12-27 10:06
hexm
摘要:在grafana界面中发现不少499的状态码,在网上了解到出现499的原因大体都是说服务端处理时间过长,客户端主动关闭了连接。 既然原因可能是服务端处理时间太长了,看一下upstream_response_time时间可以了解到后端程序处理了多久。 先了解一下什么是upstream_response
阅读全文
posted @ 2016-12-13 17:16
hexm
摘要:先上图 图一 图二 午休之后~ 睡意朦胧,报警来了。看到121121Mbps的流量攻击,精神一震。 不到两秒,又来了一个短信,开始心塞。网站入口IP被封了。打开网站,全站瘫痪。紧接着运营就来了,让运营关闭外投,减小损失,然后开始紧急处理。 心里并不太慌,但是还有点小紧张,因为有充足的准备应对这种突发
阅读全文
posted @ 2016-12-08 21:11
hexm
摘要:事情要从俩月前的一个坑说起,一台新的测试服务器,新项目一元夺宝用的。 配置aws上的一台云主机,系统盘8G,一块300G的云硬盘。 拿到机器后,另一运维小哥安装php,nginx,mysql等软件。 安装完后,然忘了挂载云硬盘。 随着根分区日志越来越多,mysql数据量增大。。。磁盘已满,mysql
阅读全文
posted @ 2016-12-06 17:44
hexm
摘要:这是一个忧伤的故事,首先要从一次故障说起。。。。 事故 先简要介绍一下公司网站架构, 代理服务器分为一级代理和二级代理, 一级代理是腾讯云的负载均衡,抗压能力比较强,防范ddos能力比较强,重要业务入口放在一级代理之上,比如www,gameapi,game等,然后反向代理到我们自己服务器。 二级代理
阅读全文
posted @ 2016-11-29 17:49
hexm

浙公网安备 33010602011771号