随笔分类 -  监控体系

摘要:背景 目前crontab出现问题后无感知,发现问题不及时,几乎是靠业务部门或用户反馈的方式,研发部门再排查的方式,处理问题、发现问题相对滞后,由此可见需要进一步优化crontab的稳定性,降故障通知前置,在用户反馈之前接受故障处理故障. 历史问题总结: 人为误操作导致所有的crontab全部清空 定 阅读全文
posted @ 2025-04-22 13:39 Topic 阅读(795) 评论(2) 推荐(1)
摘要:一、监控的分类 基础资源监控系统: zabbix open-falcon n9e(夜莺) prometheus (CNCF) cacti nagions ganglia 应用程序监控(APM): Pingpoint ,Twitter的Zipkin,美团的CAT 商业化厂商: 听云 日志监控: ES 阅读全文
posted @ 2021-06-16 23:31 Topic 阅读(415) 评论(0) 推荐(0)
摘要:使用ES做聚合运算的时候,有时候会遇到这个错误 Fielddata is disabled on text fields by default. Set fielddata=true on [host] in order to load fielddata in memory by uninvert 阅读全文
posted @ 2020-12-19 21:01 Topic 阅读(750) 评论(0) 推荐(0)
摘要:很久没有安装过zabbix,理论上应该是很简单,但是还是遇到好几个小问题,导致浪费了两个小时时间了要,特此记录一下 如果没有研发源码的能力,建议选择LTS版本 zabbix 4.0 官方安装文档: https://www.zabbix.com/documentation/4.0/zh/manual/ 阅读全文
posted @ 2020-03-21 17:08 Topic 阅读(1572) 评论(0) 推荐(0)
摘要:背景: 如果我们运维的是web网站, 那么http的状态码是必须要监控的,当出现4xx 5xxx的状态码的时候需要能发出报警,然后定位问题。当我们监控nginx的状态码出现错误状态码的时候, 一般的处理方法是通过kibana查询是哪个接口导致从而确定是哪个服务,再进一步登录业务机器查询业务日志确定原 阅读全文
posted @ 2019-06-17 15:42 Topic 阅读(956) 评论(0) 推荐(0)
摘要:为了更好的用户体验,我们需要尽量美化我们的输出内容,尽量做到整齐划一,让人看了会有很舒服的感觉, 这个好像和苹果的产品一样,给人一种美感让人感觉非常享受。 一般我们的zabbix告警邮件就是纯文字,建议发送邮件的时候采用html的信体方式发送,并且表格化、颜色化输出。 下面是我的模板代码,可以根据自 阅读全文
posted @ 2017-07-22 22:36 Topic 阅读(4467) 评论(3) 推荐(0)
摘要:监控是运维工程师避不开的环节,在灾难即将发生的时候可以有效的预防,例如磁盘空间的监控。 再者就是当问题出现的时候可以快速的定位,快速响应,解决问题。下面就监控的项目进行了简单 的分类整理,监控系统目前主流大家都使用的是zabbix,当然小米的也有在使用的。 系统层面: 1. 基础监控. cpu指标: 阅读全文
posted @ 2017-07-02 19:05 Topic 阅读(961) 评论(0) 推荐(0)
摘要:zabbix_server: zabbix_server.conf : # Add JavaGateway=127.0.0.1 JavaGatewayPort=10052 StartJavaPollers=5 # restart service service zabbix_server restart /usr/sbin/zabbix_java/settings.sh # ... 阅读全文
posted @ 2016-04-07 13:38 Topic 阅读(362) 评论(0) 推荐(0)

转载请注明出处. 作者: 运维的自我修养 地址: http://www.cnblogs.com/topicjie/