摘要: 分片分布是把索引分片分布到节点的过程。这个操作会在初次启动集群,副本分配,负载均衡,或增加删除节点时进行。 下面是一些与分片分布相关的设置: cluster.routing.allocation.allow_rebalance 设置根据集群中机器的状态来重新分配分片,可以设置为always, ind 阅读全文
posted @ 2021-07-19 18:47 运维小兵#杨 阅读(705) 评论(0) 推荐(0)
摘要: 1.server.properties配置 在创建topic时候设置参数,会覆盖server.properties的相同属性的配置 log.retention.bytes=xxx topic每个分区的最大文件大小,一个topic的大小限制 = 分区数*log.retention.bytes。-1没有 阅读全文
posted @ 2021-07-19 17:53 运维小兵#杨 阅读(2160) 评论(0) 推荐(0)
摘要: 一、prometheus安装 1、下载二进制包 cd /opt wget https://github.com/prometheus/prometheus/releases/download/v2.5.0/prometheus-2.5.0.linux-amd64.tar.gz tar zxf pro 阅读全文
posted @ 2021-07-19 17:06 运维小兵#杨 阅读(1127) 评论(0) 推荐(0)
摘要: #!/usr/bin/python3.6 # -*- encoding: UTF-8 -*- import json import requests import time now_time=time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time. 阅读全文
posted @ 2021-07-19 15:53 运维小兵#杨 阅读(315) 评论(0) 推荐(0)
摘要: 脚本通过rabbitmq的15672端口的api获取的监控信息上报至open-falcon,某些队列触发了报警信息,然后直接被管理员在rabbitmq删除了队列,导致open-falcon的报警无法自动恢复,写个脚本可以自动判断下没有上报数据的队列,然后补一个值让告警自动恢复 # -*- codin 阅读全文
posted @ 2021-07-19 15:38 运维小兵#杨 阅读(238) 评论(0) 推荐(0)
摘要: 案例描述 说明 模版机新克隆机器,或者现有生产服务器重启,agent报警无法恢复 案例分析 事故过程 说明 模版机新克隆机器,或者现有生产服务器重启,endpoint报警无法恢复 问题影响 说明 无法监控目标主机,服务端transfer的debug日志会有相同endpoint相同时间刷冲突日志 技术 阅读全文
posted @ 2021-07-19 15:25 运维小兵#杨 阅读(86) 评论(0) 推荐(0)
摘要: 案例描述 说明 一个机器的alive如果不加入hostgroup,就是正常的,都是1,一旦加入hostgroup后就变成-1了, 其他的监控项都正常 案例分析 事故过程 说明 添加一台机器到hostgroup,结果触发告警,取值为-1 问题影响 说明 异常数值的机器无法正常监控agent存活 技术分 阅读全文
posted @ 2021-07-19 15:20 运维小兵#杨 阅读(151) 评论(0) 推荐(0)
摘要: 案例描述 说明 openfalcon的alarm运行一段时间不告警 案例分析 事故过程 说明 alarm组件运行一段时间不告警,日志显示都是ok状态 问题影响 说明 影响正常的故障报警,导致告警系统失效 技术分析 说明 经过排查,judge可以正常写入到redis中,key为event_cases, 阅读全文
posted @ 2021-07-19 15:14 运维小兵#杨 阅读(195) 评论(0) 推荐(0)
摘要: 案例描述 问题描述 open-falcon添加host后,个别主机名报警不生效 案例分析 技术分析 根据排查日志,发现nodata组件里面主机名后面带了多个空格,前端添加host发现,默认自动添加了空格,经过排查数据库主机表,发现主机表里默认已经存在主机名,且后面有空格,但是open-falcon主 阅读全文
posted @ 2021-07-19 15:07 运维小兵#杨 阅读(99) 评论(0) 推荐(0)
摘要: 一、网络分区的判定 网络分区的发生多与网络问题有关,RabbitMQ中net_ticktime这个参数用来判定网络分区,默认为60s。在集群中的每个节点会每隔 net_ticktime的1/4 (也就是默认15秒)来计一次tick,如果有任何数据被写入此节点中,那么此节点被ticked,一个节点连续 阅读全文
posted @ 2021-07-19 14:45 运维小兵#杨 阅读(777) 评论(0) 推荐(0)