redis问题排查

redis可能原因分析：

慢查询
bigkey大对象
swap
fork子进程
AOF刷盘阻塞
Redis输入、输出缓冲区导致的阻塞
网络问题

慢查询

因为Redis是单线程的，所以如果出现大量的慢查询，可能会导致redis-server阻塞，可以通过slowlog get n 获取慢日志查看详细情况，如下所示

另外还可以通过CONFIG GET slowlog-*来查看现有的配置

bigkey大对象

bigkey大对象可能导致的问题如下

内存空间不均衡：例如在Redis Cluster中，其会造成节点的内存空间使用不均匀
超时阻塞：由于Redis单线程的特性，操作bigkey比较耗时，意味着阻塞Redis的可能性增大
网络阻塞：每次获取bigkey产生的网络流量较大。
但是要是几乎不会被访问到，那么只有内存空间不均匀的问题存在，影响不大，但是如果其是一个热点key（频繁访问），那么其影响还是很大的。

可以通过 redis-cli -h {ip} -p {port} bigkeys 发现大对象。见《redis-cli 命令详解》

swap

如果一个 Redis 实例的内存使用率超过可用最大内存（used_memory > 可用最大内存），那么操作系统开始进行内存和 swap 空间交换，把内存中旧的或不再使用的内容写入硬盘上（硬盘上的这块空间叫 Swap 分区），以便腾出新的物理内存给新页使用。

在硬盘上进行读写操作要比内存上慢了近5个数量级 —— 内存是 0.1μs 单位、硬盘是 10ms。如果 Redis 进程上发生内存交换，那么 Redis 和依赖 Redis 上数据的应用会受到严重的性能影响。

查看 used_memory 指标可知道 Redis 正在使用的内存情况，识别 Redis 内存交换的检查方法：

识别 redis 进程号

redis-cli info server | grep process_id

根据进程号查询内存交换信息

cat /proc/{process_id}/smaps | grep Swap

如果交换量都是 0KB 或者个别 4KB，是正常现象。

预防内存交换：

保证机器充足的可用内存；
确保所有 redis 示例设置最大可用内存（maxmemory），防止极端情况下 redis 内存不可控的增长；
降低系统使用 swap 优先级，如 echo 10>/proc/sys/vm/swappiness。

四、fork 子进程

在 RDB 生成和 AOF 重写时，会 fork 一个子进程完成持久化工作，当 fork 操作执行太过耗时也会造成阻塞，阻塞原因是该操作会复制父进程的空间内存表，即 fork 操作耗时跟内存量（数据集）关系较大。

fork 操作是重量级操作，会复制父进程的空间内存表（理论上需要复制与父进程同样的内存，但是 linux 有写时复制机制，父子进程贡献相同的物理内存页，实际会小很多，10G 大概只需要 20MB）。

fork 耗时应该在 20ms/GB；应该严格控制每个实例可使用的最大内存 10GB 以内（复制空间内存表）；降低 fork 操作执行频率，适当放宽 AOF 重写触发时机。

使用 info stats 命令获取 lastest_fork_usec 指标，表示 redis 最近一次 fork 操作耗时。

五、AOF 刷盘阻塞

开启 AOF，文件刷盘一般每秒一次，硬盘压力过大时，fsync 需要等待写入完成。

查看 redis 日志或 info persistence 统计中的 aof_delayed_fsync 指标。

六、Redis 输入缓冲区可能导致的阻塞

输入缓冲区：redis 为每个客户端分配了输入缓冲区，其会将客户端发送命令临时保存，然后取出来执行。 qbuf 表示总容量（0 表示没有分配查询缓冲区），qbuf-free 表示剩余容量（0 表示没有剩余空间）；大小不能超过 1G，当大小超过 1G 时会将客户端自动关闭，输入缓冲区不受 maxmemory 限制。

当大量的 key 进入输入缓冲区且无法被消费时，即可造成 redis 阻塞；通过 client list 命令可定位发生阻塞的客户端；通过 info clients 命令的 blocked_clients 参数可以查看到当前阻塞的命令。

七、Redis 输出缓冲区可能导致的阻塞

输出缓冲区（client output buffer）：是 redis-server 端实现的一个读取缓冲区，redis-server 在接收到客户端的请求后，把获取结果写入到 client buffer 中，而不是直接发送给客户端。从而可以继续处理客户端的其他请求，这样异步处理方式使 redis-server 不会因为网络原因阻塞其他请求的处理。

redis client buffer 的配置参数为 "client-output-buffer-limit"，默认值为：

127.0.0.1:6379> CONFIG GET "*output*"
1) "client-output-buffer-limit"
2) "normal 0 0 0 slave 0 0 0 pubsub 0 0 0"

class ：客户端种类，normal、slave、pubsub
- normal：普通的客户端
- slave：从库的复制客户端
- pub/sub: 发布与订阅的客户端
hard limit: 缓冲区大小的硬性限制。
soft limit: 缓冲去大小的软性限制。
soft seconds：缓冲区大小达到了（超过）soft limit 值的持续时间。

client-output-buffer-limit 参数限制分配的缓冲区的大小，防止内存无节制的分配。参数的默认值都为 0，意思是不做任何限制。

redis server 触发保护机制主要有两种情况：

client buffer 的大小达到了 soft limit 并持续了 soft seconds 时间，将立即断开和客户端的连接。
client buffer 的大小达到了 hard limit，server 也会立即断开和客户端的连接。

八、网络问题

1. 连接拒绝

网络闪断：一般在网络割接或带宽耗尽的情况；
redis 连接拒绝：连接数大于 maxclients 时拒绝新的连接进入，可以关注 info stats 的 rejected_connections 指标；
连接溢出：
- 进程限制：进程可打开最大文件数控制 —— ulimit -n，通常 1024，大量连接的 redis 需要增大该值；
- backlog 队列溢出：系统对于特定端口 tcp 连接使用 backlog 队列保存，redis 默认 511，系统 backlog 默认 128，线上可使用 cron 定时执行 netstat -s | grep overflowed 统计；

2. 网络延迟

测量机器之间的网络延迟

redis-cli -h {ip} -p {port} –latency
redis-cli -h {ip} -p {port} –latency-history 默认15秒完成一行统计，-i控制采样时间
redis-cli -h {ip} -p {port} –latency-dist 统计图展示，每1秒采样一次

参考：https://blog.csdn.net/issunmingzhi/article/details/110086937

posted on 2021-11-22 15:13 duanxz 阅读(421) 评论(0) 收藏举报