Redis原理

Redis数据结构

动态字符串SDS

字符串是redis中非常常见的一个数据结构 redis是由C语言实现但是底层并没有采用C语言的字符串类型因为C语言字符串存在很多问题 C语言字符串底层是字符数组

获取字符串长度需要运算因为‘\0’的存在所以每次获取长度都需要-1 会造成额外的运算
非二进制安全由于‘\0’的存在所以写入的字符串也不能带有\0 会造成不安全的字符串
不可修改 c语言对字符串的申请都是直接申请到常量池里是不能修改的而且拼接需要扩容扩容就要重新申请空间难以拼接

因此redis就构建了一种新的字符串结构叫做SDS(Simple Dynamic String) 简单动态字符串
不过SDS底层也是字符串数组但是SDS的字符数组是自己来维护的然后SDS结构体声明了很多种 8字节 16字节 32，64字节 5字节的有但是已经被弃用了

SDS之所以叫动态字符串具备动态扩容的能力但是由于redis牵扯到模式切换用户态和内核态切换导致申请内存性能占用太大所以扩容是内存预分配方法扩容就是会多申请一些空间

如果新字符串小于1M 则新空间为扩展后的字符串长度的两倍+1
如果新字符串大于1M 则新空间为扩展后的字符串长度+1M+1

SDS优势

获取字符串长度时间是O(1)
支持动态扩容
减少内存分配
二进制安全

IntSet

是redis种set集合的一种实现方式基于整数数组实现具有长度可变有序等特征结构如下

但是虽然基于整数数组实现不过所有的增删改查全是靠IntSet自己维护实现的因为IntSet自己规定了编码方式所以全部东西就需要自己做然后为了效率的保证所以就会先排序做一个升序的数组再进行操作

为什么采用统一的编码方式来确定数字是为了方便查找因为是用指针来查找的然后统一编码格式比如两个字节之后查找公式就很简单了只需要知道角标知道每个数字所占字节数就能通过起始地址直接找到所需数字
另提一嘴:角标从0开始是表示和起始空间间隔0个元素 1就表示间隔1个元素然后查找的时候直接×角标即可如果从1开始就会多做一次不必要的减法运算减少性能
如果插入的数据超过了编码方式的范围比如插入50000 那么IntSet会有一个自动升级编码的功能

会先算好50000适合那种编码方式确定下来升级之后的编码方式
然后将原数组倒序重新按角标拷贝到扩容后的正确位置倒序是为了防止覆盖
放入新元素
更改头中的编码方式

而有序的实现底层是用二分查找来实现的当每有一个新数据进来之后都会根据二分来进行搜索然后如果找到相同的值直接返回因为是set集合确保唯一然后最大返回队尾最小返回队首其他进行二分过程中返回位置让原数组在这个pos之后的全部+1 当前数据就插入到pos这里

IntSet特点：

redis会确保IntSet中的元素唯一
具备类型升级机制节省内存空间
底层采用二分查找方式来查询

Dict

Dict实现

dictionary redis是一个键值型的数据库可以根据key实现快速的增删改查底层的关系就是通过Dict来实现的
Dict由三部分组成 哈希表(DictHashTable) 哈希节点(DictEntry) 字典(Dict) Dict中前两个是为了哈希运算后两个是为了rehash 只有ht[2]其中一个是保存数据另一个也是rehash 编码如下

然后java中的HashMap底层也是由Dict实现的流程都是先创建一个entry数组然后通过hash计算出key的值向数组中放数据然后如果两个数据的key一样就通过链表连接起来叫做哈希冲突 因为Dict还有一个指针就是解决哈希冲突的 dicht中的size和sizemask就是来做哈希运算的
具体流程就是先确定哈希表的大小就是size 规定size只能是2的n次方 然后向Dict添加键值对时会先根据key计算出hash值(h) 然后利用h&sizemask得到对size求余的余数

因为sizemask是2的n次方-1 永远都是剩下位数的全1 所以h后面的二进制数据直接就能得到对size求余的结果与运算效率更高求余就是为了保证插入的数据在哈希表中比如size是4 那么求余永远都是0 1 2 3 拿到余数之后就可以存放到哈希表中的所属下标位置了
结构如下

Dict扩容

Dict中的哈希表是数组加上链表所以当数据过大的时候会导致链表过长那么查询效率就会变低因此就需要扩容
Dict每次在新增键值对时都会检查负载因子（LoadFactor = used/size） 满足以下两种情况就会触发扩容

当LoadFactor >= 1 并且服务器没有执行BGSAVE或者BGREWRITEAOF时开始rehash 后两种命令都是redis中非常吃cpu的命令需要进行大量的读写所以当cpu空闲且大于1 就会扩容
当LoadFactor > 5

Dict收缩

总不能一直扩容当删除key的时候也会对负载因子做检查当LoadFactor < 0.1时就会做哈希表收缩

Dict的rehash

无论是扩容还是收缩都会新建一个hash表因此就会导致hash的size和sizemask发生变化之前计算的索引全部失效就需要重新根据key建立索引这个过程就是rehash 但是dcit的rehash不是一次性完成的因为是主线程操作数据量过大会阻塞因此dict的rehash是多次渐进式的完成被称为渐进式rehash
过程是：

计算新hash表的realeSize 取决于当前是做扩容还是收缩
- 如果是扩容那么新size就是第一个大于等于ht[0].used + 1的2的n次方
- 如果是收缩那么新size就是第一个大于等于ht[0].used的2的n次方
按照新的realeSize申请新的内存空间创建dictht 并且赋值给dict.ht[1]
设置dict.rehashidx = 0 表示开始rehash
每次执行新增查询修改删除操作的时候都检查一下dict.rehashidx是否大于1 如果大于则将dict.ht[0].table[rehashidx]的entry链表rehash到dict.ht[1] 并且将rehashidx++ 直到dict.ht[0]的所有数据都rehash到dict.ht[1] 也就是每次操作都会rehash一个索引下的数据逐渐完成
dict.ht[1]赋值给dict.ht[0] 给dict.ht[1]初始化为空哈希表释放原来的dict.ht[0]的内存
将rehashidx赋值为-1 代表rehash结束

注意：
在rehash过程中新增操作是直接写入ht[1]的查询修改删除都会在dict.ht[1]和dict.ht[0]一次查找并执行可以确保ht[0]的数据只减不增

ZipList

压缩表是一种特殊的双端链表不存在指针有特殊编码的连续内存块组成可以在任意一端进行压入/弹出操作并且这种操作的时间复杂度是O(1)
示例图如下：

entry所占的内存是不固定的会根据数据的大小动态分配内存

ZipListEntry

ZipListEntry的结构如下

previous_entry_length 前一节点的长度占1或5个字节方便倒序遍历
如果前一节点的长度小于254字节则采用1个字节来保存长度值
如果大于就是5个字节保存第一个字节为0xfe固定值后四个才是真实长度
encoding 编码属性记录content的数据类型（字符串还是整数）以及长度占用1或2或5个字节
contents 负责保存节点的数据可以是字符串或整数

当遍历的时候正序就算出起始位置的下一个entry 起址加上entry字节数倒序就用起址减去当前entry存放的previous_entry_length
注意：
ZipList存储长度的数值采用小端字节序低位字节在前高位字节在后如果是0x1234 小端字节序存储值就是0x3412 因为大部分都是地位存储方便读取

Encoding编码

字符串 如果encoding是以"00" "01" "10"开头则证明content是字符串存储

例如存储'ab'和'bc' 整个的ZipList应该是

注意此处有小端字节序
整数就是encoding以"11"开头证明其是整数且encoding表示整数固定占用1个字节

ZipList连锁更新问题

当插入删除的时候有可能插入数据过大导致后一个节点的pre_entry_len本来需要1个字节更新之后需要五个字节带上content超出了254 导致后一个节点需要更新pre_entry_len为5个字节后面的有可能都会变化这种连续更新多次扩展空间的操作就是连锁更新问题 新增删除都会出现这个问题

ZipList特性

压缩列表可以看成是一种连续内存空间的"双向链表"
列表的节点之间不是通过指针连接而是记录上一届点和本节点的长度来寻址内存占用较低
如果列表数据过多导致链表过长可能会影响查询性能
增或删较大数据时有可能发生连续更新问题

QuickList

快表引入快表回答三个问题

Q1 ZipList虽然节省内存但申请内存必须是连续空间如果内存占用较多申请效率低怎么办
限制ZipList的长度和entry大小
Q2 存储大量数据超出了ZipList的最佳上限怎么办
用多个ZipList分片存储做数据分片
Q3 数据拆分后多个ZipList如何建立联系
就需要QuickList 是一个双端链表 只不过链表中每一个节点都是一个ZipList

QuickList结构如下

避免ZipList中entry过多占用内存较大可以通过配置list-max-ziplist-size来控制entry

如果是正数就是允许的entry个数的最大值
如果是负数就是每个entry所占内存的最大值 -1是4kb -2是8kb以此类推到64kb 默认是-2

QuickList还可以对节点的ZipList压缩通过配置list-compress-depth来控制压缩数量

0表示不压缩
1表示QuickList首尾各有一个节点不压缩中间节点压缩
2表示QuickList首位各有两个节点不压缩中间节点压缩

以此类推默认是0

整体QuickList结构

QucikList特点

节点为ZipList的链表
节点采用ZipList 解决了传统链表的内存占用问题
控制ZipList的大小解决了来纳许内存空间申请效率问题
中间节点可以压缩进一步节省内存

SkipList 跳表

跳表首先是链表但是不一样区别如下

元素按照升序排列
节点可能包含多个指针指针跨度不同

链表遍历太慢所以空间换时间思想结构如下

注意这个上面的数字不是节点的值 节点的值是一个SDS字符串 数字可以理解为索引
具体图如下

特点：

跳表是一个双端链表每个节点都有score和ele值 score便于排序 ele才是真正的数据
节点按照score排序 score一样则按照ele字典排序
每个节点包含多层指针层数是1-32随机数按照算法来
不同层指针到下一个节点的跨度不同层级越高跨度越大
增删改查效率和红黑树基本一致实现却简单

RedisObject

Redis中任意数据类型的键和值都会被封装成一个RedisObject 就是redis对象源码如下

十一种编码格式如下

五种数据类型

redis中数据类型的不同所用的编码方式也会不同具体如下

五种数据类型

String

String是redis中最常见的类型

最基本编码方式是RAW 基于简单动态字符串实现（SDS）存储上限是512MB
如果存储的SDS长度小于等于44字节就会采用EMBSTR编码方式此时ObjectHead和SDS是一段连续空间申请内存时只需要调用一次内存分配函数效率更高
为什么是小于等于44 是因为redis申请内存的时候是以2的n次方去申请的 SDS44加上头尾4和ObjectHead16就是64字节刚刚好内存对齐 不会产生碎片
如果存储的字符串是整数且大小在LONG_MAX范围内就会采取INT编码方式取消SDS 直接将数字写在ptr指针里（刚好8字节）

List

redis3.2版本之前 List实现使用LinkedList加上ZipList实现的并且元素个数小于512且大小小于64字节时采用ZipList 否则是LinkedList
但是3.2版本之后 List就是用QuickList实现
源码如下

如果输入LPUSH key v1 v2 会被client客户端把命令封装到argv[]数组中根据空格分开也就是该命令长度为4 在argv[2]之后就是具体存储的数值 arg[1]是key
就可以根据这个解析出来所要存放的值以及key 并且源码会判断key是否存在如果不存在就会创建一个QuickList 然后用RedisObject对象中的ptr指针指向他

Set

Set是redis中的单列集合存在特点

不保证有序性
保证元素唯一（来判断元素是否存在）
求交并差集

set中大部分命令都需要来查询元素是否存在因此

为了查询效率和唯一性 set采用HashTable也就是Dict编码 Dict中的key存放元素 value为null 因为Dict是数组加链表内存是碎片化的而且指针很多
所以如果存放的数据都是整数并且元素数量不超过set-max-intset-entries时 Set会采用IntSet编码来节省内存

但是会有个问题每当插入新元素的时候都会对编码方式进行判断如果是Dict编码直接插入但是如果是IntSet编码就会判断 插入数据是否是整数以及插入完成后判断大小有没有超范围 只要有一项没完成就会进行编码方式转换成Dict

Zset

Sorted 每一个元素都需要一个score和member：

根据score排序
member必须唯一
根据member查分数

因此满足这些需求就只有两个结合 SkipList和HashTable（Dict） SkipList做排序有score值和ele值 Dict可以根据key查value值

这是两者结合的但是问题还是有就是非常吃内存 因为同样数据存储了两份还有大量指针
因此当元素数量不多 Zet会采用ZipList结构来省内存需要满足两个条件

元素数量小于zet-max-ziplist-entries默认是128
元素大小小于zet-max-ziplist-value字节默认是64

所以每次Zset插入新数据时如果为空需要创建就会对元素数量和元素大小进行判断如果超了就创建完整的Zset 如果没有就用ZipList
那么随着添加元素过程中就会发生数据类型转换也就是每次真正执行ADD操作时都会进行判断元素是否唯一然后看编码方式是不是ZipList 如果是就会对元素数量和元素大小进行比较从而转换
但是ZipList本身没有排序功能而且没有键值对概念 因此需要业务编码实现

ZipList是连续空间所以可以使键值两个entry前后存放 element在前 score在后
score越小越接近队首按照score值进行升序排序

Hash

特点：

键值存储
根据键获取值
键必须唯一

Hash和Zset使很像的

都是key中存放了键值对根据键找值成对出现
所以实现跟Zset差不多只是没有了排序的SkipList

默认采用ZipList编码为了节省内存 ZipList中相邻的两个entry存放键值field value
当数据量较大时会转换成HasbTable（Dict）编码
- ZipList中元素数量超过了hash-max-ziplist-entries 默认是512
- 任意entry大小超过了hash-max-ziplist-value 默认是64字节

Redis网络模型

用户空间和内核空间

任何Linux发行版如Ubuntu centos 其系统的内核都是Linux 所有的应用都需要通过Linux内核和系统交互

为了避免用户应用导致冲突甚至内核崩溃所以用户应用和内核是分离的

进程的寻址空间会划分位两部分 内核空间和用户空间 在内存长比如是32位的电脑那么带宽也就是32位然后存储器也就是32位就是4G也就是4G的内存 4G的内存中3G是用户空间 1G是内核空间
用户空间只能执行受限的命令（ring3）不能直接调用系统资源需要使用内核提供的接口
内核空间可以执行特权命令（ring0）调用一切资源

Linux为了提高IO效率会在用户空间和内核空间都加入缓冲区(buffer)

写数据时把用户缓冲数据拷贝到内核缓冲区然后写入设备
读数据时从设备读取数据到内核缓冲区然后拷贝到用户缓冲区

所以影响读写最大的因素就是等待内核响应和写入缓冲区 因此会产生多种IO模型

阻塞IO

阻塞IO（Blocking IO） 就是两个阶段都必须阻塞等待

也就是用户态发起recvform命令请求内核态时会阻塞等待内核态一直到有响应为止 然后内核态收到请求发现没有数据就会调用系统资源准备数据这个过程中有两种解决一种是直接返回 另一种是阻塞等待 阻塞IO就是内核态会一直等然后有了数据再拷贝拷贝工程中也会一直等用户也会一直等直到返回给用户ok 才算完成
因此性能低下

非阻塞IO

No Blocking IO 就是用户的recvform命令请求到内核内核会直接响应结果 如果没有就响应异常信息

用户发起请求时内核没有数据 直接返回 但是用户还会反复发请求叫忙轮询或者忙等待 然后直到内核准备好数据之后进行拷贝但是这个过程中用户还是在阻塞 也就是准备数据阶段用户忙等 拷贝阶段用户阻塞
虽然是非阻塞IO 但是反而性能没有提高反而因为忙等待机制导致CPU使用率提高

IO多路复用

无论是阻塞IO还是非阻塞IO 第一阶段都是要发送recvform命令来获取数据区别就是阻塞IO没有数据会一直阻塞等待非阻塞IO没有数据就会一直询问等待都是阻塞
因此在单线程情况下服务端处理客户端Socket请求时只能依次处理每一个Socket 如果正在处理的Socket恰好未就绪就会阻塞其他客户端Socket都必须等待性能就会很差
因此提高效率的方法

开启多线程但是多线程又会加大性能的使用
不依次获取直接监听哪个用户应用数据就绪了就处理哪个

文件描述符(File Descriptor) 简称FD 是一个从0开始递增的无符号整数用来关联Linux中的文件 Linux中任何都是文件如视频硬件设备还有网络套接字（Socket）
IO多路复用 就是利用单个线程来同时监听多个FD 并在某个FD可读可写得到通知避免无效等待充分利用CPU的资源

大致流程思想就是用户不再向内核发起recvform请求 而是先发起select请求 区别就是recvform请求只发送一个FD 没有结果就等待但是select请求是发送多个FD 如果都没有结果也会等待但是只要有一个FD准备好了就可以调用recvform来获取数据了 是一种有效等待
监听FD的方式通知的方式也有多种常见有仨

select
poll
epoll

差异就是select和poll只会通知用户进程有FD就绪 但是不会告诉用户是哪个FD就绪 需要用户自己挨个遍历而epoll在告诉用户有FD就绪的同时还会把已经就绪的FD写入到用户空间 直接处理即可

Select实现

Select是最早实现Linux的IO多路复用的方案

整体流程就是创建完FD集合之后因为FD最终都以二进制比特位保存的然后先把FD传递给内核态进行一次拷贝执行select命令内核态就会依据FD集合进行遍历看看哪个就绪了直到就绪之后把就绪的写入到FD集合再拷贝回去然后用户态根据拷贝的结果再遍历得到FD序号之后就是再次发送请求不断循环直到全部处理完
因此这个select两次拷贝两次遍历性能并不好
存在的问题就是

需要拷贝FD两次
得到结果后用户不知道具体哪个FD就绪需要遍历一次
监听的FD数量不能超过1024

Poll实现

poll模式对select模式进行了简单的改进但是性能上并没有太大的提升

跟select对比

select的FD采用比特位固定1024 poll的FD采用链表理论无上限
但是FD过大反而导致遍历耗时性能反而下降

总体来说性能并没有提升还是两种遍历两种拷贝只解决了FD大小问题

epoll实现

epoll较select和poll有较大不同主要提供了三个函数

首先会直接在内核态里创建eventpoll的实例 然后给一个epfd唯一标识到实例再向里面的eventpoll里的红黑树中添加FD 并且每一个FD都有一个回调函数 只要这个FD就绪之后就会把这个FD放到relist中来记录就绪的FD 然后用户等待就绪函数会创建一个空的events数组等待函数返回给用户就绪的FD数量 内核会把就绪的FD直接拷贝到数组里这样全程只有一次拷贝

总结
select模式存在的三个问题：

能监听的FD最大不能超过1024
每次select都需要把所有要监听的FD拷贝到内核空间
每次要遍历所有的FD来判断就绪状态

poll模式的问题：

poll利用链表解决了select中监听FD上限的问题但是依然要遍历所有的FD 如果监听过多性能反而会下降

epoll中如何解决的：

基于epoll实例中的红黑树保存要监听的FD 理论无上限且增删改查效率非常高性能不会随监听的FD数量变多而下降
每个FD都只需要一次epoll_ctl添加到红黑树以后每次epol_wait不需要传递任何参数不需要重复拷贝FD到内核空间
内核会将就绪的FD直接拷贝到用户空间的指定为止用户进程无序遍历所有的FD就知道就绪的FD是谁

epoll时间通知机制

当FD有数据可读时调用epoll_wait就可以得到通知时间通知模式有两种

LevelTriggered LT 当FD数据可读时会重复通知多次直到数据处理完成是Epoll的默认模式
EdgeTriggered ET 当FD数据可读时只通知一次不管数据是否读完

正常当要拷贝listhead中的FD数据到用户态时会先断开指针然后再拷贝 并且会做一个判断 如果是LT 就会重新给指针接上如果不是就会直接删掉 因此如果没读完的话在ET模式下就会直接删掉

不过两者各有优劣

LT模式下因为重复通知的问题本来前两个进程就可以处理完FD中的数据了但是重复通知了会导致惊群问题把所有的进程唤醒 但其实只需要两个进程就解决了
ET不会发生惊群问题但是可能导致数据读不完解决方式就是手动的把未读完的接回去或者读的时候采用非阻塞IO一直读直到读完

推荐采用ET模式 ET避免了惊群现象结合非阻塞IO读FD数据

基于Epoll模式Web的服务流程

基本流程如图

只拿Web服务举例 Web服务端比如nginx appache等 客户端就是向这些服务端发起的请求然后最开始创建epoll实例 再创建服务端的FD 把服务端的FD叫做ssfd提交给内核态让内核态监听因为内核态监听了很多FD 所以有监听有结果之后判断事件类型 如果是EPOLLIN 再判断是不是SSFD可读 如果是 就代表有新客户端连接 然后接受FD 再写入到内核态 如果不是新的ssfd 也就是正常请求得到数据响应 那么直接读取请求数据 写出响应即可

信号驱动IO

就是跟内核建立一个SIGIO的信号关联并设置回调当内核有FD就绪时就会发出信号通知用户在这之间用户可以执行其他业务不用阻塞等待但是真正请求过来拷贝数据的时候用户还是需要阻塞的

也有缺点就是不适合高并发场景 因为当大量IO操作时信号较多 信号队列有可能溢出 而且内核态与用户态频繁交互性能较低

异步IO

异步IO整个过程都是非阻塞最开始用户发出aio_read命令告诉内核态FD以及各种其他需求然后FD从准备数据到数据拷贝整个阶段都不通知用户态 直到拷贝完成再通知用户态拷贝成功用户态直接取数据即可在整个期间用户态都可以处理其他请求因此整个过程非阻塞 但是同样不适用于高并发场景 高并发下要做好数据限流 不让内核态过多消耗导致系统崩溃

同步和异步

同步异步在IO操作看来跟阻塞非阻塞并没有关系而是看用户态和内核态在数据拷贝过程中是同步的还是异步的如果用户态内核态拷贝过程中二者是同步的那就是同步IO 反之就是异步IO

Redis是单线程吗为什么选择单线程

Redis到底是单线程还是多线程

如果仅仅是redis核心业务(命令处理)部分就是单线程
如果是整个redis 就是多线程
在redis版本迭代过程中有两个引入多线程
在redis4.0中加入多线程来异步处理一些耗时较长的任务比如删除命令unlink
在redis6.0中在核心网络模型引入了多线程 进一步提高对于多核CPU的利用率

为什么redis要选择单线程

抛开持久化不谈 redis是纯内存操作 执行速度非常快这是redis速度快的最主要原因因此redis的性能瓶颈不是执行速度而是网络延迟 因此多线程不会带来巨大的性能提升
多线程反而会导致过多上下文切换 带来不必要的开销这个只是在单核情况下
引入多线程就要面临线程安全问题 必然会引入线程锁这样的手段** 复杂度变高** 同时相对来说性能也会下降 然后还会发生跟redis之前版本的不匹配

redis单线程多线程网络模型变更

redis通过IO多路复用来提高网络性能并且支持不同的多路复用实现以支持各种环境还对这些实现进行了统一的封装让他们有了共同的API

上面只是固定的API和对应的环境设置
下面是redis单线程的具体网络模型整个流程

创建serverSocket 绑定固定端口比如6379
aeEventLoop 创建epoll实例 就是红黑树和就绪队列
注册FD 监听FD
beforesleep 会定义一个迭代器 指向server.clients_pending_write队列 开始循环遍历待写的客户端中的数据然后会绑定监听客户端的FD并且添加写处理器 之前绑定的是读处理器现在beforesleep就是要监听写FD 要准备从队列中取数据写回到客户端中
aeApiPoll 等待 epoll_wait 等待之后就会发生两个结果
- server socket监听服务器如果是server socket有读事件就会触发tcpAccepthandler 连接应答处理器代表有新的客户端连接进来了就要注册新的FD 放到红黑树监听FD
- client socket监听客户端如果是client socket有读事件就会触发readQueryFromClient 命令请求处理器然后就会把请求的数据变成字节写到客户端缓冲区里写入的都是字节
  1.然后需要对缓冲区里放的字节数据进行解析 解析成SDS字符串放到argv[]数组里
  2.取出argv[0] 命令名称并且执行命令把结果再写回到客户端缓冲区里
  3.然后把客户端添加到server.clients_pending_write队列中等待被写出

简化一下流程就是IO多路复用监听三个FD 服务器读客户端读客户端写每当监听到之后就会通过事件派发分给不同的处理器来做事

Redis6.0之后就引入了多线程目的就是为了提高网络IO的效率 所以在解析命令写响应结果采用了多线程核心命令运行 IO多路复用事件派发仍然是主线程执行

通信协议

RESP协议

Redis是一个CS架构软件通信一般分两步

客户端向服务端发送命令
服务端解析并执行命令返回相应结果给客户端

所以客户端发送命令格式服务端响应结果格式都必须有规范就是通信协议
在Redis中采用的RESP(Redis Serialization Protocol)协议

Redis1.2引入RESP协议
Redis2.0中称为Redis服务端通信标准 RESP2
Redis6.0升级到了RESP3 增加更多数据类型支持新特性--客户端缓存但是跟RESP2差别太大所以默认使用的还是RESP2

RESP的数据类型

在RESP协议中会根据首字母的不同区分五种数据类型

单行字符串 以 + 开头跟上字符串以CTRL(\r\n)结束不是二进制安全的例（+hello\r\n）
错误 error 以 - 开头跟上信息以\r\n结束非二进制安全例(-error Message\r\n)
数值以 : 开头跟上数字以\r\n结束例(:10\r\n)
多行字符串 以 $ 开头记录两部分跟SDS一样第一部分是占了多少字节第二部分是数据二进制安全因为是按长度记录例($4\r\nname\r\n)
- 如果数字是0 代表是个空字符串
- 如果数字是-1 代表字符串不存在
数组以 * 开头后面跟上元素个数再跟上元素数据

根据java命令模拟redis客户端在D:\code\Redis\redis-client-demo

Redis内存回收

Redis之所以性能好就是存储在内存里但是单节点redis内存不宜过大会影响持久化和主从同步性能
可以通过修改redis配置来调节最大内存

内存到上限的时候就不能再存储了所以就需要内存回收策略

内存回收策略-过期策略

可以通过expire命令来给Redis的key设置TTL（过期时间）这就是应用过期策略

DB结构

redis本身是一个键值key-value型的数据库所有的key value都保存在Dict中不过有两个Dict 一个保存key value 一个保存key TTL

这里的key value的Dict存储的不是数据而是指向真正存储数据的指针存放的地址为了简化结构如下

所以利用两个Dict一个记录value 一个记录TTL 只记录有过期时间的 没有的不记通过查询Key TTL的Dict 就能知道每一个key的过期时间了
Key到过期时间也不是立即删除而是惰性删除或者周期删除

惰性删除

也叫延时删除 并不会在TTL到期后就立即删除而是访问一个key的时候检查key的存活时间 如果过期就执行删除但是会有一些问题就是如果这个key长时间不访问 就一直不会删除 所以会有周期删除

周期删除

就是通过一个定时任务周期性的抽样部分过期的key 然后删除模式有两种

Redis会设置一个定时任务serverCorn（）按照server.hz的频率来执行过期key清理模式是SLOW serverCorn（）里获取了一个时钟就是redis维护的微妙级别的时钟
Redis会在每个事件循环前通过beforsleep（）函数执行过期key清理模式是FAST

大致流程就是会初始化的时候在1ms后直接执行serverCorn函数然后先SLOW模式清理一下然后执行aeMain函数创建epoll实例 然后一直while循环 监听之前会有一个beforesleep函数执行 并且在最后会继续调用serverCorn函数来SLOW模式清理一遍但是只有最开始是1ms立即执行后面都是100ms执行一次 如果没到时间是不会执行的而FAST模式会在while循环里一直执行 因为速度快只有1ms左右而SLOW模式有几十ms

SLOW模式规则

执行频率受server.hz影响默认是10 每秒执行10次每个周期100ms
执行清理耗时不超过一次执行周期的25% 也就是25ms
逐个遍历db 逐个遍历db中的bucket（角标）抽取20个key判断是否过期
如果没到时间上限（25ms）并且抽样的过期ket比例大于10% 再进行一次抽样否则结束

FAST模式规则

执行频率受beforesleep()调用影响但两次FAST模式间隔不能低于2ms
执行清理耗时不超过1ms
逐个遍历db 逐个遍历db中的bucket（角标）抽取20个key判断是否过期
如果没到时间上限（1ms）并且抽样的过期ket比例大于10% 再进行一次抽样否则结束

总结

Redis中Key的TTL记录方式

在redisDB中通过一个dict记录key的TTL

过期Key的删除策略

惰性清理每次查找key判断是否过期如果过期删除
周期清理定期抽样部分key 判断是否过期如果过期删除

定期清理两种模式

SLOW模式默认频率是10 每次不超过25ms
FAST模式频率不固定但两次间隔不能低于2ms 每次耗时不超过1ms

内存淘汰策略

内存淘汰 就是redis内存超过了设置的阈值然后redis就会主动挑选部分key进行删除释放内存
内存淘汰会在客户端命令进来之前都会检查一次内存超没超但是如果没有设置内存阈值或者在执行lua脚本就不会检查因为lua脚本删除之后可能会出现问题把后续key给删了

淘汰策略

redis支持8种不同策略来选择删除key

LRU (Least Recently Used) 最少最近使用 最久未使用 删除
LFU (least Frequently Used) 最少频率使用 频率最低 删除

Redis的数据都会被封装成RedisObject

LFU的访问次数叫逻辑访问次数因为并不是真的key被访问的所有次数而是通过算法

生成0-1的随机数R
计算1/(旧次数 * lfu_log_factor + 1) 记录为P lfu_log_factor默认是10
如果R < P 则计数器加1 最大不超255 次数越大 P越小但是有个问题就是一开始频率高后面频率低所以次数会衰减
访问次数随时间衰减每次访问都会计算和上一次访问时间每隔lfu_decay_time分钟（默认是1）就 - 1 也就是每隔几分钟减几

整体其实分两个大方向 一个是对有TTL的key进行删除一个是对全体key进行删除然后再细分四种算法 一个随机key 一个算出最小TTL 一个LRU 一个LFU
因此整体流程如下

最开始判断内存够不够
不够就判断策略是不是不删除key
不是再判断策略是删除全体key还是有TTL的key
然后再判断是不是随机删除
随机删除就直接随机挑删完之后判断内存符不符合所需不符合继续重复
不是随机删除就先创建一个淘汰池获取DB 避免全部挑选key耗时过长抽样挑选key
判断内存策略
- 如果是TTL 就用最大TTL-TTL做idleTime
- 如果是LRU 就用now-LRU做idleTime
- 如果是LFU 就用255-LFU计数做idleTime
再判断是否可以存入淘汰池因为淘汰池可能为满所以要判断合不合适
然后按idleTime升序放入淘汰池
然后看是否有下一个DB 有就循环
没有就倒序删除淘汰池的key 判断内存符不符合所需

长久以往循环下来抽样会越来越符合实际数据

Redis集群

主从集群

单节点Redis并发能力是有上限的然后为了提升redis并发能力可以搭建主从集群来解决实现读写分离主节点负责写从节点负责读然后主节点再做数据同步

搭建主从节点

搭建Redis集群的时候 网络模式需要选择host 不要用桥接创建虚拟网卡进行端口映射了用host相当于直接暴露在宿主机下然后相当于普通的一个进程
开启redis直接用docker compose开启建立主从先通过docker exec -it r2 redis-cli -p 7002进到r2中然后在r2中执行slaveof 192.168.88.130 7001即可让r2称为r1的从节点
可以通过info replication查看主从状态

主从同步原理

当主从第一次同步连接或断开重连时从节点会发送psync请求开始数据同步

全量同步 就是把所有数据都给从节点
增量同步 就是把从节点断开连接所缺失的给从节点
replicationID 每一个master节点都有自己唯一ID 简称replid 可以通过replid判断是否是第一次来建立连接之前每个节点的replid都不一样建立连接之后主从节点replid一样所以通过判断replid是否相同来判断是第一次连接还是重连
offset maser中有一个缓冲区(repl_backlog) repl_backlog中写入过的数据长度写的越多 offset越大 主从的offset一致就代表数据一致 从节点发起psync时会携带上replid和offset 前者判断是否全量同步后者就是用来增量同步如果offset二者不同把缺失的数据给到从节点即可完成增量同步

主从同步优化

master中的缓冲区（repl_backlog）总共只有1mb backlog时采用的环形数组方式也就是master和slave的offset会随着不断地写去实现覆盖之前已经同步的数据从而实现一致的数据同步不需要再对缓冲区清空的操作

正常情况下 master写数据 slave同步数据在缓冲区中是不会出问题的只要二者差距小于一圈 都能追上但是如果从节点宕机太久导致主节点超过了从节点 把从节点的offset覆盖掉了导致backlog中只有master的offset 这种情况下从节点会直接做全量同步
但是全量同步又有问题如果主节点数据过大全量同步走磁盘会很慢
优化主从集群

在master中配置repl-diskless-sync yes 开启无磁盘复制避免全量同步的磁盘IO
在redis单节点上内存占用不要太大减少RDB导致的过多磁盘IO
适当提高repl_baklog的大小尽可能避免全量同步
限制一个master上的slave数量如果太多可以采用主从从链式结构减少压力但是同样的会有时效性的问题

哨兵原理

Redis提供了哨兵（Sentinel）机制来实现主从集群的自动故障恢复具体作用如下

监控 Sentinel会不断检查主从状态是否按预期工作
自动故障切换 如果master故障 Sentinel会将一个slave提升为master 故障恢复也是如此
通知当发生故障转移时 master发生变化 Sentinel会把最新节点角色信息推送个所有的Redis客户端

服务状态检测
Sentinel基于心跳机制检测服务状态每隔一秒向集群的每个实例发送ping命令如果正常集群会回复pong

主观下线如果Sentinel节点发现该实例未在指定时间内响应就认为该实例主观下线
客观下线如果超过指定数量（quorum）的Sentinel都认为该实例主观下线那么该实例客观下线 quorum最好是Sentinel数量的一半以上

选举新的master
发现master故障之后 Sentinel就要选一个slave作为master 依据

首先判断slave于master断开时间长短超过指定值就会排除该节点
然后判断从节点中的slave-priority值越小优先级越高默认一样
判断slave的offset值越大说明数据越新就越高
最后判断slave的运行id大小越小越高就是随机选

最主要的就是offset offset越大优先级越高

实现故障转移
当选定了slave点位master后转移的步骤如下

Sentinel给备选的slave节点发送slaveof no one 命令让该节点称为master
Sentienl给其他的slave发送slaveof 192.168.150.101 7002命令让其他的slave称为新master的从节点开始同步数据
最后Sentinel将故障节点标记为slave 故障节点恢复后会自动称为新的master节点的slave节点

Redis分片

搭建分片集群

主从和哨兵可以解决高可用高并发读的问题还需要解决

海量数据存储
高并发写

使用分片集群可以解决分片集群就是多个主从集群

集群中有多个master 每个master保存不同数据
每个master都可以由多个slave节点
master之间通过ping检测彼此健康状态

# 进入任意节点容器
docker exec -it r1 bash
# 然后，执行命令
redis-cli --cluster create --cluster-replicas 1 \
192.168.88.130:7001 192.168.88.130:7002 192.168.88.130:7003 \
192.168.88.130:7004 192.168.88.130:7005 192.168.88.130:7006

散列插槽

Redis集群中共有16384个hash slots 每个master节点都会分配一定数量的hash slots
Redis数据不是与节点绑定而是根据key做hash运算然后对16384取余得到这个key的slot值然后根据该slot值做读写操作
而且不一定是对整个key做运算分两种情况

当key包含{}时根据{}中的字符串计算hash slot
当key不包含{}时则根据整个key计算hash slot

例如 key时num 就根据num计算hash slot key时{hmall}num 就根据hmall计算
注意连接redis时由于做了分片所以需要redis-cli -c -p 7001 加-c参数表示以分片执行并且每次计算完还会根据hash slot重定向

posted @ 2025-07-27 16:08 big4mart 阅读(9) 评论(0) 收藏举报

刷新页面返回顶部

big4mart

Redis原理

Redis数据结构

动态字符串SDS

IntSet

Dict

Dict实现

Dict扩容

Dict收缩

Dict的rehash

ZipList

ZipListEntry

Encoding编码

ZipList连锁更新问题

QuickList

SkipList 跳表

RedisObject

五种数据类型

五种数据类型

String

List

Set

Zset

Hash

Redis网络模型

用户空间和内核空间

阻塞IO

非阻塞IO

IO多路复用

Select实现

Poll实现

epoll实现

epoll时间通知机制

基于Epoll模式Web的服务流程

信号驱动IO

异步IO

同步和异步

Redis是单线程吗 为什么选择单线程

redis单线程多线程网络模型变更

通信协议

RESP协议

RESP的数据类型

Redis内存回收

内存回收策略-过期策略

DB结构

惰性删除

周期删除

总结

内存淘汰策略

淘汰策略

Redis集群

主从集群

搭建主从节点

主从同步原理

主从同步优化

哨兵原理

Redis分片

搭建分片集群

散列插槽

公告

Redis是单线程吗为什么选择单线程