由Rocksdb状态后端引出的Tree的应用

1.前言

　　本节主要是由于Rocksdb的数据结构LSM树，所以介绍一下常见的树结构在不同场景下的应用，更好的理解一下常见的数据库，KV存储系统都是如何设计，以及为什么这样设计的。

2. 二叉树

　　二叉树：每个节点至多有两个子节点。可以计算高度为N(从0开始计数)的二叉树，最后一层最多有2^N个节点，全部节点数是2^(N+1) - 1个节点

　　完全二叉树：除最后一层，其他层的节点数达到最大，最后一层所有节点集中在左边

　　满二叉树：这个国内和国外定义好像不太一样，这里按照国内定义：所有的层节点都满了，即是满二叉树：其节点数就是二叉树说的2^(N+1) - 1个

　　二叉查找树：上面的二叉树都是一些简单的定义，二叉搜索树则是具有实际使用用途的，定义也很简单：对于任何节点来说，其左子节点的值< 当前节点的值 < 其右子节点的值 (左右节点存在)

　　　　　　　　利用上面的性质，就可以从根节点开始，判断大小选择左右分支，找到数据是否存在了。

　　AVL树(平衡二叉树)：二叉查找树的问题在于构建的树可能比较极端，全部节点都在一侧，导致查找效率不高。平衡二叉树就是用来解决这个问题的：其构建保证任何节点的两个子树的高度最大差别为1。

　　　　　　　　　　　 AVL树保证了效率为O(logn)，要保证AVL树的特点，增加删除节点都会破坏AVL树的定义，所以需要进行旋转，旋转分成LL,LR,RL,RR。

　　　　　　　　　　　具体操作看文章：https://www.cnblogs.com/skywang12345/p/3576969.html

3.红黑树

　　上面介绍了AVL树，从AVL树的定义上来看是一种优势巨大的二叉树了，但是为什么还会有红黑树呢？

　　原因在于AVL树虽然可以保证高效的查询，但是保证不了高效的插入删除。因为为了维持任何节点的两个子树高度最大差别为1带来的旋转代价是巨大的，简而言之就是AVL树适合查找多而插入删除少，而实际运用中这种场景还是不多的。红黑树是AVL树的一种变体，其是一种弱平衡二叉树，妥协解决了插入和删除频繁旋转的问题，所以像Java高版本的hashmap冲突构建的是红黑树，TreeMap也是一个红黑树。

　　红黑树的名称来源，其将所有节点划分成红节点和黑节点，其要求：1.根和叶子节点（NULL节点）必须是黑的，2.每个红节点的子节点都是黑色，3.从任一节点到每个叶子节点的路径包含的黑节点数量一致。

　　其定义约束了最长路径和最短路径差距最多两倍长（最短全是黑节点，最长红黑相间），红黑在查询中没有实际意义，但是在旋转平衡的时候就有特殊的指导意义了。

　　https://www.cnblogs.com/xrq730/p/6867924.html

　　红黑树平衡分成修改颜色，以及左旋和右旋，参考文章：https://www.cnblogs.com/CarpenterLee/p/5503882.html。讲的比较详细。

　　本文想表达的也不是红黑树，所以与之相关的内容就到此为止。

4.磁盘上的树

　　从这里开始是本文的核心内容。我们都知道内存比磁盘快很多，但是内存容量小且断电数据就会丢失，磁盘虽然保存了就不易丢失，但是查询速度慢，那么海量数据无法加载到内存中，又是如何做到令人可以接受的查询插入速度呢？这就是索引的魅力，索引使用较小的数据空间，可以快速定位数据位置，达到目标，上面所说的AVL和红黑树都可以作为索引，但是对于磁盘而言并不会使用二叉树。原因很简单，二叉树只有两个子节点，很容易树的高度变得无法接受。

　　首先回顾一下磁盘的特性，才好针对特性设计合适的数据结构。磁盘是以扇区为基本单位，一个扇区512字节（存在4kb的），磁盘可以保证单个扇区的原子性，要不写入成功，要不失败。磁盘有很多个柱面，每个柱面有不同的磁道，每个磁道又被划分成扇区，读取数据要三个坐标定位一个扇区，之前的磁盘都是单臂操作，只有一个磁头在工作，目前好像有双臂操作的机械盘。这篇文章介绍了更详细的磁盘知识：https://blog.csdn.net/u012184539/article/details/84257877 ，http://c.biancheng.net/view/879.html。磁盘操作的时间有：寻道，旋转和数据传输。数据传输一般不考虑，所以优化都集中在寻道和旋转上，寻道一般在10ms左右，所以1秒也只能操作100次，旋转取决于转速。固态硬盘则是完全不同的存储结构，容量小且贵，目前而言用作大数据存储成本过高，不做考虑。

　　简单而言，磁盘的寻道和旋转会是性能瓶颈，所以需要减少这个次数，另外顺序写的速度是很高的，而且顺序操作也变相的解决了寻道和旋转的效率问题。

　　既然都知道顺序写是很好的解决方法，那顺序写不就完了吗? 问题在于做不到啊。不考虑其他应用程序对磁盘的随机使用，单单说数据库本身，数据在不断的修改，插入删除，从根本上就无法保证数据在磁盘上是简单的连续的。所以我们需要作出妥协，充分利用磁盘特性实现目的。下面介绍B+树和LSM树是如何适应磁盘的。

4.1 B+树

　　B+树是由B树引申而来，可以参考一下这篇文章：https://blog.csdn.net/u013400245/article/details/52824744，https://www.jianshu.com/p/71700a464e97

　　这里总结一下B树性质，一个M阶的B树：

每个节点最多有M个子节点 (M>=2)
每个节点最少有ceil(M/2)个子节点，向上取整
所有叶子节点都在同一层，且不包含任何关键字信息
有x个孩子节点的节点包含x-1个关键字，从小到大排列

　　B+树相比于B树的区别：

有k个子结点的结点必然有k个关键码
非叶子节点只有索引作用，不含数据
叶子节点包含数据，而且用双向链表连接

　　一棵含有N个总关键字数的m阶的B树的最大高度是多少？https://blog.csdn.net/ASJBFJSB/article/details/100114403

　　logm(n+1)<= h <=log(ceil(m/2)) (n+1)/2 + 1

　　关于树的特性说明就到这里，下面结合mysql说明一下为什么使用这种结构，并详细说明mysql中二次写，redo日志等操作的原因。

　　首先mysql选择了B+树而不是B树，原因可能如下：1.非叶子节点都是索引，没有数据，所以索引里面可以存更多的关键字。2.叶子节点都是数据，而且是双向链表，范围查询更方便

　　接下来就是详细分析，先说结论：B+树在磁盘的应用就是减少了磁盘寻道时间，但是不是无限制的提升：https://blog.csdn.net/csdnlijingran/article/details/102309593 mysql一般到了千万级性能就会下降了，B+树的高度一般在3层。mysql具体操作步骤如下，这里会混合着mysql本身的知识点进行说明：

　　mysql是以页来管理数据的，一页16kb.

　　1.查询一条数据：select * from table1 where id = 5 (假设id是聚集索引). 从B+树根节点出发，读取根节点页，放入缓存，进行二分查找，找到下一个索引位置页，读入内存，继续查找直到数据页。

　　　所以一次查找由树的高度决定，一般3层高度，结果就是执行3次IO，寻道和旋转，所以大概几十毫秒就够了。而且由于有缓存，后续命中缓存速度会更快。

　　　这也就是上面说的为什么二叉树不能这么操作的原因了，树的层级过高，磁盘操作次数会变多。mysql保证单个数据页是连续存储，所以B+树的单个节点可以看成一个单元，但是不同的节点在磁盘上并不是顺序的，这部分寻道是无法节省的。第二个问题是为什么4层5层就不行了呢？多加一层按照上面计算逻辑，可以容纳的记录数是惊人的，按照我的理解原因是由多方面造成的：首先是B+树的分裂合并造成在磁盘上的位置更加随机，不连续，寻道旋转耗时更久。第二个是数据量过多，缓冲区可能容纳不了，导致磁盘查询更加频繁。
　　2.插入更新数据：这一块mysql对性能和安全性做了大量的设计优化。更新数据，事务提交主要做了两件事情：第一是将事务写入日志缓冲，再将日志缓冲刷入事务日志(redo log)。第二是将事务写入缓冲池。这两个步骤都提交成功了，事务就成功了。因为插入都是随机的，对于磁盘而言就是随机写，这在上面我们说过对磁盘而言这并不友好，所以mysql先用顺序写，写入事务日志，然后写入缓冲池。这个时候可以看见随机写没有发生，只是写了事务日志，宕机时从事务日志恢复就可以了。被修改的缓冲区的页被称为脏页，还没有被写入磁盘，会通过一定规则写入磁盘。写入的时候并不是直接将脏页刷入磁盘，这是因为闪断的时候页数据会被破坏(历史上发生过)，而数据页本身损坏了，事务日志记录的是物理修改，也就没法恢复整个页。所以现在的mysql都使用double write方式，先按顺序写入double write区域（也是顺序写），然后修改磁盘的数据，闪断的时候还能通过double write数据进行修复。所以整个发生了2次顺序写，一次随机写。写入事务日志可以配置规则，因为我们知道只有flush才算成功写入磁盘，否则都在磁盘的缓冲中，flush会影响写入性能，所以mysql让用户决定什么时候flush。https://blog.csdn.net/zhaoliang831214/article/details/82711350

　　这篇文章详细介绍了redo log和undo log：https://www.cnblogs.com/f-ck-need-u/archive/2018/05/08/9010872.html

　　总结一下：mysql是以页为单位进行管理的，每次都会将页读取到内存中进行操作，由于B+树的高度原因，查找一个页的位置是可以预估到次数的。由于buffer pool还会缓存页，所以实际磁盘操作比想象中要少，如果数据量超过缓存大小，性能势必下降了，没有绝对的数值，都是根据内存有多大决定表的记录数达到多少有性能瓶颈。写入由于不可能顺序写，一定会产生随机写，原本应该存在性能问题。但是mysql采取了redo log的方式，将数据临时顺序写入磁盘，认为是数据保存成功，所以将随机写变成了顺序写，提升了写性能。后面由于实际修改页怕损坏，采取double write机制，先写共享表的一个2MB数据空间，这个也是顺序的，再随机写修改页。由于是异步线程操作，而在顺序写redo log就可以认为数据实际上已经不会丢失，所以这个速度不影响mysql的正常查询修改删除。

4.2 LSM树

　　在Hbase权威指南一书中就讨论过B+树和LSM树的区别，主要在于如何利用磁盘。B+树利用磁盘的随机查找能力，涉及上尽量避免随机写以及多次IO，结果是随机读取优势很大。LSM树利用的是磁盘的连续传输能力，并排序和合并文件。文中假设10MB/s带宽，10ms的磁盘寻道时间，每条数据100字节（100亿条数据），每页10KB（10亿页），更新1%的数据需要多久? 随机B树需要1000天，批量100天，排序和合并只需要1天。

　　从上面的描述可以看出，LSM在写入上存在优势，当然是建立在牺牲了部分读取性能的基础之上。原论文地址：https://www.cs.umb.edu/~poneil/lsmtree.pdf。下面简单说下LSM树的思想。

　　首先，LSM树不是一棵树，也不一定是树形结构，也有使用跳表的（Hbase C0树）。LSM树有几个重要概念：

具有很多层级，从C0 - CN。
C0一般都是在内存中，不同应用的称呼不一样，rocksdb中为MemTable。
读写一般都是操作MemTable，这个是内存操作，根据局部性原理，一般命中概率会大。写入很好理解，读取没读到会查询C1层的文件。
满足一定条件后，C0的MemTable会变成ImmuTable，然后刷入磁盘变成SST文件，SST文件都是不可变文件，所以这种做法可以充分利用顺序写性能。

　　上面的结构和优缺点可以参考文章：https://www.cnblogs.com/cobbliu/articles/9553271.html

　　简单来说，只有C0级内存树可以进行修改，ImmuTable开始到文件后都不允许修改了，所以没有B+树那种删除添加的问题。同时内存是有限的，所以需要读取磁盘获取数据，这部分就是读取的瓶颈。

　　所以LSM树的优化集中在对数据的查询上。第一点优化就是随着SST文件的不断生成，小文件会越来越多，需要将小文件进行合并，这就是所说的compact操作，将小文件合并成大文件，由于之前要求单个文件中数据有序，这样可以增快合并速度。第二点优化就是由于不知道数据落在哪个文件上，需要查询所有的文件，所以在每个文件上引入了bloomFilter，更快的定位数据可能出现的文件，搜索更少的文件。https://www.jianshu.com/p/f911cb9e42de，https://blog.csdn.net/varyall/article/details/79980915这两篇文章配合图片更易理解。

　　一句话总结，LSM牺牲读取，利用磁盘连续传输能力提升性能，通过compact和bloomFilter提升读取性能，局部性原理：如果一个数据最近被使用，那么它被再次使用的可能性就更大了，所以多层级的结构，可以认为历史很久之前的数据被访问的概率更小。

　　https://blog.csdn.net/f1550804/article/details/88382750

5. RocksDB

　　上面介绍了不同的树结构在磁盘上的运用，这里主要介绍一下compact策略，以及相关问题和参数调优。

　　这篇文章介绍了RocksDB的compact策略 https://www.jianshu.com/p/e89cd503c9ae

　　总结一下：compact策略一般有两种：

size-tiered compaction：思路就是每个文件有固定阈值，每层有固定文件数量，到达后就开始合并，放入更高层。存在的问题是空间放大：因为LSM的文件是不可修改的，所以对数据的增删改都会生成新的记录，查询的时候按照文件生成的顺序，逆序找到最新的一条记录就是当前记录了。其他的数据都是多余的，另外在compact操作的时候，执行完之前原文件也是不可删除的，所以单个sst可能放大2倍。
leveled compaction：思路是同一层级的sst文件包含不同范围的key值，比如1文件范围0-10，2文件范围11-20，前面层级的包含范围更大，影响下游部分文件，比如前层级的包含键值是0-100，对应下游就是0-10，11-20等等10个文件，所以0层级的是全部的key的集合。这样在单个文件compact时，只会影响到该层一个文件和下游若干文件，而不是所有，可以有效缓解空间放大问题（这种结构就像B+树的索引节点）。但是与之而来的问题更麻烦了，其会造成写入放大，原因也很好理解，就是会造成逐层影响，直到最后层级。size-tiered只会影响一层，因为其阈值是确定的，该层全部合并走向下游。但是leveled具有上下游紧密联系，第一层刷到第二层可能触发第二层的compact，第二层会造成第三层的合并，最后造成大量的无意义的磁盘操作。

　　RocksDB采取了混合模式，详细看上面的文章。

　　接下来是Flink运用时的一些参数调优，参考文章：https://cloud.tencent.com/developer/article/1592441

　　首先，Flink使用时keystate禁用了WAL，WAL会有性能问题，而Flink有自己的容错机制，不太需要。内存中有memTable和ImmuTable，这上面已经说明了，还有一种就是Block Cache，不可能每次都去查找磁盘，查找到后肯定会cache下来。

毫无疑问，缓存大小肯定直接影响读写性能。block size(state.backend.rocksdb.block.blocksize)，block cache size(state.backend.rocksdb.block.cache-size)。block的大小是sst文件的基本单位，和mysql的页差不多，一般是4KB，生产中调整到16-32kb，固态可以达到128KB。增加block size会造成读放大，原因是cache没变，block增大，能放入的block数量就会变少，所以命中缓存率会降低，磁盘IO增多。所以改变这个值需要同步修改block cache size，如果内存吃紧，就不要变动了。block cache size默认是8MB，可以设置成32MB-256MB。开启state.backend.rocksdb.metrics.block-cache-usage观察cache使用情况，进行调优
最大可以打开的文件句柄(state.backend.rocksdb.files.open)。这个也较容易理解，最好让rocksdb保持所有管理的文件都可以读取状态。没有开启cache_index_and_filter_blocks，该值表示内存中可以容纳的index和filter数量，建议操作系统和程序都改成-1.
cache_index_and_filter_blocks默认是false,不再内存中存放index和filter，用到才加载，用完舍弃。true表示运行放入block cache中，可以提升局部读取性能，开启需要同步开启pin_l0_filter_and_index_blocks_in_cache，防止操作系统换页操作造成的性能抖动。由于放入cache中会占用空间，所以除非你内存有多，或者存在局部键值热点，可以加速，否则会减少能容纳的缓存，导致性能变差。
optimize_filters_for_hits设置成true，L0不会生成bloom filter,可以减少90%的filter开销。同样只适合有局部热点和基本不会cache miss的场景
Flink中每个State对应了一个ColumnFamily，每个ColumnFamily都有一个memTable，1.10可以共享。需要计算自己的状态可能的大小值进行设置。
write buffer size（state.backend.rocksdb.writebuffer.size），就是memTable的大小，默认64mb.调整这个参数还需要调整以下内容：1.state.backend.rocksdb.compaction.level.max-size-level-base 一定需要增大level1层的阈值，该值太小会造成能存放的SST文件过少，层级变多造成查找困难，太大会造成文件过多，合并困难。2.max_bytes_for_level_multiplier是leveled下的一个倍数设置。3.state.backend.rocksdb.writebuffer.count 内存中可以存放的memTable个数，超过这个值会被flush到磁盘，内存足够可以调整到5。4.state.backend.rocksdb.writebuffer.number-to-merge，合并的最小阈值，调大调小都有很大影响，最好是3
其他是一些compact和flush的控制，不再展开

　　最后附上文章：https://cloud.tencent.com/developer/news/643334 快手基于hbase开发了一个slimbase做为状态后端，解决rocksdb的部分问题。

　　最后一个小问题，hbase的存储结构也是LSM，学习了上面的都应该知道KV存储，LSM是不能删除修改的，每次都是读取最近文件命中的数据，所以一个key只会认同一条记录。那么hbase的column数据是具有版本概念的，这个是怎么实现的呢？...... 这个其实也很简单，我们一般在表象上看见hbase的键是rowkey，但存储的时候肯定不是存的rowkey，否则值存哪个column的数据呢？所以在HFile中存储的键是由rowkey, columnFamily,column和timestamp组成的，所以这个就是表象上的column的多版本了。键值设计参考：https://blog.csdn.net/ping_hu/article/details/77115998

posted @ 2020-07-02 15:03 dark_saber 阅读(822) 评论(0) 收藏举报

刷新页面返回顶部

dark_saber

有梦想的咸鱼终究是咸鱼
人果然是不能懒

由Rocksdb状态后端引出的Tree的应用

1.前言

2. 二叉树

3.红黑树

4.磁盘上的树

4.1 B+树

4.2 LSM树

5. RocksDB

公告

dark_saber

有梦想的咸鱼终究是咸鱼 人果然是不能懒

由Rocksdb状态后端引出的Tree的应用

1.前言

2. 二叉树

3.红黑树

4.磁盘上的树

4.1 B+树

4.2 LSM树

5. RocksDB

公告

有梦想的咸鱼终究是咸鱼
人果然是不能懒