system desing 系统设计(五)：Big Table原理

　 1、计算机硬件系统存储数据有两个地方：memory和hard disk！这两者各有各的优缺点，互为补充，所以能共存至今！理论上讲：memory的读写速度是hard disk的million倍，但memory很贵，普通服务器能有256G已经很不错了，并且memory掉电就丢数据，而hard disk价格便宜，单机几十上百TB的都很常见，而且掉电不丢数据，所以长远看，大量数据最终还是会存放在硬盘。就存数据的原理上讲，hard disk和memory都一样: 都是0101形式的二进制字符串存储。为了方便查看，人为把二进制数据通过一些特定的编码规则转成string或char，所以有可以理解为：数据都是以string或char形式存放在memory和hard disk的，比如下面这种：

　　这种形式很容易理解吧！数据按照特定的格式存放，字段和字段之间用逗号、分号、空格、tab等隔开，每条数据都用{}包起来，从形式上看就转成了结构化数据！至此，写数据的问题解决了，那读了？往磁盘写数据的最终目的就是为了后续有用的时候读出来，像这种“一行一行”的数据，怎么才能快速找到自己想要的“那一行”了？最简单粗暴的莫过于写个for循环，逐行匹配了，数据量很少的时候还行，但是行数一旦达到了million、10 million甚至billion级别时还是逐行扫描，等找到数据时黄花菜都凉了！怎么提升查找效率了？

　 2、逐行扫描的方式效率低，根因是数据无序disorder，所以只能挨个去匹配！所以为了提升read的效率（理论上讲read的QPS远比write高），在write后肯定是要找个合适的时机order的，对于ordered数据，就可以通过binary search查找了！那么问题来了，这么多行数据，memory完全放不下（如果能放下，就没hard disk啥事了），该怎么排序？？什么时候排序？

　（1）几千年前，老祖宗就留下了这类问题的处理思路：分而治之！既然数据量累积到这么多，大到内存都放不下了，那就按照一定大小切分块呗！这里按照一块256M的规模切分！当数据往disk写的时候，同时需要在内存保留。当内存写入的数据累计达到256M的时候sort一次！由于数据本来就在内存，所以排序速度肯定快！等排完序，就可以整体写入hard disk了！为了后续快速检索，在memory里面肯定是要保留disk中数据块位置信息的，所以就有了（file0，Address0）这种映射关系！整个写入的流程如下：

这里采用append的模式写入数据，而不是在原基础上改，原因简单：

　　找到原始的数据要花时间，导致写入效率比读还低【随机写】
万一更改数据长度，原来的数据都要挪动，效率更低

　　所以采用append的方式，最新的数据永远都在最后，读的效率反而更高！

　（2）因为采用的是append，所以查找key首先从内存的最后一个块开始，如果有还好，那肯定是最新的，并且速度还杠杠的，可万一没有了，咋整？那就只能去磁盘找各个File查了，核心流程如下：

　　随着时间的推移，disk的数据块会越来越多。由于数据块内部有序，但数据块之间是无序的，为了提升从磁盘File整体的查询的效率，需要定期使用K-way merger sort算法把数个小的数据块合并成一个大的数据块！为了快速找到K路中最小的数，还可以采用小根堆的结构，如下：

　（3）把K个数据块合并排好序后，就可以采用binary search查数据了！理论上讲，binary search的时间复杂度是O(lgN)，这就是read的最高速度了？还有改进空间么？

　　查找数据时，肯定是先根据key来匹配。如果我能确定key不在数据块中，是不是连数据块的binary search都省了？这本质上就是个deduplication问题，此时就要借助一种极为重要的数据结构了：bloomFilter（最常见的就是crawler url去重），其原理很简单：bolomFilter本质就是个bitMap，对key求hash(key)，比如这里的结果是5，然后看看bitMap第5位是不是1。如果是，说明整个key已经存在了！为了提高准确率，hash函数通常会有好几个！

假设有15和hash function，bitMap有2million，key数量是100thousand，判断20million字符串的误判率大概在3%~4%。在查找key的场景下，足够了！加入bloomFilter后，整个查询的过程如下：现在内存的sorted list查询，如果没有，再去磁盘的File查询！

　　最大的变化在于：正式去File查询前，会先在bloom Filter查一次。如果结果是true，说明key在File里面，再去File用binary search查！相应的，往File写数据前，也要先在bloomFilter里面写入！

　　3、解决了查询效率的问题，接下来就要考虑sharding了！这次还是用consistent hash算法，如是如下:

　　通过这种方式把读写的QPS分散到不同的节点！整个read过程如下：

　client把key发给Master，通过consistent hash得到具体存放key的slave
client把key发给slave
slave通过key查找data：
- 　先在内存查最后一个块，也就是skip List，看看key在不在
- 如果不再，就要去disk的File查找了，此时先去bloomFilter查查key在不在；
- 如果key在bloomFilter，说明key在disk的File里面。继续通过binary search在File里面查找！

　　理解了read的过程，再来看write的过程：

　client把key提交给Master，通过consistent hash得到slave的id；
client把(key,value)发给slave
slave的操作：
- 　　先是write ahead log：主要是避免断电导致数据丢失，所以先在disk写入
- 再在内存sorted List里面排序。如果sorted List达到256M，那么一次性写入disk，并在memory保留(file, address)的映射关系，便于后续查找

　 4、以hadoop为例，大家都知道HDFS是分布式文件系统，hbase是基于HDFS的KV数据库，这两者的关系和GFS、BigTable的关系如出一辙，展示如下：

　　　从物理上讲，数据最终都是存放在GFS的！为了方便查询和更改，人为设置了key、value的形式，构成了Big Table！

　　5、还是以hadoop为例：分布式系统同时可供多个用户读写数据，为了避免race condition，势必需要分布式锁distributed lock！目前业界常用的分布式锁有chubby和zookeeper，hadoo体系用的是zookeeper！以读数据为例，整个过程如下：

client先去lock server拿锁，同时让locker server 提供slave的id；注意：这里的lock server同时也充当了consistenct hash map的角色，可以节约服务器资源
client发送key给slave读数据
slave拿到key后重复之前提到的流程根据key查数据：找memory的skip List；找bloomFilter；在File块通过binary search查找等！
slave返回数据给client
client通知lock server解锁unlock！

　　6、回到在slave上根据key检索的场景：经过memory中的sorted List、bloomFilter等步骤，最终会到disk的File里面做binary search！这里就用到了大家耳熟能详的BST树了：

　　这种树相比逐行查找，确实有所改进和提升，但也不是100%，还是有缺陷的，比如这种场景：数据一共有10亿个，按照每个数 4byte计算，所需空间>=4GB; 长远来看只能存hard disk，但hard disl的读写速度很慢，一次寻址大约耗时10ms/次（机械硬盘要查找盘面、柱面等，整个过程都是机械式的移动，效率比内存的“电子化”低多了）；顺序读取的速度是80MB/s，4GB的数据全部读到内存，耗时4000/80=500s；再加上二分查找的耗时，用户还能忍受么？所以为了提升binary search的效率，现在面临两个问题：

　　不可能把所有数据都加载到内存后排序，需要在disk就是排好序的，这样可以节约磁盘寻址disk addressing的时间和读取disk数据的时间！
继续优化bianry search：上述的案例因为数据少，所以只有3 level；如果有billion级别的数据，如果用二叉树组织，树的height有30 level，这样依赖至少读取30次磁盘才能找到key；每次寻址耗时10ms，30次寻址耗时300ms，用户早就跑路了！

　　为了解决这个问题，B+树诞生了，mysql用的就是B+树！用一张都爆浆的老图来说明问题，比如下面的InnoDB（支持transaction）：

数据在disk里面也是排好序的（memory关机掉电就没了，所以辛苦排好序的数据只能存disk file），用的就是tree形状的组织，所以查询的时候可以按图索骥index，不用每个节点都去遍历，极大节约时间
为了减少disk的寻址次数，就必须降低tree的height！10亿数据，如果用二叉，最深的地方有30层，意味着要寻址30次；如果把数据的height控制在3层，那么树上非叶子节点的分岔要达到1000；
每个磁盘块的大小是有限的，这里以16KB为例，point和key分别都是8byte，那么每个磁盘块能容纳16KB/(8byte+8byte)=1000个，刚好能分成1000叉，能讲height控制在3层
还是因为磁盘块大小受限，非叶子节点只存储point和key；叶子leaf节点存储key和data！
以上整个tree都是存储在disk的，因为磁盘也和内存一样可以寻址，方式有CHS、LBA等

　　InnoDB类型的B+树还可以优化一下，增加leaf data node 的顺序访问指针，提高区间的访问性能：比如查询18到30之间的data

　　B+树的核心思路：hard disk寻址很耗时，所以一旦成功找到目标地址的数据，一定要好好利用，多读一些数据出来处理，才能减少后续寻址的次数！多读出来的数据该怎么利用了？就是把这些数据尽量多塞一些point和key等index数据，才能更大范围的检索key！

参考：

1、https://www.bilibili.com/read/cv11314297/ 磁盘CHS\LBA寻址

2、https://www.bilibili.com/video/BV1Za411Y7rz?p=65&vd_source=241a5bcb1c13e6828e519dd1f78f35b2 Big Table教程

3、https://blog.csdn.net/jinking01/article/details/105192830 磁盘寻址

4、https://www.zhihu.com/question/38573286 bloomFilter误判率

posted @ 2022-08-17 23:26 第七子007 阅读(151) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

第七子007

system desing 系统设计(五)：Big Table原理

公告