mysql 原理~ index的详解

一 简介:今天咱们来介绍下index的一些东西

二 数据的基本存储结构

   1 磁盘空间被划分为许多大小相同的块(Block) 在内存中读出是页(Page)。
   2 一个表的这些数据块以链表的方式串联在一起。
   3 数据是以行(Row)为单位一行一行的存放在磁盘上的块中,在内存中一页至少存储2行(16KB的情况下)
   4 在访问数据时,一次从磁盘中读出或者写入至少一个完整的Block/Page。 
   磁盘示意
   block=>(row,row,row)
   block=>(row,row)
   block=>(row)

三  对于DML操作的具体精准解释   

select

  1 定位数据
  2 读出数据所在的块,对数据加工(运算排序等操作)
  3 返回数据给用户
UPDATE、DELETE
 1 定位数据
 2 读出数据所在的块,修改数据
 3 写回磁盘
索引操作
delete
1 在Clustered B+Tree上删除一条记录。
2 在所有Secondary B+Tree上删除二级索引的记录。
update
非主键列
1 在Clustered B+Tree上更新数据。
主键列
1 Clustered B+Tree删除原有的记录(只是标记为DELETED,并不真正删除)。
2 在Clustered B+Tree插入一条新的记录。
3 在每一个Secondary B+Tree上删除原有的记录。(有疑问,看下一节。)
4 在每一个Secondary B+Tree上插入一个条新的记录。
更新键列时,需要更新多个页,效率比较低。
A. 尽量不用对主键列进行UPDATE操作。
B. 更新很多时,尽量少建索引。
INSERT
1 定位数据要插入的页(如果数据需要排序)
2 读出要插入的数据页,插入数据.
3 写回磁盘

四  簇聚索引

    

    特点:

     1 一个表只能有一个Clustered Index,因为数据只能根据一个键排序.叶子节点通过链表来进行连接

     2 聚簇索引中的每个叶子节点包含主键值、事务ID、回滚指针(rollback pointer用于事务和MVCC)和余下的列值,非叶子节点包含主键和指向叶子节点的指针

     3 用其他的键来建立索引树时,必须要先建立一个dense索引层,在dense索引层上对此键的值进行排序。这样的索引树称作Secondary Index. 一个表上可以有多个Secondary Index,并且每个辅助索引维护一个单独的B-TREE树,里面包含辅助索引的值和对应的主键

     每次DML操作大多都会维护相关树,这是为什么不能一张表拥有太多索引的原因,会加大维护成本

    4  对簇索引进行遍历,实际上就是对数据进行遍历。因此簇索引的遍历效率比辅助索引低。如SELECT COUNT(*) 操作,查询优化器一般会选择使用辅助索引遍历的效率更高。

五 查询顺序   

  1 用主键查询
    直接在Clustered B+Tree上查询。
  2  用辅助索引查询
   1 在Secondary B+Tree上查询到主键。
   2 用主键在Clustered B+Tree上查询到数据。

六 在InnoDB表中按照主键顺序插入行

   1  主键的值时顺序的,索引InnoDB 把每一条记录都存储在上一条记录的后面。当达到页的最大填充因子时(InnoDB 默认的最大填充因子是页大小的15/16 ,留出部分空间用于以后修改),下一条记录就会写入到新的页中。一旦数据按照这种顺序的方式加载,主键页就会近似于被顺序的记录填满,这也正是所期望的结果

   2 非自增ID主键顺序的插入 

    因为新的行的主键值不一定比之前插入的大,所以InnoDB 无法简单的总是把新行插入到索引的最后,写入是乱序的,InnoDB 不得不频繁的做分页操作,以便为新的行分配空间。页分裂会导致移动大量数据,一次插入最少需要修改三个页面,而不是一个页。由于频繁的页分裂,页会变得稀疏,并且被不规则的填充,所以最终数据会有碎片。

posted @ 2018-02-12 16:16  开心的蛋黄派  阅读(754)  评论(0编辑  收藏  举报