mysql篇之索引

一、索引的本质

        
        通过不断地缩小想要获取数据的范围来筛选出最终想要的结果,同时把随机的事件变成顺序的事件,也就是说,有了这种索引机制,我们可以总是用同一种查找方式来锁定数据
 
 

二、磁盘IO与预读

 
         当一次IO时,不光把当前磁盘地址的数据,而是把相邻的数据也都读取到内存缓冲区内
        计算机访问一个地址的数据的时候,与其相邻的数据也会很快被访问到。每一次IO读取的数据我们称之为一页(page)。具体一页有多大数据跟操作系统有关,一般为4k或8k,也就是我们读取一页内的数据时候,实际上才发生了一次IO,
 
 

三、创建索引准则

 
那些列应该创建索引:
  1. 经常需要搜索的列,可以加快搜索速度
  2. 作为主键的列上,强制该列的唯一性和组织表中数据的排列结构
  3. 经常用在链接的列上,这些列主要是外键可以加快链接速度
  4. 经常需要根据范围进行搜索的列上创建索引,因为索引已经排序,其指定的范围是连续的
  5. 在需要排序的列上创建索引,因为索引已经排列,这样查询可以利用索引的排序,加快查询时间
  6. 在经常使用where句子中的列上面创建索引,加快条件的判断速度。
 
 
那些列不应该创建索引:
  1. 对于那些在查询中很少使用或者参考的列不应该创建索引,若列很少使用到,一次有索引或无索引并不能提高查询速度,相反,由于增加了索引反而降低了系统维护速度和大大增加了空间需求。
  2. 对于那些只有很少数据值或重复值多的列也不应该增加索引,这些列的取值很少例如人事表的性别列,在查询的结果中,结果集的数据行占了表中数据行的很大比例,下雨天在表中搜索的数据行很大,增加索引并不能明显加快检索速度
  3. 对于那些定义为text、image和bit数据类型的列不应该增加索引,这些列的数据量要么大要么取值很少。
  4. 当该列修改性能要求远远盖雨检索性能时,不应该创建索引 (修改性能和检索性能是互相矛盾的)
 
 

四、索引结构

    索引的两大类型hash和BTREE
 
       

hash类型的索引:查询单条快、查询范围慢

 
 
 
     

  BTREE

中常用的索引结构有B-TREE、B+TREE
 
        B-TREE
 
b树的特征
  • 关键字集合分布在整颗树种;
  • 任何一个关键字出现且只出现在一个节点中;
  • 搜索有可能在非叶子结点结束
  • 其搜索性能等价于在关键字全集内做了一次二分查找
  • 自动层次控制
 
 
b+TREE
b+树是b——树的变体,也是一种多路搜索树
 
  • 所有关键字都出现在叶子结点的链表中,且链表中出现的关键字恰好是有序的
  • 不可能在非叶子结点命中
  • 非叶子结点相当于是叶子结点的索引,叶子结点相当于是存储关键字的数据层
  • 每一个叶子结点都包含指向下一个叶子结点的指针,从而方便叶子结点的范围遍历
  • 更适合文件索引系统;
 

五、索引分类

    主键索引:一张表只能有一个主键索引,不允许重复、不允许为null
        primary key
 
    唯一索引:数据列不允许重复、允许为null值,一张表可有多个唯一索引,索引列的值必须唯一,但允许有空值,如果是组合索引,则列值的组合必须唯一。
        unique
 
    普通索引一张表可有创建多个普通索引,一个普通索引可有包含多个字段,允许数据重复,允许null值插入;
    关键字:index或者key
 
    全文索引:他查找的是文本中的关键字,主要用于全文检索
        只能在myisam表中、varchar或者text类型的字段上创建。
 
按列数划分:
 
    单列索引:一个索引只包含一个列,一个表可以有多个单列索引。
 
    组合索引:一个组合索引包含两个或以上的列,查询的时候遵循mysql组合索引的"最左前缀"原则,即使用where时条件要按照建立索引的时候字段的排列方式放置索引才会生效。
 
 
 

六、索引实操:

1.创建索引
    -在创建表时就创建(需要注意的几点)
    create table s1(
    id int ,#可以在这加primary key
    #id int index #不可以这样加索引,因为index只是索引,没有约束一说,
    #不能像主键,还有唯一约束一样,在定义字段的时候加索引
    name char(20),
    age int,
    email varchar(30)
    #primary key(id) #也可以在这加
    index(id) #可以这样加
    );
    -在创建表后在创建
    create index name on s1(name); #添加普通索引
    create unique age on s1(age);添加唯一索引
    alter table s1 add primary key(id); #添加住建索引,也就是给id字段增加一个主键约束
    create index name on s1(id,name); #添加普通联合索引
2.删除索引
    drop index id on s1;
    drop index name on s1; #删除普通索引
    drop index age on s1; #删除唯一索引,就和普通索引一样,不用在index前加unique来删,直接就可以删了
    alter table s1 drop primary key; #删除主键(因为它添加的时候是按照alter来增加的,那么我们也用alter来删)
 
查看帮助
help create;
help create index;
 

七、索引测试

1.准备
#1. 准备表
create table s1(
id int,
name varchar(20),
gender char(6),
email varchar(50)
);
 
 
#2. 创建存储过程,实现批量插入记录
delimiter $$ #声明存储过程的结束符号为$$
create procedure auto_insert1()
BEGIN
    declare i int default 1;
    while(i<3000000)do
        insert into s1 values(i,concat('egon',i),'male',concat('egon',i,'@oldboy'));
        set i=i+1;
    end while;
END$$ #$$结束
delimiter ; #重新声明分号为结束符号
 
 
#3. 查看存储过程
show create procedure auto_insert1\G
 
 
#4. 调用存储过程
call auto_insert1();
 
2.在没有索引的前提下测试查询速度
#无索引:从头到尾扫描一遍,所以查询速度很慢
mysql> select * from s1 where id=333;
+------+---------+--------+----------------+
| id   | name    | gender | email          |
+------+---------+--------+----------------+
|  333 | egon333 | male   | 333@oldboy.com |
|  333 | egon333 | f      | alex333@oldboy |
|  333 | egon333 | f      | alex333@oldboy |
+------+---------+--------+----------------+
rows in set (0.32 sec)
 
 
mysql> select * from s1 where email='egon333@oldboy';
....
... rows in set (0.36 sec)
 
3、加上索引
#1. 一定是为搜索条件的字段创建索引,比如select * from t1 where age > 5;就需要为age加上索引
 
 
#2. 在表中已经有大量数据的情况下,建索引会很慢,且占用硬盘空间,插入删除更新都很慢,只有查询快
比如create index idx on s1(id);会扫描表中所有的数据,然后以id为数据项,创建索引结构,存放于硬盘的表中。
建完以后,再查询就会很快了
 
 
#3. 需要注意的是:innodb表的索引会存放于s1.ibd文件中,而myisam表的索引则会有单独的索引文件table1.MYI
 
 

 

八、正确使用索引

1.覆盖索引
#分析
select * from s1 where id=123;
该sql命中了索引,但未覆盖索引。
利用id=123到索引的数据结构中定位到该id在硬盘中的位置,或者说再数据表中的位置。
但是我们select的字段为*,除了id以外还需要其他字段,这就意味着,我们通过索引结构取到id还不够,
还需要利用该id再去找到该id所在行的其他字段值,这是需要时间的,很明显,如果我们只select id,
就减去了这份苦恼,如下
select id from s1 where id=123;
这条就是覆盖索引了,命中索引,且从索引的数据结构直接就取到了id在硬盘的地址,速度很快
 
2.联合索引
 
3.合并索引
#索引合并:把多个单列索引合并使用
 
 
#分析:
组合索引能做到的事情,我们都可以用索引合并去解决,比如
create index ne on s1(name,email);#组合索引
我们完全可以单独为name和email创建索引
 
 
组合索引可以命中:
select * from s1 where name='egon' ;
select * from s1 where name='egon' and email='adf';
 
 
索引合并可以命中:
select * from s1 where name='egon' ;
select * from s1 where email='adf';
select * from s1 where name='egon' and email='adf';
 
 
乍一看好像索引合并更好了:可以命中更多的情况,但其实要分情况去看,如果是name='egon' and email='adf',
那么组合索引的效率要高于索引合并,如果是单条件查,那么还是用索引合并比较合理
 
3.若想利用索引达到预想的提高查询速度的效果,我们在添加索引时,必须遵循以下规则。
#1.最左前缀匹配原则,非常重要的原则,
create index ix_name_email on s1(name,email,)
- 最左前缀匹配:必须按照从左到右的顺序匹配
select * from s1 where name='egon'; #可以
select * from s1 where name='egon' and email='asdf'; #可以
select * from s1 where email='alex@oldboy.com'; #不可以
mysql会一直向右匹配直到遇到范围查询(>、<、between、like)就停止匹配,
比如a = 1 and b = 2 and c > 3 and d = 4 如果建立(a,b,c,d)顺序的索引,
d是用不到索引的,如果建立(a,b,d,c)的索引则都可以用到,a,b,d的顺序可以任意调整。
 
 
#2.=和in可以乱序,比如a = 1 and b = 2 and c = 3 建立(a,b,c)索引可以任意顺序,mysql的查询优化器
会帮你优化成索引可以识别的形式
 
 
#3.尽量选择区分度高的列作为索引,区分度的公式是count(distinct col)/count(*),
表示字段不重复的比例,比例越大我们扫描的记录数越少,唯一键的区分度是1,而一些状态、
性别字段可能在大数据面前区分度就是0,那可能有人会问,这个比例有什么经验值吗?使用场景不同,
这个值也很难确定,一般需要join的字段我们都要求是0.1以上,即平均1条扫描10条记录
 
 
#4.索引列不能参与计算,保持列“干净”,比如from_unixtime(create_time) = ’2014-05-29’
就不能使用到索引,原因很简单,b+树中存的都是数据表中的字段值,
但进行检索时,需要把所有元素都应用函数才能比较,显然成本太大。
所以语句应该写成create_time = unix_timestamp(’2014-05-29’);
 
最左侧前缀展示
mysql> select * from s1 where id>3 and name='egon' and email='alex333@oldboy.com' and gender='male';
Empty set (0.39 sec)
 
 
mysql> create index idx on s1(id,name,email,gender); #未遵循最左前缀
Query OK, 0 rows affected (15.27 sec)
Records: 0  Duplicates: 0  Warnings: 0
 
 
mysql> select * from s1 where id>3 and name='egon' and email='alex333@oldboy.com' and gender='male';
Empty set (0.43 sec)
 
 
 
 
mysql> drop index idx on s1;
Query OK, 0 rows affected (0.16 sec)
Records: 0  Duplicates: 0  Warnings: 0
 
 
mysql> create index idx on s1(name,email,gender,id); #遵循最左前缀
Query OK, 0 rows affected (15.97 sec)
Records: 0  Duplicates: 0  Warnings: 0
 
 
mysql> select * from s1 where id>3 and name='egon' and email='alex333@oldboy.com' and gender='male';
Empty set (0.03 sec)
 
 
索引无法命中清空需要注意
- like '%xx'
    select * from tb1 where email like '%cn';
    
    
- 使用函数
    select * from tb1 where reverse(email) = 'wupeiqi';
    
    
- or
    select * from tb1 where nid = 1 or name = 'seven@live.com';
    
    
    特别的:当or条件中有未建立索引的列才失效,以下会走索引
            select * from tb1 where nid = 1 or name = 'seven';
            select * from tb1 where nid = 1 or name = 'seven@live.com' and email = 'alex'
            
            
- 类型不一致
    如果列是字符串类型,传入条件是必须用引号引起来,不然...
    select * from tb1 where email = 999;
    
普通索引的不等于不会走索引
- !=
    select * from tb1 where email != 'alex'
    
    特别的:如果是主键,则还是会走索引
        select * from tb1 where nid != 123
- >
    select * from tb1 where email > 'alex'
    
    
    特别的:如果是主键或索引是整数类型,则还是会走索引
        select * from tb1 where nid > 123
        select * from tb1 where num > 123
        
        
#排序条件为索引,则select字段必须也是索引字段,否则无法命中
- order by
    select name from s1 order by email desc;
    当根据索引排序时候,select查询的字段如果不是索引,则不走索引
    select email from s1 order by email desc;
    特别的:如果对主键排序,则还是走索引:
        select * from tb1 order by nid desc;
- 组合索引最左前缀
    如果组合索引为:(name,email)
    name and email       -- 使用索引
    name                 -- 使用索引
    email                -- 不使用索引
 
 
 
 
- count(1)或count(列)代替count(*)在mysql中没有差别了
 
 
- create index xxxx  on tb(title(19)) #text类型,必须制定长度
 
 
一些建议
- 避免使用select *
- count(1)或count(列) 代替 count(*)
- 创建表时尽量时 char 代替 varchar
- 表的字段顺序固定长度的字段优先
- 组合索引代替多个单列索引(经常使用多个条件查询时)
- 尽量使用短索引
- 使用连接(JOIN)来代替子查询(Sub-Queries)
- 连表时注意条件类型需一致
- 索引散列值(重复少)不适合建索引,例:性别不适合
 
 
 

九、慢查询优化的基本步骤

0.先运行看看是否真的很慢,注意设置SQL_NO_CACHE
1.where条件单表查,锁定最小返回记录表。这句话的意思是把查询语句的where都应用到表中返回的记录数最小的表开始查起,单表每个字段分别查询,看哪个字段的区分度最高
2.explain查看执行计划,是否与1预期一致(从锁定记录较少的表开始查询)
3.order by limit 形式的sql语句让排序的表优先查
4.了解业务方使用场景
5.加索引时参照建索引的几大原则
6.观察结果,不符合预期继续从0分析
 
 
 
posted @ 2021-11-09 22:37  念长卿  阅读(88)  评论(0)    收藏  举报