Loading

12-其他方面的优化

1. 应用优化

前面章节,我们介绍了很多数据库的优化措施。但是在实际生产环境中,由于数据库本身的性能局限,就必须要对前台的应用进行一些优化,来降低数据库的访问压力。

1.1 使用连接池

对于访问数据库来说,建立连接的代价是比较昂贵的,因为我们频繁的创建关闭连接,是比较耗费资源的,我们有必要建立数据库连接池,以提高访问的性能。

1.2 减少访问

(1)避免对数据进行重复检索

在编写应用代码时,需要能够理清对数据库的访问逻辑。能够一次连接就获取到结果的,就不用两次连接,这样可以大大减少对数据库无用的重复请求。

(2)增加 cache 层

在应用中,我们可以在应用中增加缓存层来达到减轻数据库负担的目的。缓存层有很多种,也有很多实现方式,只要能达到降低数据库的负担又能满足应用需求就可以。

因此可以部分数据从数据库中抽取出来放到应用端以文本方式存储,或者使用框架(Mybatis,Hibernate) 提供的一级缓存/二级缓存,或者使用 Redis 数据库来缓存数据。

1.3 负载均衡

负载均衡是应用中使用非常普遍的一种优化方法,它的机制就是利用某种均衡算法,将固定的负载量分布到不同的服务器上,以此来降低单台服务器的负载,达到优化的效果。

(1)利用复制分流查询

通过 MySQL 的主从复制,实现读写分离,使增删改操作走主节点,查询操作走从节点,从而可以降低单台服务器的读写压力。

(2)采用分布式数据库架构

分布式数据库架构适合大数据量、负载高的情况,它有良好的拓展性和高可用性。通过在多台服务器之间分布数据,可以实现在多台服务器之间的负载均衡,提高访问效率。

2. 查询缓存优化

开启 MySQL 的查询缓存,当执行完全相同的 SQL 语句的时候,服务器就会直接从缓存中读取结果,当数据被修改,之前的缓存会失效,修改比较频繁的表不适合做查询缓存。

2.1 操作流程

  1. 客户端发送一条查询给服务器;
  2. 服务器先会检查查询缓存,如果命中了缓存,则立即返回存储在缓存中的结果。否则进入下一阶段;
  3. 服务器端进行 SQL 解析、预处理,再由优化器生成对应的执行计划;
  4. MySQL 根据优化器生成的执行计划,调用存储引擎的 API 来执行查询;
  5. 将结果返回给客户端。

2.2 查询缓存配置

  1. 查看当前 MySQL 数据库是否支持查询缓存:SHOW VARIABLES LIKE 'have_query_cache';
  2. 查看当前 MySQL 是否开启了查询缓存:SHOW VARIABLES LIKE 'query_cache_type';
  3. 查看查询缓存的占用大小:SHOW VARIABLES LIKE 'query_cache_size;
  4. 查看查询缓存的状态变量:SHOW STATUS LIKE 'Qcache%';

各个变量的含义如下:

2.3 开启查询缓存

MySQL的查询缓存默认是关闭的,需要手动配置参数 query_cache_type , 来开启查询缓存。query_cache_type 参数的可取值有 3 个:

在 /etc/my.cnf 中增加以下配置 :

配置完毕之后,重启服务既可生效。然后就可以在命令行执行 SQL 语句进行验证 ,执行一条比较耗时的 SQL 语句,然后再多执行几次,查看后面几次的执行时间;获取通过查看查询缓存的缓存命中数,来判定是否走查询缓存。

2.4 SELECT 查询缓存

可以在 SELECT 语句中指定两个与查询缓存相关的选项:

  • SQL_CACHE:如果查询结果是可缓存的,并且 query_cache_type 系统变量的值为 ON 或 DEMAND,则缓存查询结果;
  • SQL_NO_CACHE:服务器不使用查询缓存。它既不检查查询缓存,也不检查结果是否已缓存,也不缓存查询结果。

2.5 缓存失效

  1. SQL 语句不一致的情况:要想命中查询缓存,查询的 SQL 语句必须完全一致 // 对缓存的检查是通过"大小写敏感的哈希查找"实现的;
    SQL1: select count(*) from tb_item;
    SQL2: Select count(*) from tb_item;
    
  2. 当查询语句中有一些不确定的时,则不会缓存。如:now()、current_date()、curdate()、curtime()、rand()、uuid()、user()、database();
    SQL1: select * from tb_item where updatetime < now() limit 1;
    SQL2: select user();
    SQL3: select database();
    
  3. 不使用任何表查询语句;
    select 'A';
    
  4. 查询 mysql、information_schema 或 performance_schema 数据库中的表时,不会走查询缓存;
    select * from information_schema.engines;
    
  5. 在存储的函数,触发器或事件的主体内执行的查询;
  6. 如果表更改,则使用该表的所有高速缓存查询都将变为无效并从高速缓存中删除。这包括使用 MERGE 映射到已更改表的表的查询。一个表可以被许多类型的语句,如被改变 INSERT、UPDATE、DELETE、TRUNCATE、TABLE、ALTER TABLE、DROP TABLE 或 DROP DATABASE。

3. 内存管理及优化

3.1 内存优化原则

  1. 将尽量多的内存分配给 MySQL 做缓存,但要给操作系统和其他程序预留足够内存;
  2. MyISAM 存储引擎的数据文件读取依赖于操作系统自身的 IO 缓存,因此,如果有 MyISAM 表,就要预留更多的内存给操作系统做 IO 缓存;
  3. 排序区、连接区等缓存是分配给每个数据库会话(session)专用的,其默认值的设置要根据最大连接数合理分配,如果设置太大,不但浪费资源,而且在并发连接较高时会导致物理内存耗尽。

3.2 MyISAM 内存优化

MyISAM 存储引擎使用 key_buffer 缓存〈索引块〉,加速 MyISAM 索引的读写速度。对于 MyISAM 表的〈数据块〉,MySQL 没有特别的缓存机制,完全依赖于操作系统的 IO 缓存。

  • key_buffer_size:该参数决定 MyISAM 索引块缓存区的大小,直接影响到 MyISAM 表的存取效率。可以在 MySQL 参数文件中设置 key_buffer_size 的值,对于一般 MyISAM 数据库,建议至少将 1/4 可用内存分配给 key_buffer_size;
    mysql> show variables like 'key_buffer_size;' # → 默认大小 8M
    
    [/etc/my.cnf]
    key_buffer_size=512M
    
  • read_buffer_size:如果需要经常顺序扫描 MyISAM 表,可以通过增大 read_buffer_size 的值来改善性能。但需要注意的是 read_buffer_size 是每个 session 独占的,如果默认值设置太大,就会造成内存浪费;
  • read_rnd_buffer_size:对于需要做排序的 MyISAM 表的查询,如带有 Order by 子句的 SQL,适当增加 read_rnd_buffer_size 的值,可以改善此类的 SQL 性能。但需要注意的是 read_rnd_buffer_size 是每个 session 独占的,如果默认值设置太大,就会造成内存浪费。

3.3 InnoDB 内存优化

InnoDB 用一块内存区做 IO 缓存池,该缓存池不仅用来缓存 InnoDB 的索引块,而且也用来缓存 InnoDB 的数据块。

  • innodb_buffer_pool_size:该变量决定了 InnoDB 存储引擎表数据和索引数据的最大缓存区大小。在保证操作系统及其他程序有足够内存可用的情况下,innodb_buffer_pool_size 的值越大,缓存命中率越高,访问 InnoDB 表需要的磁盘 IO 就越少,性能也就越高。
    innodb_buffer_pool_size=512M # 默认是128M
    
  • innodb_log_buffer_size:决定了 InnoDB 重做日志缓存的大小,对于可能产生大量更新记录的大事务,增加 innodb_log_buffer_size 的大小,可以避免 InnoDB 在事务提交前就执行不必要的日志写入磁盘操作。
    innodb_log_buffer_size=10M
    

4. 并发参数调整

从实现上来说,MySQL Server 是多线程结构,包括后台线程和客户服务线程。多线程可以有效利用服务器资源,提高数据库的并发性能。在 MySQL 中,控制并发连接和线程的主要参数包括 max_connections、back_log、thread_cache_size、table_open_cahce。

(1)max_connections

采用 max_connections 控制允许连接到 MySQL 数据库的最大数量,默认值是 151。如果状态变量 connection_errors_max_connections 不为零,并且一直增长,则说明不断有连接请求因数据库连接数已达到允许最大值而失败,这是可以考虑增大 max_connections 的值。

MySQL 最大可支持的连接数,取决于很多因素,包括给定操作系统平台的线程库的质量、内存大小、每个连接的负荷、CPU 的处理速度,期望的响应时间等。在 Linux 平台下,性能好的服务器,支持 500-1000 个连接不是难事,需要根据服务器性能进行评估设定。

(2)back_log

back_log 参数控制 MySQL 监听 TCP 端口时设置的积压请求栈大小。如果 MySQL 的连接数达到 max_connections 时,新来的请求将会被存在堆栈中,以等待某一连接释放资源,该堆栈的数量即 back_log,如果等待连接的数量超过 back_log,将不被授予连接资源,将会报错。

5.6.6 版本之前默认值为 50,之后的版本默认为 50 + (max_connections/5),但最大不超过 900。如果需要数据库在较短的时间内处理大量连接请求,可以考虑适当增大 back_log 的值。

(3)table_open_cache

该参数用来控制所有 SQL 语句执行线程可打开表缓存的数量,而在执行 SQL 语句时,每一个 SQL 执行线程至少要打开 1 个表缓存。该参数的值应该根据设置的最大连接数 max_connections 以及每个连接执行关联查询中涉及的表的最大数量来设定:max_connections * N。

(4)thread_cache_size

为了加快连接数据库的速度,MySQL 会缓存一定数量的客户服务线程以备重用,通过参数 thread_cache_size 可控制 MySQL 缓存客户服务线程的数量。

(5)innodb_lock_wait_timeout

该参数是用来设置 InnoDB 事务等待行锁的时间,默认值是 50ms,可以根据需要进行动态设置。对于需要快速反馈的业务系统来说,可以将行锁的等待时间调小,以避免事务长时间挂起;对于后台运行的批量处理程序来说,可以将行锁的等待时间调大,以避免发生大的回滚操作。

5. MySQL 锁问题

锁是计算机协调多个进程或线程并发访问某一资源的机制(避免争抢)。

在数据库中,除传统的计算资源(如 CPU、RAM、I/O 等)的争用以外,数据也是一种供许多用户共享的资源。如何保证数据并发访问的一致性、有效性是所有数据库必须解决的一个问题,锁冲突也是影响数据库并发访问性能的一个重要因素。从这个角度来说,锁对数据库而言显得尤其重要,也更加复杂。

5.1 MySQL 锁

(1)锁分类

  • 从对数据操作的粒度分
    • 表锁:操作时,会锁定整个表。
    • 行锁:操作时,会锁定当前操作行。
  • 从对数据操作的类型分
    • 读锁(共享锁):针对同一份数据,多个读操作可以同时进行而不会互相影响。
    • 写锁(排它锁):当前操作没有完成之前,它会阻断其他写锁和读锁。

(2)相对其他数据库而言,MySQL 的锁机制比较简单,其最显著的特点是不同的存储引擎支持不同的锁机制。下表中罗列出了各存储引擎对锁的支持情况:

(3)MySQL 这 3 种锁的特性可大致归纳如下:

从上述特点可见,很难笼统地说哪种锁更好,只能就具体应用的特点来说哪种锁更合适!仅从锁的角度来说:表级锁更适合于以查询为主,只有少量按索引条件更新数据的应用,如 Web 应用;而行级锁则更适合于有大量按索引条件并发更新少量不同数据,同时又有并查询的应用,如一些在线事务处理(OLTP) 系统。

5.2 MyISAM 表锁

MyISAM 存储引擎只支持表锁,这也是 MySQL 开始几个版本中唯一支持的锁类型。

a. 如何加表锁

MyISAM 在执行查询语句(SELECT)前,会自动给涉及的所有表加「读锁」;在执行更新操作(UPDATE、DELETE、INSERT 等)前,会自动给涉及的表加「写锁」

这个过程并不需要用户干预,因此,用户一般不需要直接用 LOCK TABLE 命令给 MyISAM 表显式加锁。

显示加表锁语法:

[加读锁] LOCK TABLE table_name READ;
[加写锁] LOCK TABLE table_name WRITE;

b. 读锁案例

环境准备:

黑色和白色分别代表两个客户端:

  1. 读锁是共享锁,只会阻塞其他线程写的操作,所以客户端二也可以查询到 tb_book 的表数据;
  2. 客户端一执行更新直接报错,是由于当前 tb_book 获得的是「读锁」,故不能执行更新操作;
  3. 当在客户端一中释放锁指令 UNLOCK TABLES 后,客户端二中的 UPDATE 语句, 立即执行。

c. 写锁案例

d. 锁的争用情况

查看哪些表被加锁:SHOW OPEN TABLES;

  • In_user:表当前被查询使用的次数。如果该数为零,则表是打开的,但是当前没有被使用;
  • Name_locked:表名称是否被锁定。名称锁定用于取消表或对表进行重命名等操作。

分析表锁定:SHOW STATUS LIKE 'Table_locks%';,会有如下 2 个状态变量记录 MySQL 内部表级锁定的情况:

  • Table_locks_immediate:指的是能够立即获得表级锁的次数,每立即获取锁,值加 1。
  • Table_locks_waited:指的是不能立即获取表级锁而需要等待的次数,每等待一次,该值加 1,此值高说明存在着较为严重的表级锁争用情况。

e. 小结

当使用 LOCK TABLES 时,不仅需要一次锁定用到的所有表,而且,同一个表在 SQL 语句中出现多少次,就要通过与 SQL 语句中相同的别名锁定多少次,否则也会出错!

锁模式的相互兼容性如表中所示;简而言之,就是读锁会阻塞写,但是不会阻塞读。而写锁,则既会阻塞读,又会阻塞写。

  • 对 MyISAM 表的读操作(加读锁),不会阻塞其他用户对同一表的读请求,但会阻塞对同一表的写请求;只有当读锁释放后,才会执行其他进程的写操作。
  • 对 MyISAM 表的写操作(加写锁),则会阻塞其他用户对同一表的读和写操作;只有当写锁释放后,才会执行其他进程的读写操作。

此外,MyISAM 的读写锁调度是写优先。不仅如此,即使读请求先到锁等待队列,写请求后到,写锁也会插到读锁请求之前!因为 MySQL 认为写请求一般比读请求要重要。这也是 MyISAM 不适合做写为主的表的存储引擎的原因。因为写锁后,其他线程不能做任何操作,大量的更新会使查询很难得到锁,从而造成永远阻塞。

5.3 InnoDB 行锁

a. 行锁介绍

行锁特点 :偏向 InnoDB 存储引擎,开销大,加锁慢;会出现死锁;锁定粒度最小,发生锁冲突的概率最低,并发度也最高。

InnoDB 与 MyISAM 的最大不同有两点:一是支持事务,二是采用行级锁

b. 补充知识

1. 事务及其 ACID 属性

事务是由一组 SQL 语句组成的逻辑处理单元。事务具有以下 4 个特性,简称为事务 ACID 属性。

2. 并发事务处理带来的问题

3. 事务隔离级别

为了解决上述提到的事务并发问题,数据库提供一定的事务隔离机制来解决这个问题。数据库的事务隔离越严格,并发副作用越小,但付出的代价也就越大,因为事务隔离实质上就是使用事务在一定程度上“串行化” 进行,这显然与“并发” 是矛盾的。

数据库的隔离级别有 4 个,由低到高依次为 Read uncommitted、Read committed、Repeatable read、Serializable,这 4 个级别可以逐个解决脏写、脏读、不可重复读、幻读这几类问题。

备注:√ 代表可能出现,× 代表不会出现。

MySQL 的数据库的默认隔离级别为 Repeatable read,查看方式:SHOW VARIABLES LIKE 'tx_isolation';

4. 如何修改一行?

select ... for update 预定某一行后,其他的操作会被阻塞,直到锁定行的会话提交 commit。

c. 行锁模式

InnoDB 实现了以下两种类型的行锁:

  • 共享锁(S):又称为读锁,简称 S 锁,共享锁就是多个事务对于同一数据可以共享一把锁,都能访问到数据,但是只能读不能修改。
  • 排他锁(X):又称为写锁,简称 X 锁,排他锁就是不能与其他锁并存,如一个事务获取了一个数据行的排他锁,其他事务就不能再获取该行的其他锁,包括共享锁和排他锁,但是获取排他锁的事务是可以对数据就行读取和修改。

对于 UPDATE、DELETE 和 INSERT 语句,InnoDB 会自动给涉及数据集加「排他锁(X)」;对于普通 SELECT 语句,InnoDB 不会加任何锁。

可以通过以下语句显示给记录集加共享锁或排他锁:

[共享锁(S)] SELECT * FROM table_name WHERE ... LOCK IN SHARE MODE
[排他锁(X)] SELECT * FROM table_name WHERE ... FOR UPDATE

行锁演示:

d. 行锁升级为表锁

如果不通过索引条件检索数据,那么 InnoDB 将对表中的所有记录加锁,实际效果跟表锁一样。

根据 SHOW INDEX FROM test_innodb_lock\G; 能看出下面两个客户端的更新操作都是通过索引完成的;操作的也不是同一行数据,为什么 Session-2 会阻塞呢?

问题出在 Session-1 在执行更新时的 SQL 上:name 字段本来为 varchar 类型,我们是作为数组类型使用,存在类型转换,使索引失效,从而行锁变为表锁,最终导致 Session-2 在更新不同行数据时也会发生阻塞。

e. 间隙锁

当我们用范围条件而不是使用相等条件检索数据,并请求共享或排他锁时,InnoDB 会给符合条件的已有数据进行加锁。对于键值在条件范围内但并不存在的记录,叫做 "间隙 (GAP)",InnoDB 也会对这个 "间隙" 加锁,这种锁机制就是所谓的间隙锁(Next-Key 锁)。

因为 Query 执行过程中通过范围查找的话,它会锁定整个范围内所有的索引键值,即使这个键值并不存在。

间隙锁一个比较致命的缺点,就是当锁定一个范围键值之后,即使某个不存在的键值也会被无辜地锁定,继而造成在锁定的时候无法插入锁定键值范围内的任何数据。在某些场景下这可能会对性能造成很大的危害。

f. 行锁争用情况

SHOW STATUS LIKE 'innodb_row_lock%';

Innodb_row_lock_current_waits    # 当前正在等待锁定的数量
Innodb_row_lock_time             # 从系统启动到现在锁定总时间长度
Innodb_row_lock_time_avg         # 每次等待所花平均时长
Innodb_row_lock_time_max         # 从系统启动到现在等待最长的一次所花的时间
Innodb_row_lock_waits            # 系统启动后到现在总共等待的次数

当等待的次数很高,而且每次等待的时长也不小的时候,我们就需要分析系统中为什么会有如此多的等待,然后根据分析结果着手制定优化计划。

g. 小结

InnoDB 存储引擎由于实现了行级锁定,虽然在锁定机制的实现方面带来了性能损耗可能比表锁会更高一些,但是在整体并发处理能力方面要远远优于 MyISAM 的表锁的。当系统并发量较高的时候,InnoDB 的整体性能和 MyISAM 相比就会有比较明显的优势。

但是,InnoDB 的行级锁同样也有其脆弱的一面,当我们使用不当的时候,可能会让 InnoDB 的整体性能表现不仅不能比 MyISAM 高,甚至可能会更差。

优化建议:

  • 尽可能让所有数据检索都能通过索引来完成,避免无索引行锁升级为表锁;
  • 合理设计索引,尽量缩小锁的范围;
  • 尽可能减少索引条件及索引范围,避免间隙锁(这里的“索引”指的是“查询条件”);
  • 尽量控制事务大小,减少锁定资源量和时间长度;
  • 尽可使用低级别事务隔离(在业务层面满足需求的前提下)。

5.4 MVCC

a. 概念

MySQL 在〈可重复读隔离级别〉下如何保证事务较高的隔离性,事务隔离级别演示过,同样的 sql 查询语句在一个事务里多次执行查询结果相同,就算其它事务对数据有修改也不会影响当前事务 sql 语句的查询结果。

这个隔离性就是靠 MVCC(Multi-Version Concurrency Control) 机制来保证的,对一行数据的读和写两个操作默认是不会通过加锁互斥来保证隔离性,避免了频繁加锁互斥,而在串行化隔离级别为了保证较高的隔离性是通过将所有操作加锁互斥来实现的。

MySQL 在〈读已提交隔离级别〉和〈可重复读隔离级别〉下都实现了 MVCC 机制。

如何生成的多版本?

每次事务修改操作之前,都会在 Undo 日志中记录修改之前的数据状态和事务号,该备份记录可以用于其他事务的读取,也可以进行必要时的数据回滚。

b. 实现原理

Undo 日志版本链与 read-view 机制

MVCC 最大的好处是读不加锁,读写不冲突。在读多写少的系统应用中,读写不冲突是非常重要的,极大的提升系统的并发性能,这也是为什么现阶段几乎所有的关系型数据库都支持 MVCC 的原因,不过目前 MVCC 只在 Read Commited 和 Repeatable Read 两种隔离级别下工作。

Undo 日志版本链是指一行数据被多个事务依次修改过后,在每个事务修改完后,MySQL 会保留修改前的数据 Undo 回滚日志,并且用两个隐藏字段 trx_id 和 roll_pointer 把这些 Undo 日志串联起来形成一个历史记录版本链。

在〈可重复读隔离级别〉下,当事务开启,执行任何查询 sql 时会生成当前事务的一致性视图 read-view,该视图在事务结束之前都不会变化(如果是〈读已提交隔离级别〉在每次执行查询 sql 时都会重新生成),这个视图由执行查询时所有未提交事务 id 构成的数组(数组里最小的 id 为 min_id)和已创建的最大事务 id(max_id)组成,事务里的任何 sql 查询结果需要从对应版本链里的最新数据开始逐条跟 read-view 做比对从而得到最终的快照结果。

版本链比对规则:

  1. 如果 row 的 trx_id 落在绿色部分( trx_id<min_id ),表示这个版本是已提交的事务生成的,这个数据是可见的;
  2. 如果 row 的 trx_id 落在红色部分( trx_id>max_id ),表示这个版本是由将来启动的事务生成的,是不可见的(若 row 的 trx_id 就是当前自己的事务是可见的);
  3. 如果 row 的 trx_id 落在黄色部分(min_id <=trx_id<= max_id),那就包括两种情况:
    • 若 row 的 trx_id 在视图数组中,表示这个版本是由还没提交的事务生成的,不可见(若 row 的 trx_id 就是当前自己的事务是可见的);
    • 若 row 的 trx_id 不在视图数组中,表示这个版本是已经提交了的事务生成的,可见。

对于删除的情况可以认为是 update 的特殊情况,会将版本链上最新的数据复制一份,然后将 trx_id 修改成删除操作的 trx_id,同时在该条记录的头信息(record header)里的(deleted_flag)标记位写上 true,来表示当前记录已经被删除,在查询时按照上面的规则查到对应的记录如果 delete_flag 标记位为 true,意味着记录已被删除,则不返回数据。

注意begin/start transaction 命令并不是一个事务的起点,在执行到它们之后的第一个修改操作 InnoDB 表的语句,事务才真正启动,才会向 MySQL 申请事务 id,MySQL 内部是严格按照事务的启动顺序来分配事务 id 的。

总结MVCC 机制的实现就是通过 read-view 机制与 Undo 版本链比对机制,使得不同的事务会根据数据版本链对比规则读取同一条数据在版本链上的不同版本数据。

posted @ 2020-11-12 12:06  tree6x7  阅读(87)  评论(0编辑  收藏  举报