MySQL insert 变慢故障排查

在 MySQL 数据库运维中，insert操作变慢是常见的性能问题，但其背后的原因往往涉及磁盘 IO、锁机制、复制策略等多个层面。本文结合实际案例，详细拆解从发现问题到定位根因的全流程，揭示批量insert变慢的底层逻辑，并提供系统化的排查与优化方案。

一、问题现象：批量 SQL 变慢的异常表现

某客户反馈线上数据库的insert操作响应迟缓，运维团队查看慢日志（slow.log）后发现：慢 SQL 并非孤立出现，而是呈现批量爆发的特征，涉及insert、update、commit等多种操作，且集中在特定时间段。

关键现象提炼

慢 SQL 类型：以commit（2627 条）、update（628 条）、insert（321 条）为主，说明写入相关操作普遍受阻。
时间分布：慢 SQL 集中在多个连续时间点（如 2022-08-30T00:05:56 至 13:36:33），每个时间点慢 SQL 数量达 20-80 条，呈现周期性密集爆发。
业务影响：不仅insert变慢，其他读写操作也受牵连，说明瓶颈可能出在数据库底层资源（而非单一 SQL 本身）。

二、排查过程：从日志到系统的全维度分析

1. 慢日志（slow.log）的宏观统计

首先对慢日志进行聚合分析，明确慢 SQL 的时间分布和类型占比：

 
# 统计每个时间点的慢SQL数量
less slow.log | grep "# Tim" | awk -F "." '{print $1}' | termsql -0 "select COL2 time,COUNT(COL2) sql_count from tbl group by COL2"

# 统计不同类型SQL的慢查询数量
less slow.log | grep "# Time" -A 6 | egrep -i "insert|delete|update|select|commit|show" | awk '{print $1}' | sed -e 's/;/ g' | termsql -0 "select COL0 sql_stat,count(COL0) sql_count from tbl group by COL0"

分析结论：慢 SQL 集中在固定时间段，且以写入类操作为主，暗示可能存在磁盘 IO 瓶颈（写入操作对磁盘依赖更强）。

2. 错误日志（error.log）的关键线索

查看 MySQL 错误日志时，发现大量与 InnoDB 刷盘相关的信息，且时间点与慢日志完全吻合：

2022-08-30T00:05:56.685140+08:00 0 [Note] [MY-011953] [InnoDB] Page cleaner took 5301ms to flush 121 and evict 0 pages
2022-08-30T00:27:37.800463+08:00 0 [Note] [MY-011953] [InnoDB] Page cleaner took 4028ms to flush 120 and evict 0 pages
...
2022-08-30T08:47:23.035222+08:00 0 [Note] [MY-011953] [InnoDB] Page cleaner took 10264ms to flush 137 and evict 0 pages

 

关键解读：
InnoDB 的 Page cleaner 线程负责将缓冲池中的脏页刷新到磁盘，正常情况下耗时应在毫秒级。但日志中刷盘时间长达 4-12 秒，远超正常范围，说明磁盘写入能力已达瓶颈，导致所有依赖磁盘 IO 的操作（如insert、commit）排队等待。

3. 磁盘 IO 监控：验证瓶颈猜想

为进一步确认磁盘问题，部署实时监控脚本采集磁盘 IO 指标（每 1 秒记录一次）：

 
#!/bin/bash
while sleep 1; do
  echo "########`date '+%F %H:%M:%S'`" >> app/monitor/diskmoni$(date "+%Y%m%d").log
  sar -d -p 1 10 >> app/monitor/diskmoni$(date "+%Y%m%d").log
done

监控数据显示，在慢 SQL 爆发时段，磁盘指标出现异常：

% util（磁盘利用率）：多次达到 100%，说明磁盘处于满负荷状态。
await（平均等待时间）：部分时间点高达 4338.62 毫秒，远高于正常的 10-20 毫秒，表明 IO 请求大量堆积。
wr_sec/s（写入速率）：波动剧烈，峰值达 2952KB/s，与 InnoDB 刷盘需求叠加后超出磁盘处理能力。

结论：磁盘 IO 是导致insert等写入操作变慢的直接原因。

4. 其他时间点慢 SQL：半同步复制的间接影响

在排除磁盘 IO 问题的时间段（如 2022-08-30T11:04:27），仍存在慢 SQL。分析发现：

该时段主库磁盘 IO 正常，但commit操作耗时异常。
慢 SQL 的Lock_time（锁等待时间）可忽略，排除锁竞争问题。

进一步排查半同步复制机制：
通过开启半同步追踪日志（rpl_semi_sync_slave_trace_level=16），发现主库发送 binlog 后，等待从库 ACK（确认收到 binlog）的时间长达 6 秒：

2022-08-30T11:04:21.920102+08:00 655 [Note] [MY-011158] [Repl] ReplSemiSyncMaster::updateSyncHeader: server(11111), (mysql-bin.003497, 9432086) sync(1), repl(1).
2022-08-30T11:04:27.599408+08:00 0 [Note] [MY-011140] [Repl] ReplSemiSyncMaster::reportReplyPacket: Got reply(mysql-bin.003497, 9432086) from server 11111.

结合从库监控发现：从库磁盘 IO 异常，导致其处理 binlog（写入 relaylog）的速度变慢，进而使主库长时间等待 ACK，最终拖慢主库的commit和insert操作。

三、根因总结：多因素叠加的 IO 瓶颈链

本次insert变慢是磁盘 IO 瓶颈与半同步复制机制共同作用的结果：

主库磁盘 IO 饱和：InnoDB 脏页刷新耗时过长，导致insert、commit等操作因等待磁盘写入而阻塞。
从库磁盘 IO 异常：半同步复制中，从库处理 binlog 的速度不足，主库需等待从库 ACK，进一步延长写入操作的响应时间。
批量操作放大影响：大量insert、update集中执行，叠加 InnoDB 刷盘和复制同步的 IO 需求，形成 “IO 拥堵”。

四、解决方案与优化建议

1. 缓解磁盘 IO 压力

硬件升级：将机械硬盘（HDD）更换为固态硬盘（SSD），提升随机写入性能（SSD 的 IOPS 是 HDD 的 10-100 倍）。
调整 InnoDB 参数：
- 增大innodb_buffer_pool_size（建议物理内存的 50-70%），减少脏页生成频率。
- 调大innodb_log_file_size（如增至 1GB），降低日志切换频率，减少刷盘次数。
- 调整innodb_flush_neighbors=0（SSD 适用），避免因相邻页刷新浪费 IO。
分散写入压力：将批量insert拆分为小批次（如每批 1000 条），避免瞬间 IO 峰值。

2. 优化半同步复制

从库性能提升：确保从库磁盘性能与主库匹配，避免成为复制瓶颈。
调整半同步超时：设置rpl_semi_sync_master_timeout=3000（3 秒），超时后自动降级为异步复制，避免主库长期阻塞。
只读业务分流：将查询业务路由至从库，减少主库压力，间接降低主库 IO 负载。

3. 监控体系强化

高频磁盘监控：默认监控工具（如 Prometheus）的 15 秒采集间隔可能漏检瞬时 IO 峰值，建议通过脚本实现 1 秒级监控，捕捉真实瓶颈。
复制延迟告警：监控Seconds_Behind_Master指标，当从库延迟超过 5 秒时触发告警，及时排查从库性能。
慢日志实时分析：通过工具（如 pt-query-digest）实时解析慢日志，快速定位批量慢 SQL 的时间规律与类型特征。

五、排查方法论总结

面对insert等写入操作变慢的问题，可遵循以下排查路径：

慢日志聚合分析：确定慢 SQL 的时间分布、类型占比，判断是否为批量异常。
错误日志定位：关注 InnoDB 刷盘（Page cleaner）、锁等待等关键字，定位数据库内部瓶颈。
系统资源监控：重点检查磁盘 IO（% util、await、wr_sec/s）、CPU、内存，确认是否存在硬件瓶颈。
复制机制排查：若主库资源正常，检查半同步复制的 ACK 等待时间，排查从库性能。

通过 “日志→数据库内部→系统资源→复制链路” 的全链路分析，可快速定位根因，避免盲目优化。

本次案例表明，看似简单的insert变慢问题，实则是底层 IO 资源与上层复制策略共同作用的结果。只有从多维度排查，才能找到真正的瓶颈点，制定针对性的优化方案

posted on 2025-07-23 14:13 数据库那些事儿阅读(357) 评论(0) 收藏举报

刷新页面返回顶部

dbasql