如何模拟网络延迟和丢包进行数据库鲁棒性测试

在数据库鲁棒性测试中模拟网络延迟和丢包，需结合精准的故障注入工具和贴近生产的场景设计。以下是我在大型分布式数据库测试中沉淀的系统化方案，涵盖工具链选择、实施策略及效果验证：

一、工具链选型与原理

1. 操作系统级工具（适用于物理机/VM）

tc (Traffic Control)

延迟注入：

# 在eth0网卡添加200ms±50ms的延迟（正态分布）
tc qdisc add dev eth0 root netem delay 200ms 50ms distribution normal

丢包注入：

# 随机丢包30% + 10%的丢包相关性（避免连续丢包）
tc qdisc change dev eth0 root netem loss 30% 10%

组合攻击（延迟+丢包+乱序）：

tc qdisc change dev eth0 root netem \
  delay 150ms 60ms loss 15% 25% duplicate 1% reorder 5%

2. Kubernetes环境工具（云原生首选）

Chaos Mesh（云原生混沌工程平台）

apiVersion: chaos-mesh.org/v1alpha1
kind: NetworkChaos
metadata:
  name: db-network-attack
spec:
  action: delay # 支持delay/loss/duplicate/corrupt
  mode: one # 选择目标Pod（支持百分比/固定数量）
  selector:
    labelSelectors:
      "app": "mysql-primary" # 目标数据库Pod标签
  delay:
    latency: "100ms"
    jitter: "20ms"          # 延迟波动范围
    correlation: "50"       # 延迟相关性（%）
  loss:
    loss: "25"
    correlation: "10"       # 丢包相关性（%）
  duration: "10m"           # 持续10分钟

LitmusChaos（替代方案）

apiVersion: litmuschaos.io/v1alpha1
kind: ChaosEngine
spec:
  experiments:
    - name: pod-network-loss
      spec:
        components:
          env:
            - name: TARGET_POD
              value: "mysql-0"
            - name: NETWORK_PACKET_LOSS_PERCENTAGE
              value: "40"

二、关键测试场景设计

场景1：主从复制网络抖动

故障注入	监控指标	预期数据库行为
主库↔从库链路 100ms延迟	`Seconds_Behind_Master`	复制延迟增长但最终一致
主库↔从库 30%丢包	`Slave_IO_Errors`	复制线程中断后自动重连
网络分区（双向断开5分钟）	`Replica_Status`	触发主从切换，旧主库被隔离

实施步骤：

# 使用Chaos Mesh对MySQL从库Pod注入双向网络延迟
kubectl apply -f - <<EOF
apiVersion: chaos-mesh.org/v1alpha1
kind: NetworkChaos
spec:
  action: partition  # 网络分区
  direction: both    # 双向阻断
  selector:
    namespaces: [prod-db]
    labelSelectors:
      role: "replica"
  duration: "5m"
EOF

场景2：客户端连接稳定性

故障注入	监控指标	预期应用行为
应用↔数据库 200ms延迟	`Threads_connected`	连接池扩容或报超时错误
应用↔数据库 15%丢包	`Aborted_connects`	部分请求失败但应用自动重试
瞬断（每10秒断网1秒）	`Max_used_connections`	连接池快速重建连接

实施脚本：

# 周期性瞬断模拟（tc实现）
import subprocess, time
while True:
    # 阻断应用服务器到数据库的流量
    subprocess.run("tc qdisc add dev eth0 root netem loss 100%", shell=True)  
    time.sleep(1)  # 持续1秒
    # 恢复网络
    subprocess.run("tc qdisc del dev eth0 root", shell=True)  
    time.sleep(9)  # 等待9秒

三、监控与诊断体系

1. 数据库层监控

复制状态：

SHOW REPLICA STATUS\G  -- 关注Replica_IO_Running, Seconds_Behind_Master

连接池指标：

mysqladmin -uroot ext | grep -i 'threads\|aborted'

InnoDB锁竞争：

SELECT * FROM information_schema.INNODB_LOCK_WAITS;

2. 网络层监控

TCP重传率（高丢包核心指标）：

nethogs -t eth0  # 实时查看TCP重传
ss -ti  # 查看每个连接的retrans

ICMP丢包检测：

mtr -z -rw -c 100 database-ip  # 发送100个包统计路径丢包

3. 可视化看板

graph LR A[Prometheus] -->|采集| B[DB Exporter] A -->|采集| C[Node Exporter] A -->|采集| D[Chaos Mesh Metrics] B --> E[Grafana] C --> E D --> E E --> F[鲁棒性测试看板]

看板关键图表：

数据库QPS与网络延迟曲线叠加图
TCP重传率 vs 丢包配置值对比图
复制延迟热力图（按从库分组）

四、鲁棒性验证要点

数据一致性验证
- 方法：在故障注入后执行 pt-table-checksum
- 通过标准：所有分片DIFF_COUNT=0
故障恢复能力验证
- 关键指标：
  - RTO (Recovery Time Objective)：主从切换时间 < 30秒
  - RPO (Recovery Point Objective)：数据丢失量 = 0
业务连续性验证
- 预期表现：
  - 短暂超时后自动重试成功
  - 无级联性雪崩（如连接池耗尽）

五、经典问题与解决方案

问题1：丢包导致复制线程永久中断

现象：
MySQL从库报错 Got fatal error 1236 from master

解决方案：

STOP REPLICA;
CHANGE REPLICATION SOURCE TO SOURCE_RETRY_COUNT=100; -- 增加重试次数
START REPLICA;

问题2：高延迟触发分布式事务超时

现象：
TiDB 日志出现 txn takes too much time

调优方向：

# 调整TiDB参数（tiup编辑配置）
tikv:
  gc.auto-concurrency: false  # 关闭GC并发自适应
  gc.max-write-bytes-per-sec: "100MB" # 限制GC写入速度

问题3：客户端连接池雪崩

优化方案：

// HikariCP配置示例（Java）
dataSource.setConnectionTimeout(3000); // 从默认30s降至3s
dataSource.setIdleTimeout(60000);     // 空闲连接快速释放

六、最佳实践总结

渐进式注入：从低强度（5%丢包/50ms延迟）逐步增加到极端值（100%丢包/5s延迟）
业务场景结合：在压测（sysbench）或业务高峰时段注入故障
黄金指标监控：
- 数据库：复制延迟/连接错误数/未提交事务数
- 网络：TCP重传率/ICMP丢包率

自动化验证：

def test_network_loss_recovery():
    inject_chaos(loss=25, duration="2m")  # 注入25%丢包
    assert check_replica_sync()           # 验证主从一致
    assert measure_rto() < 30             # 切换时间<30秒

注：生产环境测试必须遵循爆炸半径控制原则（如先在非核心从库注入），并配备紧急停止开关（kubectl delete networkchaos --all）。

posted @ 2025-08-01 15:49 程煕阅读(18) 评论(0) 收藏举报

刷新页面返回顶部