性能压测测试分析指南

1. 明确性能目标与指标

业务指标：
- 吞吐量 (Throughput)：TPS (每秒事务数)、QPS (每秒查询数)。
- 响应时间 (Response Time)：P50、P90、P95、P99、平均值（P99更重要）。
- 并发用户数 (Concurrent Users)：同时执行业务操作的虚拟用户数。
- 错误率 (Error Rate)：HTTP状态码非200或业务逻辑错误的比率（通常要求<0.1%）。
资源指标：
- CPU使用率：用户态、内核态，通常临界点为70-80%。
- 内存使用率：包括应用堆内存、非堆内存、系统缓存。
- 磁盘I/O：读写速率、使用率、等待时间。
- 网络I/O：带宽、吞吐量、连接数、TCP重传率。
稳定性指标：在特定压力下持续运行一定时间（如4-12小时），无内存泄漏、无性能衰减。

2. 设计压测方案

压测场景：
- 基准测试：单用户请求，获取单业务最佳响应时间。
- 负载测试：逐步增加压力，找到系统最佳性能点。
- 压力测试：施加超出常规的压力，直到系统崩溃，找到系统瓶颈和最大容量。
- 稳定性测试：在常规压力下长时间运行，检查是否稳定。
- 并发测试：模拟瞬时高并发，测试锁、队列等机制。
脚本与数据：
- 使用参数化避免缓存和数据库查询约束。
- 处理关联（如Session、Token）。
- 设计思考时间和** pacing **以模拟真实用户行为。

1. 工具执行

2. 全面监控（数据收集）

应用服务监控：
- JVM（如果是Java应用）：使用jstat, jstack, jmap，或APM工具（SkyWalking, ARMS, Pinpoint）监控GC频率/时长、堆内存变化、线程状态（死锁、阻塞）。
- 中间件：监控Tomcat线程池、数据库连接池（DBCP, HikariCP）的使用情况。
系统资源监控：
- Linux服务器：使用nmon, top, vmstat, iostat, netstat 进行监控。
- 容器/K8S环境：使用kubectl top，配合Prometheus + Grafana dashboard。
下游依赖监控：
- 数据库：监控慢查询（Slow Query Log）、锁等待（Lock Wait）、CPU、活跃连接数。工具：slow_query_log, EXPLAIN, 数据库自带监控。
- 缓存(Redis)：监控内存使用、命中率、慢查询、网络带宽。
- 消息队列(Kafka/RocketMQ)：监控堆积情况、生产/消费速率。
网络监控：监控带宽、延迟、DNS解析时间。

核心思路：由表及里，层层递进。从宏观指标异常定位到微观代码行。

原则：谁先达到瓶颈，谁就是最可能的怀疑对象。
CPU瓶颈：
- 现象：CPU使用率 > 85-90%。
- 分析：使用top命令查看是哪个进程的CPU高。如果是Java应用，使用jstack导出线程栈，查看是否有很多线程处于RUNNABLE状态，并分析热点代码。
内存瓶颈：
- 现象：内存使用率极高，频繁Swap（交换空间使用率升高），导致I/O等待升高。
- Java内存分析：频繁Full GC但内存回收效果不佳，可能是内存泄漏。使用jmap -histo或MAT工具分析堆转储文件，找出疑似泄漏的对象。
磁盘I/O瓶颈：
- 现象：iostat显示%util持续>80%，await（等待时间）远高于svctm（服务时间）。
- 分析：可能是日志写入过于频繁，或数据库频繁进行磁盘操作。
网络瓶颈：
- 现象：带宽打满、TCP重传率高、连接数过多。
- 分析：检查网络带宽是否充足，是否有限流策略。

数据库（最常见瓶颈）：
- 慢查询：分析慢查询日志，用EXPLAIN查看执行计划，检查是否缺索引、索引是否失效、是否有全表扫描。
- 锁竞争：监控数据库锁信息（如MySQL的information_schema.INNODB_LOCKS），是否存在行锁、表锁等待。
- 连接数：活跃连接数是否接近数据库设置的最大连接数max_connections？
缓存/消息队列：
- Redis：如果缓存命中率低，可能导致请求直接打到数据库。检查内存淘汰策略、大Key、热Key问题。
- Kafka：消息堆积，可能是消费者处理能力不足。

如果以上均未发现明显瓶颈，问题可能出在代码或架构设计上。

一份优秀的性能测试报告应包含：

posted on 2025-09-11 11:14 fengZQ 阅读(42) 评论(0) 收藏举报

刷新页面返回顶部