Prometheus监控程序负载的（常用）指标

HTTP请求总量（Counter类型）
- 指标名称：通常以http_requests_total命名，建议以_total作为后缀。
- 用途：记录应用接收到的HTTP请求总数。这是一个累积值，只会增加，除非系统重启。
- 分析：通过PromQL的rate函数，可以计算出单位时间内（如每秒）的请求数，从而了解应用的请求速率。例如，使用rate(http_requests_total[5m])可以计算过去5分钟内的平均每秒请求数。
请求错误率（Counter类型）
- 指标名称：如http_request_errors_total。
- 用途：记录应用接收到的错误HTTP请求总数。
- 分析：结合请求总量，可以计算出错误率，评估应用的稳定性和可靠性。例如，http_request_errors_total / http_requests_total可以得到错误率。

请求延迟（Gauge或Histogram类型）
- 指标名称：如http_request_duration_seconds。
- 用途：记录每次HTTP请求的处理时间。
- 分析：
  - Gauge类型：直接记录每次请求的延迟，适合简单的监控需求。
  - Histogram类型：提供更详细的延迟分布数据，可以计算请求的百分位数延迟（如P95、P99延迟），更准确地评估应用的性能。
CPU使用率（Gauge类型）
- 指标名称：如process_cpu_seconds_total。
- 用途：记录应用使用的CPU时间。
- 分析：通过计算CPU使用率，可以了解应用对计算资源的消耗情况。例如，使用PromQL的表达式100 - avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by (instance) * 100可以计算出CPU使用率。
内存使用率（Gauge类型）
- 指标名称：如process_resident_memory_bytes。
- 用途：记录应用使用的物理内存量。
- 分析：通过计算内存使用率，可以了解应用对内存资源的消耗情况，防止内存泄漏或耗尽。

磁盘I/O（Counter类型）
- 指标名称：如node_disk_read_bytes_total、node_disk_written_bytes_total。
- 用途：记录应用对磁盘的读写操作。
- 分析：通过计算磁盘I/O速率，可以了解应用对存储资源的消耗情况，评估磁盘的性能瓶颈。
网络I/O（Counter类型）
- 指标名称：如node_network_receive_bytes_total、node_network_transmit_bytes_total。
- 用途：记录应用接收和发送的网络数据量。
- 分析：通过计算网络I/O速率，可以了解应用对网络资源的消耗情况，评估网络的性能瓶颈。

posted @ 2025-04-03 23:32 Ashe|||^_^ 阅读(381) 评论(0) 收藏举报

刷新页面返回顶部

Ashe