监控方法论

监控方法论:

监控系统组件:

  • 指标数据采集
  • 指标数据存储
  • 指标数据去世分析及可视化
  • 告警

监控体系:

系统层:

  • 系统:cpu、load、内存、swap、磁盘io、进程数、
  • 网络:网络设备、负载、延迟、丢包率

中间件:

  • 消息中间件: kafka、mq
  • web服务容器: tomcat、jetty
  • 数据库: mysql、mogodb、es、redis
  • 数据库连接池: shardingSpere等
  • 存储: ceph

应用层:

应用程序状态、性能

业务层:

横梁应用程序的价值,如电商网站的销售量
qps、dau日活、转化率
业务接口: 登录数、注册数、订单量、搜索量、支付量等

云原生时代的可观测性:

可观测性系统: #立体监控

  • 指标监控: 随时间推移产生的一些与监控相关的可聚合数据点
  • 日志监控: 离散式的日志、事件
  • 链路跟踪: 分布式应用调用链跟踪

可观测性和数据分析归类:

  • 监控系统: 普罗米修斯
  • 日志系统: elk、PLG Stack
  • 分布式调用跟踪系统: zipkin、jaeger、skywalking、pinpoint
  • 混沌工程系统: ChaosMonkey、ChaosBlade

监控方法论:

谷歌4个黄金指标:

常用与在服务级别帮助横梁终端用于体验、服务中断、业务影响等层面的问题
适用于应用及服务监控

延迟(Latency):

服务请求所需要的时长,如http请求平均延迟
需要区分失败请求和成功请求

流量(Traffic):

衡量服务的容量需求,如每秒处理的http请求数、数据库系统的事物数量

错误

请求失败的速率,用于衡量错误发生的情况
http 500错误等显式失败,返回错误内容或无效内容的隐式失败
以及由策略原因导致的失败(强制要求响应时间超过30ms的请求视为错误)

饱和度Saturation

衡量资源的使用情况。用于表达应用程序有多端
内存、cou、io、磁盘资源的使用量

use方法:

分析系统性能问题,可知道用户快速识别资源瓶颈记忆错误的方法
应用于主机指标监控

使用率:

关注系统资源的使用情况
100%的使用率通常是系统性能瓶颈的指标

饱和度Saturation

cpu的平均运行排队长度,值针对资源的饱和度(不同于4大黄金信号)
任何资源在某种程度的饱和都可能导致系统性能下降

错误

错误计数
网卡在数据包传输过程中检测到的以太网网络冲突了14次

Red方法:

基于谷歌的4个黄金指标,集合普罗米修斯和k8s容器实践
适用于云原生应用以及微服务架构应用的监控和度量

  • request Rate: 每秒接收的请求数
  • request Errors:每秒失败的请求数
  • request Duration: 每个请求所花费的时长
posted @ 2023-11-06 18:11  suyanhj  阅读(58)  评论(0)    收藏  举报