监控方法论
监控方法论:
监控系统组件:
- 指标数据采集
- 指标数据存储
- 指标数据去世分析及可视化
- 告警
监控体系:
系统层:
- 系统:cpu、load、内存、swap、磁盘io、进程数、
- 网络:网络设备、负载、延迟、丢包率
中间件:
- 消息中间件: kafka、mq
- web服务容器: tomcat、jetty
- 数据库: mysql、mogodb、es、redis
- 数据库连接池: shardingSpere等
- 存储: ceph
应用层:
应用程序状态、性能
业务层:
横梁应用程序的价值,如电商网站的销售量
qps、dau日活、转化率
业务接口: 登录数、注册数、订单量、搜索量、支付量等
云原生时代的可观测性:
可观测性系统: #立体监控
- 指标监控: 随时间推移产生的一些与监控相关的可聚合数据点
- 日志监控: 离散式的日志、事件
- 链路跟踪: 分布式应用调用链跟踪
可观测性和数据分析归类:
- 监控系统: 普罗米修斯
- 日志系统: elk、PLG Stack
- 分布式调用跟踪系统: zipkin、jaeger、skywalking、pinpoint
- 混沌工程系统: ChaosMonkey、ChaosBlade
监控方法论:
谷歌4个黄金指标:
常用与在服务级别帮助横梁终端用于体验、服务中断、业务影响等层面的问题
适用于应用及服务监控
延迟(Latency):
服务请求所需要的时长,如http请求平均延迟
需要区分失败请求和成功请求
流量(Traffic):
衡量服务的容量需求,如每秒处理的http请求数、数据库系统的事物数量
错误
请求失败的速率,用于衡量错误发生的情况
http 500错误等显式失败,返回错误内容或无效内容的隐式失败
以及由策略原因导致的失败(强制要求响应时间超过30ms的请求视为错误)
饱和度Saturation
衡量资源的使用情况。用于表达应用程序有多端
内存、cou、io、磁盘资源的使用量
use方法:
分析系统性能问题,可知道用户快速识别资源瓶颈记忆错误的方法
应用于主机指标监控
使用率:
关注系统资源的使用情况
100%的使用率通常是系统性能瓶颈的指标
饱和度Saturation
cpu的平均运行排队长度,值针对资源的饱和度(不同于4大黄金信号)
任何资源在某种程度的饱和都可能导致系统性能下降
错误
错误计数
网卡在数据包传输过程中检测到的以太网网络冲突了14次
Red方法:
基于谷歌的4个黄金指标,集合普罗米修斯和k8s容器实践
适用于云原生应用以及微服务架构应用的监控和度量
- request Rate: 每秒接收的请求数
- request Errors:每秒失败的请求数
- request Duration: 每个请求所花费的时长

浙公网安备 33010602011771号