大型互联网的系统一般会架构散布于多个数据中心和一些私有/公有云,由真实物理机以及虚拟机组成。架构中部署的关键工具包括实现报警的Zabbix,以及一个采集、聚合和存储度量的六阶段流水线。流水线主要由开源工具构建,其中使用了OpenTSDB、Kafka、Elasticsearch和Grafana,还有一些企业自研的工具。

     architect

      监控的一些关键度量,包括CPU平均负载、内存、线程、网络连接、磁盘空间和性能等。对于电子商务网站而言,网络监控至关重要。网络监控实现为多个层级,包括使用ping监控跨数据中心的连通性,使用Observium监控网络设备带宽,使用Uptime Robot监控外部可访问性和系统运行时间及负载情况(uptime)。监控的实现原理通常分为两大类,即拉取模式(Pull)和推送模式(Push)。在拉取模式下,存在一个集中式系统,轮询各个被监控系统并从中拉取数据。Nagios等多种传统的监控系统主要遵循该模式,但是其中部分系统也提供推送模块。在推送模式下,每个被监控系统中需要运行一个代理程序。该代理程序采集监控数据,并将数据推送到一个中央系统。Prometheus等工具使用了推送模式,它们提供推送功能选项。团队选择使用推送模式,并在每台服务器上运行了Zabbix代理。Grafana做为可视化工具。

grafana

      监控流水线分六个阶段,实现从日志中抽取度量并推送到时序数据库OpenTSDB。

第一个阶段负责收集日志。流水线通过运行在每个服务器上的syslog-ng代理,以UDP方式汇集到一个中央Logstash服务器。syslog-ng可在类UNIX系统上实现syslog协议。
第二阶段进而使用grok分析器分析收集的日志,并推送到两个不同的Elasticsearch(ELS)集群。每天分析的日志总量可达700GB。
第三阶段使用称为“Data Monster”的企业自研工具(Django-Python),周期性轮询Elasticsearch集群,从中抽取度量。
第四阶段使用调度系统计算各个度量。该调度系统基于
Celery Beat、RabbitMQ和MySQL实现,使用Data Monster从ELS拉取数据,并推送到Kafka集群。
第五阶段生成实际写入到OpenTSDB的PUT语句。Apache Kafka通常用于构建持久化流数据队列。在流水线中,Kafka消费者处理消息,并推送到OpenTSDB中持久存储。
第六阶段使用Grafana查询数据库中的消息,生成可视化的仪表盘展示。

       架构使用了Zabbix生成报警。此外为保证高可靠性,OpenTSDB是安装在多个节点上的。
alert

       在云环境中,机器的生命周期是短暂的,这对于需要掌握被监控机器的监视工具而言是一个挑战。通过使用Zabbix的自动注册功能解决了这一问题。Zabbix支持使用模板注册一个新机器。团队使用了一种基本的Linux模板,用于CPU使用率、平均负载、Java线程等通用系统度量。还使用了一种特定于应用的模板,用于健康检查和应用性能管理。

      关键关注点还包括,如何确定实时监控下的度量粒度问题,以及如何对HTTP响应代码和请求趋势等度量进行近距离观察。前者可支持团队快速地响应并定位问题,后者可作为一种早期预警系统,对客户或服务器端错误和应用性能突发问题做出预警。对请求数量变化趋势的深入研究,也有助于团队进一步规划容量。

------------------------------------------------------------------

今天先到这儿,希望对您在系统架构设计与评估,团队管理, 项目管理, 产品管理,团队建设 有参考作用 , 您可能感兴趣的文章:
IT运维监控解决方案介绍
微服务监控案例之一
国际化环境下系统架构演化
微服务架构设计
视频直播平台的系统架构演化
微服务与Docker介绍
Docker与CI持续集成/CD
互联网电商购物车架构演变案例
互联网业务场景下消息队列架构
互联网高效研发团队管理演进之一
消息系统架构设计演进
互联网电商搜索架构演化之一
企业信息化与软件工程的迷思
企业项目化管理介绍
软件项目成功之要素
人际沟通风格介绍一
精益IT组织与分享式领导
学习型组织与企业
企业创新文化与等级观念
组织目标与个人目标
初创公司人才招聘与管理
人才公司环境与企业文化
企业文化、团队文化与知识共享
高效能的团队建设
项目管理沟通计划
构建高效的研发与自动化运维
某大型电商云平台实践
互联网数据库架构设计思路
IT基础架构规划方案一(网络系统规划)
餐饮行业解决方案之客户分析流程
餐饮行业解决方案之采购战略制定与实施流程
餐饮行业解决方案之业务设计流程
供应链需求调研CheckList
企业应用之性能实时度量系统演变

如有想了解更多软件设计与架构, 系统IT,企业信息化, 团队管理 资讯,请关注我的微信订阅号:

MegadotnetMicroMsg_thumb1_thumb1_thu[2]


作者:Petter Liu
出处:http://www.cnblogs.com/wintersun/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
该文章也同时发布在我的独立博客中-Petter Liu Blog

posted on 2018-02-07 10:53  PetterLiu  阅读(1637)  评论(0编辑  收藏  举报