第一章 Promethus(普罗米修斯）入门

能够安装prometheus服务器
能够通过安装node_exporter监控远程linux
能够通过安装mysqld_exporter监控远程mysql数据库
能够安装grafana
能够在grafana添加prometheus数据源
能够在grafana添加监控cpu负载的图形
能够在grafana图形显示mysql监控数据

一、概述

Prometheus 受启发于 Google 的Brogmon 监控系统（相似的 Kubernetes 是从 Google 的 Brog 系统演变而来），从 2012 年开始由前 Google 工程师在Soundcloud 以开源软件的形式进行研发，并且于 2015 年早期对外发布早期版本。

2016 年 5 月继 Kubernetes 之后成为第二个正式加入 CNCF 基金会的项目，同年 6 月正式发布 1.0 版本。2017 年底发布了基于全新存储层的 2.0 版本，能更好地与容器平台、云平台配合。

Prometheus 作为新一代的云原生监控系统，目前已经有超过 650+位贡献者参与到Prometheus 的研发工作上，并且超过 120+项的第三方集成。

Prometheus(由go语言(golang)开发)是一套开源的监控&报警&时间序列数据库的组合。适合监控docker容器。因为kubernetes(俗称k8s)的流行带动了prometheus的发展。

二、Prometheus 的特点

Prometheus 是一个开源的完整监控解决方案，其对传统监控系统的测试和告警模型进行了彻底的颠覆，形成了基于中央化的规则计算、统一分析和告警的新模型。 相比于传统监控系统，Prometheus 具有以下优点：

1.易于管理

1）Prometheus 核心部分只有一个单独的二进制文件，不存在任何的第三方依赖(数据库， 缓存等等)。唯一需要的就是本地磁盘，因此不会有潜在级联故障的风险。

2）Prometheus 基于 Pull 模型的架构方式，可以在任何地方（本地电脑，开发环境，测试环境）搭建我们的监控系统。

3）对于一些复杂的情况，还可以使用 Prometheus 服务发现(Service Discovery)的能力动态管理监控目标。

2.监控服务的内部运行状态

Pometheus 鼓励用户监控服务的内部状态，基于Prometheus 丰富的 Client 库，用户可以轻松的在应用程序中添加对Prometheus 的支持，从而让用户可以获取服务和应用内部真正的运行状态。

3.强大的数据模型

所有采集的监控数据均以指标(metric)的形式保存在内置的时间序列数据库当中(TSDB)。所有的样本除了基本的指标名称以外，还包含一组用于描述该样本特征的标签。如下所示：

http_request_status{code='200',content_path='/api/path',environment='produment'}
[value1@timestamp1,value2@timestamp2...]

http_request_status{code='200',content_path='/api/path2',environment='produment'}	=> [value1@timestamp1,value2@timestamp2...]

每一条时间序列由指标名称(Metrics Name)以及一组标签(Labels)唯一标识。每条时间序列按照时间的先后顺序存储一系列的样本值。
1）http_request_status：指标名称(Metrics Name)
2）{code='200',content_path='/api/path',environment='produment'}：表示维度的标签，基于这些 Labels 我们可以方便地对监控数据进行聚合，过滤，裁剪。
3）[value1@timestamp1,value2@timestamp2...]：按照时间的先后顺序 存储的样本值。

4.强大的查询语言 PromQL

Prometheus 内置了一个强大的数据查询语言 PromQL。 通过 PromQL 可以实现对监控数据的查询、聚合。同时 PromQL 也被应用于数据可视化(如 Grafana)以及告警当中。

通过PromQL 可以轻松回答类似于以下问题：
1）在过去一段时间中 95%应用延迟时间的分布范围？
2）预测在 4 小时后，磁盘空间占用大致会是什么情况？
3）CPU 占用率前 5 位的服务有哪些？(过滤)

5.高效

对于监控系统而言，大量的监控任务必然导致有大量的数据产生。而Prometheus 可以高效地处理这些数据，对于单一Prometheus Server 实例而言它可以处理：
1）数以百万的监控指标
2）每秒处理数十万的数据点

6.可扩展

可以在每个数据中心、每个团队运行独立的Prometheus Sevrer。Prometheus 对于联邦集群的支持，可以让多个 Prometheus 实例产生一个逻辑集群，当单实例 Prometheus Server 处理的任务量过大时，通过使用功能分区(sharding)+联邦集群(federation)可以对其进行扩展。

7.易于集成

使用Prometheus 可以快速搭建监控服务，并且可以非常方便地在应用程序中进行集成。目前支持：Java，JMX，Python，Go，Ruby，.Net，Node.js 等等语言的客户端 SDK， 基于这些 SDK 可以快速让应用程序纳入到 Prometheus 的监控当中，或者开发自己的监控数据收集程序。

同时这些客户端收集的监控数据，不仅仅支持 Prometheus，还能支持 Graphite 这些其他的监控工具。

同时Prometheus 还支持与其他的监控系统进行集成：Graphite，Statsd，Collected， Scollector， muini， Nagios 等。 Prometheus 社区还提供了大量第三方实现的监控数据 采 集 支 持 ：JMX，CloudWatch，EC2，MySQL，PostgresSQL，Haskell，Bash，SNMP， Consul，Haproxy，Mesos，Bind，CouchDB，Django，Memcached，RabbitMQ， Redis，RethinkDB，Rsyslog 等等。

8.可视化

Prometheus Server 中自带的 Prometheus UI，可以方便地直接对数据进行查询，并且支持直接以图形化的形式展示数据。同时 Prometheus 还提供了一个独立的基于
 
Ruby On Rails 的 Dashboard 解决方案 Promdash。
1）最新的 Grafana 可视化工具也已经提供了完整的Prometheus 支持，基于 Grafana 可以创建更加精美的监控图标。
2）基于Prometheus 提供的API 还可以实现自己的监控可视化UI。

9.开放性

通常来说当我们需要监控一个应用程序时，一般需要该应用程序提供对相应监控系统协议的支持，因此应用程序会与所选择的监控系统进行绑定。为了减少这种绑定所带来的限制， 对于决策者而言要么你就直接在应用中集成该监控系统的支持，要么就在外部创建单独的服务来适配不同的监控系统。

而对于 Prometheus 来说，使用Prometheus 的 client library 的输出格式不止支持Prometheus 的格式化数据，也可以输出支持其它监控系统的格式化数据，比如 Graphite。因此你甚至可以在不使用Prometheus 的情况下，采用 Prometheus 的 client library 来让你的应用程序支持监控数据采集。

三、时间序列数据

1.含义

时间序列数据(TimeSeries Data) : 按照时间顺序记录系统、设备状态变化的数据被称为时序数据。

2.特点

#1.性能好
  关系型数据库对于大规模数据的处理性能糟糕。NOSQL可以比较好的处理大规模数据，让依然比不上时间序列数据库。

#2.成本低
  高效的压缩算法，节省存储空间，有效降低IO
  
#3.高效的时间序列数据存储方法
  Prometheus有着非常高效的时间序列数据存储方法，每个采样数据仅仅占用3.5byte左右空间，上百万条时间序列，30秒间隔，保留60天，大概花了200多G（来自官方数据)

3.特征

- 多维度数据模型
- 灵活的查询语言（PromQL）
- 不依赖分布式存储，单个服务器节点是自治的
- 以HTTP方式，通过pull模型拉去时间序列数据
- 也可以通过中间网关支持push模型
- 通过服务发现或者静态配置，来发现目标服务对象
- 支持多种多样的图表和界面展示

四、Prometheus 的架构

五、Prometheus 生态圈组件

1）Prometheus Server：主服务器，负责收集和存储时间序列数据

2）client libraies：应用程序代码插桩，将监控指标嵌入到被监控应用程序中

3）Pushgateway：推送网关，为支持short-lived 作业提供一个推送网关

4）exporter：专门为一些应用开发的数据摄取组件—exporter，例如：HAProxy、StatsD、 Graphite 等等。

5）Alertmanager：专门用于处理 alert 的组件

六、架构理解

Prometheus 既然设计为一个维度存储模型，可以把它理解为一个 OLAP 系统。

1.存储计算层

1）Prometheus Server，里面包含了存储引擎和计算引擎。
2）Retrieval 组件为取数组件，它会主动从 Pushgateway 或者 Exporter 拉取指标数据。
3）Service discovery，可以动态发现要监控的目标。
4）TSDB，数据核心存储与查询。
5）HTTP server，对外提供 HTTP 服务。

2.采集层

采集层分为两类，一类是生命周期较短的作业，还有一类是生命周期较长的作业。
1）短作业：直接通过API，在退出时间指标推送给Pushgateway。
2）长作业：Retrieval 组件直接从 Job 或者 Exporter 拉取数据。

3.应用层

应用层主要分为两种，一种是AlertManager，另一种是数据可视化。
#1.AlertManager
对接Pagerduty，是一套付费的监控报警系统。可实现短信报警、5 分钟无人 ack 打电话通知、仍然无人 ack，通知值班人员Manager...Emial，发送邮件
... ...

#2.数据可视化
Prometheus build-in WebUI Grafana
其他基于API 开发的客户端

posted @ 2021-05-21 17:31 年少纵马且长歌阅读(580) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

青青子衿悠悠我心

当你的才华还撑不起你的野心的时候，你就应该静下心来学习

第一章 Promethus(普罗米修斯）入门

一、概述

二、Prometheus 的特点

1.易于管理

2.监控服务的内部运行状态

3.强大的数据模型

4.强大的查询语言 PromQL

5.高效

6.可扩展

7.易于集成

8.可视化

9.开放性

三、时间序列数据

1.含义

2.特点

3.特征

四、Prometheus 的架构

五、Prometheus 生态圈组件

六、架构理解

1.存储计算层

2.采集层

3.应用层

公告