OpenFalcon简介

OpenFalcon

小米的监控系统：OpenFalcon是一款企业级、高可用、可扩展的开源监控解决方案。

一、特点

①强大灵活的数据采集

自动发现，支持falcon-agent、snmp、支持用户主动push、用户自定义插件支持、opentsdb data model like（timestamp、endpoint、metric、key-value tags）

③高效率的告警策略管理

支持每个周期上亿次的数据采集、告警判定、历史数据存储和查询

③高效率的告警策略管理

高效的portal、支持策略模板、模板继承和覆盖、多种告警方式、支持callback调用

④人性化的告警设置

最大告警次数、告警级别、告警恢复通知、告警暂停、不同时段不同阈值、支持维护周期

⑤高效率的graph组件

单机支撑200万metric的上报、归档、存储（周期为1分钟）

⑥高效的历史数据query组件

采用rrdtool的数据归档策略，秒级返回上百个metric一年的历史数据

⑦dashboard

多维度的数据展示，用户自定义Screen

⑧高可用

整个系统无核心单点，易运维，易部署，可水平扩展

⑨开发语言

整个系统的后端，全部golang编写，portal和dashboard使用python编写。

二、结构

每台服务器都安装falcon-agent。falcon-agent是一个golang开发的daemon程序，用于自发现的采集单机的各种数据和指标。只要安装了falcon-agent，机器就会自动采集各项指标，主动上报，不需要用户在server做任何配置。虽然server端有较大的压力，但是open-falcon的服务端组件单机性能足够高，同时可以水平扩展，所以自动采集足够多的数据，更方便SRE和DEV事后追查问题。

另外，falcon-agent提供了一个proxy-gateway，用户可以方便的通过http接口，push数据到本机的gateway，gateway会帮忙高效率的转发到server端。

三、数据模型

open-falcon采用和opentsdb相同的数据格式：metric、endpoint、多组key value tags。

{

metric: load.1min,

endpoint: open-falcon-host,

tags: srv=falcon,idc=aws-sgp,group=az1,

value: 1.5,

timestamp: date +%s,

counterType: GAUGE,

step: 60

}

四、数据采集

1、transfer，接收客户端发送的数据，做数据规整。然后transfer会根据一致性hash算法，进行数据分片，并转发到多个后端系统。

2、transfer 提供jsonRpc接口和telnet接口。transfer是无状态的，挂掉一台或者多台不会有影响，同时transfer性能很高，每分钟可以转发超过500万条数据。

3、transfer支持的业务后端有judge、graph、opentsdb。judge是高性能告警判定组件；graph是高性能数据存储、归档、查询组件；opentsdb是开源的时间序列数据存储服务。

4、transfer的数据来源有：

1.falcon-agent采集的基础监控数据

2.falcon-agent执行用户自定义的插件返回的数据

3.client library：线上的业务系统，都嵌入使用了统一的perfcounter.jar，对于业务系统中每个RPC接口的qps、latency都会主动采集并上报

说明：上面这三种数据，都会先发送给本机的proxy-gateway，再由gateway转发给transfer。

五、Alerting报警

1、报警判定，由judge组件来完成。用户在web portal配置相关的报警策略，存储在MySQL中。heartbeat server定期加载MySQL中的内容。judge也会定期和heartbeat server保持沟通，来获取相关的报警策略。

2、heartbeat sever除了加载MySQL中的内容，还会根据模板继承、模板项覆盖、报警动作覆盖、模板和hostGroup绑定，计算出最终关联到每个endpoint的告警策略，提供给judge组件来使用。

3、transfer转发到judge的每条数据，都会触发相关策略的判定，如果满足报警条件，则会发送给alarm，alarm再以邮件、短信、米聊等形式通知相关用户，也可以执行用户预先配置好的callback地址。

4、用户可以灵活配置告警判定策略，比如连续n次都满足条件、不同时间段不同阈值、维护周期内忽略等等。另外也支持突升突降类的判定和告警。

六、API

1、快速读取存储在graph里的数据，靠graph和API组件来实现。

2、transfer会将数据往graph组件转发一份，graph收到数据以后，会以rrdtool的数据归档方式来存储，同时提供查询RPC接口。

3、API面向终端用户，收到查询请求后，会去多个graph里查询不同metric的数据，汇总后统一返回给用户。

七、Dashboard仪表盘

dashboard首页，用户可以以多个维度来搜索endpoint列表，即可以根据上报的tags来搜索关联的endpoint。

1、host group的管理可以和服务树结合，机器进出服务树节点，相关的模板会自动关联或者解除。服务上下线不需要手动来变更监控。

2、模板支持继承和策略覆盖，模板和host group绑定后，host group下的机器会自动应用该模板的所有策略。

3、也可以写表达式达到监控的目的，对于endpoint不是机器名的场景非常方便。

八、Storage存储

1、监控系统数据量大、写操作多、查询需要高效率。

2、open-falcon数据按照用途分成两类，用来绘图的和做数据挖掘的。

3、对于绘图的数据来讲，查询要快，信息不能丢失。open-falcon参考rrdtool的理念，在数据每次存入的时候，自动采样、归档。归档策略如下，历史数据保存5年；按照平均值采样、最大值采样、最小值采样存三份。

4、对于原始数据，transfer会打一份到hbase，也可以直接使用opentsdb，transfer支持往opentsdb写入数据。

posted @ 2019-08-18 20:46 Alfred.Lee 阅读(997) 评论(0) 收藏举报

刷新页面返回顶部

敏捷开发者(Alfred.Lee)

Python

OpenFalcon简介

OpenFalcon

一、特点

①强大灵活的数据采集

③高效率的告警策略管理

③高效率的告警策略管理

④人性化的告警设置

⑤高效率的graph组件

⑥高效的历史数据query组件

⑦dashboard

⑧高可用

⑨开发语言

二、结构

三、数据模型

四、数据采集

五、Alerting报警

六、API

七、Dashboard仪表盘

八、Storage存储

公告