Node exporter安装

Node exporter
光搭建好prometheus_server 是不够的，需要给监控节点搭建一个exporter 用来采样数据
node_exporter 是一个以http_server方式运行在后台，并且持续不断采集Linux系统中各种操作系统本身相关的监控参数的程序,主要用于暴露 metrics 给 Prometheus，其中 metrics 包括：cpu 的负载，内存的使用情况，网络等。
其采集量是很大很全的，往往默认的采集项目就远超过你的实际需求

安装 node export

下载node_exporter 从官网 https://prometheus.io/download/#node_exporter
下载之后解压缩然后直接运行即可
# tar xvzf node_exporter-0.17.0.linux-amd64.tar.gz
# cd node_exporter-0.17.0.linux-amd64/
# mv node_exporter-0.17.0.linux-amd64/ node_exporter
#./node_exporter --web.listen-address=:20015 & -----指定端口
做成服务方便管理
useradd prometheus -s /sbin/nologin ----创建启动用户
vim /usr/lib/systemd/system/node_exporter.service ---配置启动脚本
[Service]
ExecStart=/home/node_exporter/node_exporter --web.listen-address=:20015
[Install]
WantedBy=multi-user.target
[Unit]
Description=node_exporter
After=network.target

启动，查看状态，配置开机启动

systemctl enable node_exporter ---设置开机启动
systemctl daemon-reload #重新加载一下配置。每次改动后也要重新加载
systemctl start node_exporter
systemctl status node_exporter
查看 node exporter 状态:
此时，node exporter 已经监听在 9100 端口。可以响应 prometheus_server发过来的 HTTP_GET请求
也可以响应其他方式的 HTTP_GET请求,我们自己就可以发送测试
验证 node exporter
当 node exporter 启动时，可以通过 curl http://localhost:9100/metrics 或者在浏览器中查看 ubuntu server 里面的 metrics,部分 metrics 信息如下：
终端访问：
# curl http://localhost:9100/metrics
……
# HELP node_cpu Seconds the cpus spent in each mode.
# TYPE node_cpu counter
node_cpu{cpu="cpu0",mode="guest"} 0
node_cpu{cpu="cpu0",mode="idle"} 30.02
node_cpu{cpu="cpu0",mode="iowait"} 0.5
浏览器访问：

来看下一个难一些的例子:
CPU使用率的获取方式: node_cpu
这个 key 也是node_exporter返回的一个用来统计 CPU使用率的

问题：
CPU不是应该是使用率吗 ? 类似百分 50% 80%这样的数据才对啊
怎么返回是一个持续不断累加的近似于直线的庞大的数字呢?
答案：
这个其实关系到 prometheus对Linux数据采集的精细特性
prometheus对Linux CPU的采集并不是直接返回一个现成的CPU百分比，而是返回Linux中很底层的 cpu时间片累积数值 这样一个数据(平时用惯了 top / uptime这种简便的方式看CPU使用率，往往浅尝辄止根本没有好好深入理解所谓的CPU使用率）
如果想真的弄明白CPU的使用率这个概念在Linux中要先从CPU时间这个概念开始建立
Linux中 CPU时间实际是指 :
从操作系统开启算起 CPU就开始工作了并记录自己在工作中总共使用的"时间"累积量把它保存在系统中而累积的CPU使用时间还会分成几个重要的状态类型
比如 CPU time => 分成 CPU user time / sys time / nice time / idle time / irq / 等等。。。翻译过来就是 CPU 用户态使用时间，系统/内核态使用时间， nice值分配使用时间，空闲时间，中断时间等等
那么所谓的 CPU使用率是什么意思呢?
CPU使用率最准确的定义其实是 CPU各种状态中除了idle(空闲) 这个状态外， 其他所有的CPU状态的加合 / 总CPU时间
得出来的就是我们所说的 CPU使用率 (运行的任务用户内核)
回到刚才使用 node_cpu 这个key 如果直接输入进去
他返回的是 CPU各个核各个状态下从开机开始一直累积下来的 CPU使用时间的累积值
所以才看到这么一个

对各个CPU状态的时间单位的解释(网上截取的一段解释)

如果在prometheus中想对CPU的使用率准确的来查询 正确的方法如下:
cpu空闲率：
avg(rate(node_cpu_seconds_total{mode="idle"}[1m])) by (cluster,instance,nodename)

prometheus的这种精细的底层的计算特性虽然学起来难
不过带来的好处也是显而易见
1) prometheus 这种底层数据采集所形成的监控其实是最准确最可信的
2) prometheus 本身也逼着使用它的运维同学你不踏实下来好好的真正把Linux技术学过关的话你就没有办法使用好这个超强力的监控工具了

posted on 2022-08-31 23:46 me小怪兽阅读(4160) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

me小怪兽

导航

公告

Node exporter安装

安装 node export

启动，查看状态，配置开机启动