日志收集工具Telegraf和Promtail

工具说明

  • Telegraf:
    • Telegraf 是一个用于收集、处理、聚合和写入指标、日志和其他任意数据的代理。
    • 提供超过 300 个插件的综合套件,涵盖系统监控、云服务和消息传递等广泛功能
    • 支持集成用户定义的代码,以高效地收集、转换和传输数据
    • 编译为独立的静态二进制文件,无需任何外部依赖,确保简化部署流程。支持多种操作系统,Linux、Window皆可以使用
    • 属于influxdata的开源项目https://github.com/influxdata/telegraf/tree/master
  • Promtail:
    • Promtail是一个代理,负责将本地日志内容发送到私有Grafana Loki实例或Grafana Cloud。它通常部署到运行需要监控的应用的每一台机器上。
    • 提供发现目标、为日志流附加标签,并将数据推送到将它们推送到Loki实例。
    • Promtail可以从两个来源跟踪日志:本地日志文件和systemd日志(在ARM和AMD64机器上)
    • 天然的与Prometheus结合。也就是它主要就是Grafana家族用来做日志解析和推送的

为什么把这两个拿来比较,看起来Telegraf功能上是更强大一些,Promtail只是一个日志收集推送代理呢。但从日志解析功能上来说两个差不多,都是用表达式,支持正则来解析数据。

但是指标收集聚合功能上Telegraf就很强大,比如我们在不同的机器上有多个服务组件,如Redis、NGINX、Apache等,只需要在一个机器上运行Telegraf,并配置这些组件的地址等信息,就可以抓取并暴露指标,等待外部服务获取指标数据即可。而如果使用Grafana家族的,那就要在每个机器上安装不同的组件运行不同的exporter。

image

Telegraf配置

可以创建一个目录,然后在目录下按照不同的组件,创建不同的.conf文件,运行时指定配置文件目录即可。注意只是测试时,后面可配置为 --test、--debug

.\telegraf.exe --config-directory D:\NDev\telegraf-1.33.0_windows_amd64\telegraf-1.33.0\conf

这里用两个配置文件来举例:

  1. 一个收集Tomcat的Access日志的

    [[inputs.tail]]
      name_override = "tomcat_log"
      files = ["D:/telegraf-1.33.0_windows_amd64/telegraf-1.33.0/sample/access.log"]
      from_beginning = true
      pipe = false
      data_format = "grok"
      grok_patterns = ["%{COMMON_LOG_FORMAT}(?: (?:%{NUMBER:cost_time:int}|-))?"]
      # 处理多行合并的情况,避免被一行行解析。对于解析业务日志很有用
        # [inputs.tail.multiline]
        #   pattern = "^\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}\.\d{3}"
        #   preserve_newline = true
        #   timeout = "3s"
    [inputs.tail.tags]
      _router_key = "tomcat_access"
    
    [[outputs.file]]
      ## Files to write to, "stdout" is a specially handled file.
      files = ["stdout"]
    
    [[outputs.prometheus_client]]
      listen = ":19360"
      collectors_exclude = ["gocollector"]
    
    

    关于Telegraf的具体各项插件和配置,上面连接的每个目录下都有详细说明。这里说一下上面的patterns的配置,因为用的是grok来解析的这里的COMMON_LOG_FORMAT是标准日志格式,相似的还有一个叫COMBIED_LOG_FORMAT(如果配置Nginx的access日志解析,直接使用这个即可)。
    https://en.wikipedia.org/wiki/Combined_Log_Format
    https://en.wikipedia.org/wiki/Common_Log_Format

    grok语法说明https://www.elastic.co/guide/en/logstash/current/plugins-filters-grok.html#_grok_basics,里面有很多预制的SYNTAX。基本语法%{SYNTAX:SEMANTIC} 或者 %{SYNTAX:SEMANTIC:TYPE}https://github.com/logstash-plugins/logstash-patterns-core/blob/main/patterns/legacy/grok-patterns

  2. 再给出一个简单的Redis的指标收集配置

    # Read metrics from one or many redis servers
    [[inputs.redis]]
      servers = ["tcp://:mypass@192.168.3.35:6379"]
    [inputs.redis.tags]
      _router_key = "redis"
    [[outputs.prometheus_client]]
      listen = ":19450"
      collectors_exclude = ["gocollector", "process"]
    [outputs.prometheus_client.tagpass]
      _router_key = ["redis"]
    
    

Promtail配置

Promtail的配置是yaml格式的,这里举个配置的例子:里面读取了多个日志文件,并按照一定格式解析,最终推送到loki中

server:
  http_listen_port: 9080
  grpc_listen_port: 0
  # 是否启用运行时重新加载,重新加载,指标都将被重置。
  enable_runtime_reload: false
# positions 块配置 Promtail 将在何处保存一个文件,该文件指示它已读取文件多远。它是在 Promtail 重新启动时需要的,以允许它从停止的地方继续
positions:
  filename: D:\Loki-promtail\positions.yaml
  sync_period: 10s

clients:
    - url: http://192.168.1.88:3100/loki/api/v1/push

scrape_configs:
- job_name: java_current
  static_configs:
  - targets: ["192.168.1.15"]
    labels:
      job: emoapp
      service: 'tomcat1'
      __path__: D:/apache-tomcat-9.0.98/8080/logs/*.log  
  - targets: ["192.168.1.15"]
    labels:
      job: emoapp
      service: 'tomcat2'
      __path__: D:/apache-tomcat-9.0.98/8081/logs/*.log  
  pipeline_stages:
  # 多行日志处理,避免把SQL、异常堆栈给分成多行解析
    - match:
        selector: '{job="emoapp"}'
        stages:
          - multiline:
              firstline: '^\d{4}-\w{2,3}-\d{2} \d{1,2}:\d{2}:\d{2}.\d{3}'
              max_wait_time: 3s
    - regex:
        expression: '^(?P<time>\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}\.\d{3}) \[(?P<thread>[^\]]+)\] (?P<level>[A-Z]+)\s+(?P<class>[^\s]+) (?P<line>\d+) - (?P<message>.*)$'
    - labels:
        level:
        thread:
    - timestamp:
        source: time
        format: '2006-01-02 15:04:05.000'
        location: "Local"
    
- job_name: java_archived
  static_configs:
  - targets: ["192.168.1.15"]
    labels:
      job: emoapp
      __path__: d:/logs/[0-9][0-9][0-9][0-9]-[0-9][0-9]-[0-9][0-9]/*.log

- job_name: tomcatAS
  static_configs:
  - targets: ["192.168.1.15"]
    labels:
      job: access
      __path__: D:\Tomcat 9.0\logs\localhost_access_log*.txt
  pipeline_stages:
    - regex:
    # tomcat的日志配置为pattern="%h %l %u %t &quot;%r&quot; %s %b %T"
        expression: '^(?P<remote_addr>\S+) - (?P<remote_user>\S+) \[(?P<time>[^\]]+)\] "(?P<request_method>\S+) (?P<request_url>\S+) (?P<http_version>\S+)" (?P<status_code>\d{3}) (?P<response_size>\d+|-)( (?P<request_time>\S+))?\r?$'    

    - template:
        source: parsedJson
        template: '{"remote_addr":"{{.remote_addr}}","time":"{{.time}}","request_method":"{{.request_method}}","request_url":"{{.request_url}}","status_code":"{{.status_code}}","body_size":"{{.response_size}}","request_time":"{{.request_time}}"}'
    # - labels:
    #     request_url:
    #     status_code:

    - timestamp:
        source: time
        # 格式化为与日志中的时间戳匹配
        format: '02/Jan/2006:15:04:05 -0700'
    - output:
        source: parsedJson

多行日志处理

无论是Telegraf还是上面的Promtail中都加入了关于多行日志的处理,尤其是针对异常堆栈的展示,SQL的展示等等。

Promtail中multiline的配置,包括timestamp的配置都很重要,否则会解析不正常。
image
在Grafana中,通过loki输出信息图示(后面再抽空详细说明配置和实际使用):
image

posted @ 2025-02-13 11:25  冰雪女娲  阅读(290)  评论(0)    收藏  举报