随笔分类 -  Flume

Flume
摘要:需求分析 我们从HDFS上的特定目录下的文件,读取到本地目录下的特定目录下 根据需求,首先定义以下3大要素 数据源组件,即source ——监控HDFS目录文件 : exec 'tail -f' 下沉组件,即sink—— file roll sink 通道组件,即channel——可用file ch 阅读全文
posted @ 2021-06-20 01:31 Tenic 阅读(648) 评论(0) 推荐(0)
摘要:需求分析: 采集需求:比如业务系统使用log4j生成的日志,日志内容不断增加,需要把追加到日志文件中的数据实时采集到hdfs 根据需求,首先定义以下3大要素 采集源,即source——监控文件内容更新 : exec ‘tail -f file’ 下沉目标,即sink——HDFS文件系统 : hdfs 阅读全文
posted @ 2021-06-20 01:06 Tenic 阅读(457) 评论(0) 推荐(0)
摘要:需求分析 采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去 结构示意图: 根据需求,首先定义以下3大要素 数据源组件,即source ——监控文件目录 : spooldir spooldir特性: 1、监视一个目录,只要目录中出现新文件,就会采集 阅读全文
posted @ 2021-06-20 00:13 Tenic 阅读(598) 评论(0) 推荐(0)
摘要:需求:配置我们的网络收集的配置文件;从某socket端口采集数据,采集到的数据打印到console控制台 在flume的conf目录下新建一个配置文件(采集方案) cd /bigdata/install/flume-1.9.0/conf vim netcat-logger.conf 内容如下 # 定 阅读全文
posted @ 2021-06-19 23:38 Tenic 阅读(536) 评论(0) 推荐(0)
摘要:第一步:下载解压修改配置文件 Flume的安装非常简单,只需要解压即可 上传安装包到数据源所在节点上 这里我们在第三台机器hadoop03来进行安装 cd /bigdata/soft tar -xzvf apache-flume-1.9.0-bin.tar.gz -C /bigdata/instal 阅读全文
posted @ 2021-06-19 23:27 Tenic 阅读(126) 评论(0) 推荐(0)
摘要:1. 前言 在一个完整的离线大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统, 而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示: 2. Flume基本介绍 1. 概述 Flume是一个分 阅读全文
posted @ 2021-06-19 23:22 Tenic 阅读(412) 评论(0) 推荐(0)