摘要: 一、什么是Flume Flume 是Cloudera提供的一个高可用,高可靠的,分布式的海量日志采集、聚合和传输的系统。 Flume最主要的作用就是:实时读取服务器本地磁盘的数据,将数据写入HDFS。 二、Flume 组成架构 Agent Agent 是一个 JVM 进程,它以事件的形式将数据从源头 阅读全文
posted @ 2023-05-19 16:33 HOUHUILIN 阅读(27) 评论(0) 推荐(0)
摘要: server.properties #broker的全局唯一编号,不能重复 broker.id=0 #用来监听链接的端口(kafka端口号),producer或consumer将在此端口建立连接 port=9092 #处理网络请求的线程数量 num.network.threads=3 #用来处理磁盘 阅读全文
posted @ 2023-05-19 15:58 HOUHUILIN 阅读(265) 评论(0) 推荐(0)
摘要: Kafka是一个分布式的流处理平台。 kafka主要是作为一个分布式的、可分区的、具有副本数的日志服务系性、高容错性、访问速度快、分布式等特性;具有高水平扩展 主要应用场景是:日志收集系统和分布式发布--订阅消息系统. 一、安装配置 1、选择任一节点上传Kafka的安装包并解压 tar -zxvf 阅读全文
posted @ 2023-05-19 15:56 HOUHUILIN 阅读(391) 评论(0) 推荐(0)
摘要: 01 || Spark是什么 Spark 是一种基于内存的快速、通用、可扩展的大数据分析引擎。 2009年诞生于加州大学伯克利分校AMPLab,项目采用Scala编写。 2010年开源 2013年6月成为Apache孵化项目 2014年2月成为Apache顶级项目 02 || Spark 内置模块( 阅读全文
posted @ 2023-05-19 09:45 HOUHUILIN 阅读(48) 评论(0) 推荐(0)