摘要:
什么是Flume 采集日志,存在HDFS上 分布式、高可用、高可靠的海量日志采集、聚合和传输系统 支持在日志系统中定制各类数据发送方,用于收集数据 支持对数据进行简单处理,写到数据接收方 组件 source:数据的来源 avro:接收另一个flume的数据 taildir:监控不断追加的日志文件 c 阅读全文
posted @ 2020-05-21 21:57
cxc1357
阅读(123)
评论(0)
推荐(0)
摘要:
什么是Sqoop 数据交换工具(ETL):RDBMS(MySQL、Oracle等)<-->Sqoop<-->HDFS(HBase、Hive等) 基于JDBC 执行数据交换时,本质是执行一个MapReduce 安装 tar -zxvf sqoop-1.4.5.bin__hadoop-0.23.tar. 阅读全文
posted @ 2020-05-21 21:17
cxc1357
阅读(129)
评论(0)
推荐(0)
摘要:
简介 基于HDFS的数据仓库工具 基于HDFS上的数据分析引擎 2.x 前:SQL > Hive > MapReduce 2.x 后:推荐执行引擎为 Spark 支持SQL子集 架构 执行方式:CLI、JDBC、HWI(推荐HUE) Hive元信息:表名、列名、列的类型、分区、桶,存储在MySQL中 阅读全文
posted @ 2020-05-21 15:18
cxc1357
阅读(202)
评论(0)
推荐(0)

浙公网安备 33010602011771号