摘要: Flume下载后,解压,新增一个配置文件,写入配置即可 我将配置文件写在 conf 下,取名为 flume-conf-spooldir.properties Flume 运行命令: bin/flume-ng agent --conf conf --conf-file conf/flume-conf- 阅读全文
posted @ 2017-05-24 20:27 Super_Orco 阅读(748) 评论(0) 推荐(0) 编辑
摘要: Flume概述 常见的开源数据收集系统有: 非结构数据(日志)收集 Flume 结构化数据收集(传统数据库与 Hadoop 同步) Sqoop:全量导入 Canal(alibaba):增量导入 Databus(linkedin):增量导入 Flume是什么: 由Cloudera公司开源 分布式、可靠 阅读全文
posted @ 2017-05-24 18:16 Super_Orco 阅读(456) 评论(0) 推荐(0) 编辑
摘要: 注:在工程pom.xml 所在目录,cmd中运行 mvn package ,打包可能会有两个jar,名字较长的是包含所有依赖的重量级的jar,可以在linux中使用 java -cp 命令来跑。名字较短的jar,只包含了我们自己创建的类的依赖的轻量级jar,需要hadoop,所以在linux中需要使 阅读全文
posted @ 2017-05-24 15:45 Super_Orco 阅读(689) 评论(0) 推荐(0) 编辑
摘要: HDFS 概述 基于2.7.3 HDFS 优点: 1、高容错性 数据自动保存多个副本,默认是三个副本 副本丢失后,会自动恢复 2、适合批处理 移动计算而非移动数据,批处理的时候,数据量很大,移动数据是不合适的,好的方式是分布式的移动计算 数据位置暴露给计算框架,数据被切分为 block list,b 阅读全文
posted @ 2017-05-24 11:43 Super_Orco 阅读(521) 评论(0) 推荐(0) 编辑