摘要: 消息队列: kafka只有一种模式:topic主题模式 kafka已经成为大数据业界主流 storm简介 storm是一个分布式的实时数据分析系统,底层基于zeroMQ做数据传输。使用clojure语言开发核心模块 storm速度非常快,能达到亚秒级(200sm) 同类产品: sparkStream 阅读全文
posted @ 2018-04-08 10:02 项羽齐 阅读(406) 评论(0) 推荐(0) 编辑
摘要: 1.1 分桶表 1.1.1 分桶表概念 分区和分桶可以同时,分桶是更细粒度的分配方式。分区是追求效率,分桶又解决什么问题呢?海量数据的分开存储。 对于每一个表(table)或者分区, Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对 阅读全文
posted @ 2018-04-08 09:27 项羽齐 阅读(973) 评论(0) 推荐(0) 编辑
摘要: 1.1 使用Flume收集数据落地HDFS 1.1.1 实现方案 log4j和flume整合 配置log4j.properties 配置flume-jt.properties 复制依赖jar文件 进入共享目录 cd /usr/local/src/hadoop/hadoop-2.7.1/share/h 阅读全文
posted @ 2018-04-08 09:12 项羽齐 阅读(2014) 评论(0) 推荐(0) 编辑