准实时计算+机器学习架构

kafka: 0.8.2.1

spark: 1.3

redis: 3.0

hadoop: 2.6

部署：

kafka：主要消耗磁盘和网卡，数据量大时，能将网卡跑满，所以单独安排几台机器做kafka集群，三台左右就可以了

spark: 主要消耗内存和cpu，最好放在YARN上去执行

hdfs: 主要消耗磁盘，除了kafka所在的机器，其他机器都可以跑个DataNode

yarn: 主要是消耗CPU和内存

redis: 主要消耗内存，单独拿几台机器跑redis集群

zookeeper：消耗小，可以和其他应用共用机器

Kafka 和 spark streaming

kafka 和 spark streaming通过zookeeper 维护 offset 来保证消息只处理一次。

spark streaming可以进行窗口操作（比如：以每3分钟为窗口，进行数据处理）。

spark Streaming 可以和 spark MLlib很好的配合。

posted on 2018-03-10 07:24 HB1 阅读(339) 评论(0) 收藏举报

刷新页面返回顶部

准实时计算+机器学习 架构