Sparkstreaming笔记

 启动kafka:

[root@master bin]# ./kafka-server-start.sh ../config/server.properties 

 

[root@slave1 streaming]# pwd
/usr/local/src/spark-2.0.2-bin-hadoop2.6/examples/src/main/scala/org/apache/spark/examples/sql/streaming
[root@slave1 streaming]# 

 启动flume进程收集kafka日志

./bin/flume-ng agent --conf conf --conf-file ./conf/flume_kafka.conf --name a1 -Dflume.root.logger=INFO,console

生产者:

./kafka-console-producer.sh --broker-list master:9002 --topic test

 

消费者:

./bin/kafka-console-consumer.sh --zookeeper master:2181 --topic test

 问题:

kafka 16个partition,3台服务器消费kafka数据,每台机子启动一个进程,每个进程启动多少线程合适【负载均衡】

答案:kafka partition数量,公约数越多  partition数量越好,12{2,3,4,6}

byKey={word:[1,1,1,1]}

 

posted @ 2020-04-02 21:47  Simon92  阅读(15)  评论(0)    收藏  举报