Sparkstreaming笔记
启动kafka:
[root@master bin]# ./kafka-server-start.sh ../config/server.properties
[root@slave1 streaming]# pwd /usr/local/src/spark-2.0.2-bin-hadoop2.6/examples/src/main/scala/org/apache/spark/examples/sql/streaming [root@slave1 streaming]#
启动flume进程收集kafka日志
./bin/flume-ng agent --conf conf --conf-file ./conf/flume_kafka.conf --name a1 -Dflume.root.logger=INFO,console
生产者:
./kafka-console-producer.sh --broker-list master:9002 --topic test
消费者:
./bin/kafka-console-consumer.sh --zookeeper master:2181 --topic test
问题:
kafka 16个partition,3台服务器消费kafka数据,每台机子启动一个进程,每个进程启动多少线程合适【负载均衡】
答案:kafka partition数量,公约数越多 partition数量越好,12{2,3,4,6}
byKey={word:[1,1,1,1]}
########## 今天的苦逼是为了不这样一直苦逼下去!##########

浙公网安备 33010602011771号