【译】Kafka最佳实践 / Kafka Best Practices

本文来自于DataWorks Summit/Hadoop Summit上的《Apache Kafka最佳实践》分享,里面给出了很多关于Kafka的使用心得,非常值得一看,今推荐给大家。

硬件配置

 

JBOD: Just bunch of disks,就是普通的一堆磁盘组成的集群

OS调优

1 页缓存:尽量分配与所有日志的激活日志段大小相同的页缓存大小
2 文件描述符限制: 10万以上
3 禁掉swap
4 使用Java 8和G1,分配6~8GB的堆大小

 磁盘调优

1 使用多块磁盘,专属分配给kafka
2 一般环境使用JBOD即可,但JBOD有一些固有的缺陷,比如磁盘失败将导致Kafka异常关闭,造成数据不一致,社区已经着手解决
3 使用EXT4或XFS
4 尽量使用SSD

基本监控

1 CPU负载
2 网络带宽
3 文件句柄数
4 磁盘空间
5 磁盘IO性能
6 垃圾回收
7 zookeeper监控

如何监控备份不足情况发生?

JMX指标:kafka.server:type=ReplicaManager,name=UnderReplicatedPartitions

可能原因
  • broker挂了
  • controller问题
  • zk问题
  • 网络问题
解决办法
  • 调整ISR参数,比如 min.insync.replica和replica.lag.time.max.ms,