面试连环炮系列（二十一）：你们的项目怎么使用kafka

你们的项目怎么使用kafka?
我们采用kafka进行日志采集，准确点说是ELK方案，即elasticsearch + logstash + kibana + kafka。通过Spring AOP的方式收集日志，通过kafaka发送出去。
kafa存在丢消息的情况吗，怎么解决？
1. producer把消息发送给broker，因为网络抖动，消息没有到达broker，且开发人员无感知。
  解决方案：producer设置acks参数，消息同步到master之后返回ack信号，否则抛异常使应用程序感知到并在业务中进行重试发送。这种方式一定程度保证了消息的可靠性，producer等待broker确认信号的时延也不高。
2. producer把消息发送给broker-master，master接收到消息，在未将消息同步给follower之前，挂掉了，且开发人员无感知。
  解决方案：producer设置acks参数，消息同步到master且同步到所有follower之后返回ack信号，否则抛异常使应用程序感知到并在业务中进行重试发送。这样设置，在更大程度上保证了消息的可靠性，缺点是producer等待broker确认信号的时延比较高。
3. producer把消息发送给broker-master，master接收到消息，master未成功将消息同步给每个follower，有消息丢失风险。
  解决方案：同上。
4. 某个broker消息尚未从内存缓冲区持久化到磁盘，就挂掉了，这种情况无法通过ack机制感知。
  解决方案：设置参数，加快消息持久化的频率，能在一定程度上减少这种情况发生的概率。但提高频率自然也会影响性能。
Kafka怎么做到高性能的？
1. 顺序写磁盘：顺序写磁盘的性能比随机写入高很多倍。
2. Page Cache：Kafka利用了操作系统本身的Page Cache，就是利用操作系统自身的内存而不是JVM空间内存。通过操作系统的Page Cache，Kafka的读写操作基本上是基于内存的，读写速度得到了极大的提升。
3. 零拷贝技术：零拷贝技术，可以有效的减少上下文切换和拷贝次数。
详细说说零拷贝技术
传统的读取文件数据并发送到网络的步骤如下：
1. 操作系统将数据从磁盘文件中读取到内核空间的页面缓存；
2. 应用程序将数据从内核空间读入用户空间缓冲区；
3. 应用程序将读到数据写回内核空间并放入socket缓冲区；
4. 操作系统将数据从socket缓冲区复制到网卡接口，此时数据才能通过网络发送。
“零拷贝技术”只用将磁盘文件的数据复制到页面缓存中一次，然后将数据从页面缓存直接发送到网络中（发送给不同的订阅者时，都可以使用同一个页面缓存），避免了重复复制操作。如果有10个消费者，传统方式下，数据复制次数为4*10=40次，而使用“零拷贝技术”只需要1+10=11次，一次为从磁盘复制到页面缓存，10次表示10个消费者各自读取一次页面缓存。

参考(摘抄的文字版权属于原作者)：

https://blog.csdn.net/qrne06/article/details/94225070
https://blog.csdn.net/assasin0308/article/details/91638528
https://www.jianshu.com/p/835ec2d4c170
https://blog.csdn.net/lxlmycsdnfree/article/details/78973864

posted @ 2019-10-21 14:01 编码专家阅读(1068) 评论(0) 收藏举报

刷新页面返回顶部

面试连环炮系列（二十一）：你们的项目怎么使用kafka

参考(摘抄的文字版权属于原作者)：

公告