摘要: 面试题: 1)Kafka中的ISR(InSyncRepli)、OSR(OutSyncRepli)、AR(AllRepli)代表什么? 2)Kafka中的HW、LEO等分别代表什么? 3)Kafka中是怎么体现消息顺序性的? 4)Kafka中的分区器、序列化器、拦截器是否了解?它们之间的处理顺序是什么 阅读全文
posted @ 2021-05-26 23:12 yuexiuping 阅读(183) 评论(0) 推荐(0) 编辑
摘要: Kafka Exactly Once语义 精准一次: 将服务器的ACK级别设置为-1,可以保证Producer到Server之间不会丢失数据,即At Least Once语义。相对的,将服务器ACK级别设置为0,可以保证生产者每条消息只会被发送一次,即At Most Once语义。 At Least 阅读全文
posted @ 2021-05-26 23:11 yuexiuping 阅读(110) 评论(0) 推荐(0) 编辑
摘要: Kafka数据可靠性保证 -Kafka 采用ACK 应带机制来保证数据的安全性。 ##生产者发送数据到topic Partition的可靠性保证 为保证producer发送的数据能可靠的发送到指定的topic,Topic的每个partition收到producer发送的数据后,都需要向produce 阅读全文
posted @ 2021-05-26 22:39 yuexiuping 阅读(137) 评论(0) 推荐(0) 编辑
摘要: Kafka分区策略 ##Kafka 为什么要分区? 方便在集群中扩展,每个Partition可以通过调整以适应它所在的机器,而一个topic又可以有多个Partition组成,因此整个集群就可以适应任意大小的数据了。 可以提高并发,因为可以以Partition为单位读写。 生产者分区策略 将生产者产 阅读全文
posted @ 2021-05-26 22:26 yuexiuping 阅读(582) 评论(0) 推荐(0) 编辑
摘要: Kafka基础架构 Kafka架构中涉及到 Kafka集群(多个Broker)、 生产者(生产消息) 、 消费者(消费消息) 、 zookeeper(注册消息) Kafka集群 Kafka集群由多个broker组成,每个broker都有唯一的id。 Kafka内部维护Topics,每个topic可以 阅读全文
posted @ 2021-05-26 22:12 yuexiuping 阅读(95) 评论(0) 推荐(0) 编辑
摘要: Kafka概述 Kafka是一个基于发布、订阅的分布式消息队列,用于大数据离线、实时处理。 什么是消息中间件? 生产者消费者模式的消息队列 分布式消息是一种通信机制,与RPC、HTTP、RMI不同,消息中间件采用终极按代理的方式进行通信。在系统中添加了消息中间件以后,上游系统直接将生产的消息发送到消 阅读全文
posted @ 2021-05-26 22:05 yuexiuping 阅读(107) 评论(0) 推荐(0) 编辑
摘要: HadoopHA 关于HA 由于集群中只有一个NN和RM,无法保证该节点不挂掉,所以单节点存在安全问题。 HadoopHA主要是为了消除单点故障,我要在集群中启动备用的NN,RM。 HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。 HA采用paxos协议,要求必须搭建在奇数台 阅读全文
posted @ 2021-05-26 21:54 yuexiuping 阅读(200) 评论(0) 推荐(0) 编辑
摘要: Zookeeper Zookeeper = 文件系统 + 通知机制 作为一个开源分布式的存储中间件,用来存储各个客户端都关心的数据,并采用观察者设计模式,当观察者触发了节点指定的事件,服务端就会通知客户端,客户端可以执行回调方法执行对应的操作。 Zookeeper的每个存储基本单位为znode,所有 阅读全文
posted @ 2021-05-26 21:48 yuexiuping 阅读(48) 评论(0) 推荐(0) 编辑
摘要: Yarn的架构 ResourceManager:是yarn的老大,主要负责整个yarn的资源调度与分配。 处理客户端的任务请求。 监控NodeManager。 启动或监控ApplicationMaster。 负责资源的分配与调度。 NodeManager:是单个节点的管理者,主要负责单个节点上的资源 阅读全文
posted @ 2021-05-26 21:38 yuexiuping 阅读(94) 评论(0) 推荐(0) 编辑