摘要: Kafka数据可靠性保证 -Kafka 采用ACK 应带机制来保证数据的安全性。 ##生产者发送数据到topic Partition的可靠性保证 为保证producer发送的数据能可靠的发送到指定的topic,Topic的每个partition收到producer发送的数据后,都需要向produce 阅读全文
posted @ 2021-05-26 22:39 yuexiuping 阅读(40) 评论(0) 推荐(0) 编辑
摘要: Kafka分区策略 ##Kafka 为什么要分区? 方便在集群中扩展,每个Partition可以通过调整以适应它所在的机器,而一个topic又可以有多个Partition组成,因此整个集群就可以适应任意大小的数据了。 可以提高并发,因为可以以Partition为单位读写。 生产者分区策略 将生产者产 阅读全文
posted @ 2021-05-26 22:26 yuexiuping 阅读(117) 评论(0) 推荐(0) 编辑
摘要: Kafka基础架构 Kafka架构中涉及到 Kafka集群(多个Broker)、 生产者(生产消息) 、 消费者(消费消息) 、 zookeeper(注册消息) Kafka集群 Kafka集群由多个broker组成,每个broker都有唯一的id。 Kafka内部维护Topics,每个topic可以 阅读全文
posted @ 2021-05-26 22:12 yuexiuping 阅读(26) 评论(0) 推荐(0) 编辑
摘要: Kafka概述 Kafka是一个基于发布、订阅的分布式消息队列,用于大数据离线、实时处理。 什么是消息中间件? 生产者消费者模式的消息队列 分布式消息是一种通信机制,与RPC、HTTP、RMI不同,消息中间件采用终极按代理的方式进行通信。在系统中添加了消息中间件以后,上游系统直接将生产的消息发送到消 阅读全文
posted @ 2021-05-26 22:05 yuexiuping 阅读(22) 评论(0) 推荐(0) 编辑
摘要: HadoopHA 关于HA 由于集群中只有一个NN和RM,无法保证该节点不挂掉,所以单节点存在安全问题。 HadoopHA主要是为了消除单点故障,我要在集群中启动备用的NN,RM。 HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。 HA采用paxos协议,要求必须搭建在奇数台 阅读全文
posted @ 2021-05-26 21:54 yuexiuping 阅读(27) 评论(0) 推荐(0) 编辑
摘要: Zookeeper Zookeeper = 文件系统 + 通知机制 作为一个开源分布式的存储中间件,用来存储各个客户端都关心的数据,并采用观察者设计模式,当观察者触发了节点指定的事件,服务端就会通知客户端,客户端可以执行回调方法执行对应的操作。 Zookeeper的每个存储基本单位为znode,所有 阅读全文
posted @ 2021-05-26 21:48 yuexiuping 阅读(20) 评论(0) 推荐(0) 编辑
摘要: Yarn的架构 ResourceManager:是yarn的老大,主要负责整个yarn的资源调度与分配。 处理客户端的任务请求。 监控NodeManager。 启动或监控ApplicationMaster。 负责资源的分配与调度。 NodeManager:是单个节点的管理者,主要负责单个节点上的资源 阅读全文
posted @ 2021-05-26 21:38 yuexiuping 阅读(23) 评论(0) 推荐(0) 编辑
摘要: MapReduce架构 MapReduce的两个阶段:Map映射、Reduce归约。 Map阶段:对数据进行处理。 Reduce阶段:对Map结果进行汇总。 Shuffle过程:'map'方法之后,'reducer'方法之前,是Map阶段和Reduce阶段的中间过程。 不同阶段对应的Task: Ma 阅读全文
posted @ 2021-05-25 22:35 yuexiuping 阅读(41) 评论(0) 推荐(0) 编辑
摘要: HDFS架构 NameNode:负责管理和存储元数据;文件名、目录结构、文件属性(时间、副本、权限)、文件块列表,块所在DataNode(BlockId)。 DataNode:本地文件系统中存储文件块数据、块校验和。 SecondaryNameNode:定时将日志文件和镜像文件进行合并。 说明:谁启 阅读全文
posted @ 2021-05-24 23:25 yuexiuping 阅读(53) 评论(0) 推荐(0) 编辑
摘要: Hadoop框架 1.X MapReduce、HDFS、Common 2.X MapReduce、Yarn、HDFS、Common MapReduce: 1.X 计算+资源调度 2.X 计算 Yarn:资源调度 HDFS:文件存储 Common:辅助工具 Hadoop1.X 存在的问题: <1>Na 阅读全文
posted @ 2021-05-24 22:52 yuexiuping 阅读(25) 评论(0) 推荐(0) 编辑