07 2021 档案

摘要:第一部分:Kafka架构与实操 1.1概念和基本架构 1.1.1kafka介绍 Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多生产者、多订阅者,基 于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日 志,消息服务 阅读全文
posted @ 2021-07-08 21:45 我不认识CBW 阅读(214) 评论(0) 推荐(0)
摘要:一、Mapreduce原理分析 1.1maptask运行机制 (1)首先,读取数据组件Inputformat(默认为TextInputFormat)会通过getsplit()方法对对应目录中的文件进行逻辑切片,默认128M,一个切片对应一个maptask。 (2)切分为切片之后,由RecordRea 阅读全文
posted @ 2021-07-06 22:02 我不认识CBW 阅读(126) 评论(0) 推荐(0)
摘要:一、什么是mapreduce mapreduce是hadoop中的分布式计算框架,用于处理海量数据的计算。主要利用的是分治的思想,由两个阶段构成,(1)Map阶段将复杂的任务分解为若干个简单重复的任务(2)reduce阶段用于将Map阶段的结果进行汇总。 二、入门案例 我们来看一个入门案例,单词统计 阅读全文
posted @ 2021-07-03 22:04 我不认识CBW 阅读(216) 评论(0) 推荐(0)