摘要: 一、mr的shuffle流程 说到mr的Shuffle,那么首先要明确shuffle属于哪个阶段。shuffle就是从Map端输出到Reduce输入的整个过程,这个过程广义上称之为shuffle。Shuffle横跨Map端和Reduce端,在Map端包括Spill过程,在Reduce端包括copy和 阅读全文
posted @ 2021-08-13 19:18 碧水斜茶 阅读(688) 评论(0) 推荐(0)
摘要: 集群部署 1)解压安装包 [user1@hadoop102 software]$ tar -zxvf kafka_2.11-2.4.1.tgz -C /opt/module/ 2)修改解压后的文件名称 [user1@hadoop102 module]$ mv kafka_2.11-2.4.1.tgz 阅读全文
posted @ 2021-08-13 10:08 碧水斜茶 阅读(62) 评论(0) 推荐(0)
摘要: 数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了数据建模、ETL(数据抽取、转换、加载)以及作用调度等在内的完整的理论体系流程。 数据仓库在构建过程中通常都需要进行分层处理。业务不同,分层的技术处理手段也不同。分层的主要原因是在管理数据的时候,能对数据有一个更加清晰的掌控。详细来讲 阅读全文
posted @ 2021-08-13 10:07 碧水斜茶 阅读(941) 评论(0) 推荐(0)