文章分类 -  Hadoop

摘要:产生背景 当数据量越来越大,在一个操作系统存不下,需要一种系统来管理多台机器上的文件,这就是分布式文件系统,HDFS只是分布式文件系统中的一种 HDFS使用场景:适合一次写入,多次读出的场景,且不支持文件的修改,适合用来做数据分析 组成架构 NameNode 即Master,它是一个主管、管理者 管 阅读全文
posted @ 2022-11-17 20:31 黄一洋 阅读(22) 评论(0) 推荐(0)
摘要:MapReduce InputFormat 默认是TextInputFormat,Key:偏移量,Value:一行内容 处理小文件问题 CombineTextInputFormat,把多个小文件合并到一起进行统一切片 自定义输入 Mapper setup() 初始化 map() 业务逻辑 clear 阅读全文
posted @ 2022-11-17 20:31 黄一洋 阅读(21) 评论(0) 推荐(0)
摘要:集群部署规划 注意:NameNode 和 SecondaryNameNode不要安装在同一台服务器 注意:ResourceManager 也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上 | | hadoop101 | hadoop102 | hadoop1 阅读全文
posted @ 2022-11-17 20:30 黄一洋 阅读(32) 评论(0) 推荐(0)