摘要: Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于分布式的操作系统平台。 Yarn基本架构 Yarn主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。 ResourceManager的作用: 处理客户端请 阅读全文
posted @ 2020-03-13 19:54 Tanglement 阅读(207) 评论(0) 推荐(0)
摘要: Reduce Join工作原理 Map端的主要工作:对来自不同表或文件的key/value对,打上标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加标志作为value,最后进行输出 Reduce端的主要工作:在Reduce端以连接字段作为key的分组已经完成,我们只需要在每一个分组中 阅读全文
posted @ 2020-03-13 16:04 Tanglement 阅读(198) 评论(0) 推荐(0)
摘要: 常用数据序列化类型 Java类型 | Hadoop Writable类型 | boolean | BooleanWritable byte | ByteWritable int | IntWritable String | Text map | MapWritable array | ArrayWr 阅读全文
posted @ 2020-03-13 11:40 Tanglement 阅读(214) 评论(0) 推荐(0)