10 2016 档案

摘要:hadoop2提交到Yarn: JOB提交过程 http://www.aboutyun.com/forum.php?mod=viewthread&tid=9366&highlight=hadoop2%CC%E1%BD%BB%B5%BDYarn hadoop2提交到Yarn: Map执行过程 http 阅读全文
posted @ 2016-10-19 18:49 feihao_itboy 阅读(587) 评论(0) 推荐(0)
摘要:2.reduce任务处理 2.3 把reduce的输出保存到文件中。 ruduce任务中把数据写到hdfs中使用 context.write(k2, new LongWritable(sum)); 只要分析context,就可以理解如何把数据写到hdfs上 阅读全文
posted @ 2016-10-11 10:56 feihao_itboy 阅读(274) 评论(0) 推荐(0)
摘要:1. map任务处理 1.3 对输出的key、value进行分区。 分区的目的指的是把相同分类的<k,v>交给同一个reducer任务处理。 自定义排序,排序是根据k2来进行排序的,k2就需要自己进行自定义类型 自定义分组 为了针对新的key类型作分组,我们也需要自定义一下分组规则: (1)编写一个 阅读全文
posted @ 2016-10-10 22:47 feihao_itboy 阅读(1715) 评论(0) 推荐(0)
摘要:1. map任务处理1.1 读取输入文件内容,解析成key、value对。对输入文件的每一行,解析成key、value对。每一个键值对调用一次map函数。wcjob.setInputFormatClass(TextInputFormat.class);InputFormat接口提供了两个方法来实现M 阅读全文
posted @ 2016-10-10 16:58 feihao_itboy 阅读(2483) 评论(0) 推荐(0)
摘要:hadoop序列化的特点: 序列化格式特点:1.紧凑:高效使用存储空间。2.快速:读写数据的额外开销小3.可扩展:可透明地读取老格式的数据4.互操作:支持多语言的交互 hadoop序列化与java序列化的最主要的区别是:在复杂类型的对象下,hadoop序列化不用像java对象类一样传输多层的父子关系 阅读全文
posted @ 2016-10-10 09:22 feihao_itboy 阅读(462) 评论(0) 推荐(0)