2015年2月21日

FileInputFormat

摘要: MapReduce框架要处理数据的文件类型 FileInputFormat这个类决定。 TextInputFormat是框架默认的文件类型,可以处理Text文件类型,如果你要处理的文件类型不是Text, 譬如说是Xml或DB,你就需要自己实现或用库中已有的类型。 FileInputFormat的主要方法之一getSplits完成的功能是获取job要处理的路径文件所在的block信息。 数据... 阅读全文

posted @ 2015-02-21 20:59 tneduts 阅读(355) 评论(0) 推荐(0) 编辑

Sample: Write And Read data from HDFS with java API

摘要: HDFS: hadoop distributed file system 它抽象了整个集群的存储资源,可以存放大文件。 文件采用分块存储复制的设计。块的默认大小是64M。 流式数据访问,一次写入(现支持append),多次读取。 不适合的方面: 低延迟的数据访问 解决方案:HBASE 大量的小文件 解决方案:combinefileinputformat... 阅读全文

posted @ 2015-02-21 14:10 tneduts 阅读(535) 评论(0) 推荐(0) 编辑

导航