随笔分类 -  hadoop

摘要:1、数据完整性的保证:校验和2、压缩的重要性及各种压缩算法的适用场景(时间性、空间性,以及是否支持mapreduce)3、writable序列化框架:为什么不用java序列化的东西,该框架的好处(精简、快速、可拓展、可以互操作等)4、Text与String的区别:Text通过字节的偏移量进行索引(还有其他区别)5、基于文件的数据结构:sequenceFile、MapFile以及他们的扩展6、Avro数据序列化系统 阅读全文
posted @ 2013-07-11 21:41 kivi 阅读(164) 评论(0) 推荐(0) 编辑
摘要:1、分片大小的确定2、最佳分片大小应该与块大小相同3、map任务的输出一般卸载本地硬盘,而reduce任务的输出写在hdfs中实现可靠存储;(当没有reduce过程时,map输出写在hdfs中)4、若多个reduce任务,则每个map任务都会输出多个分区(为每个reduce建立一个分区)5、三种map、reduce形式:6、为减少map与reduce之间的数据传输(带宽很重要),可以设计combine函数 阅读全文
posted @ 2013-07-11 21:31 kivi 阅读(166) 评论(0) 推荐(0) 编辑
摘要:1、流式数据访问:一次写入,多次读取是最高效的访问模式。数据集通常由数据源生成或从数据源复制而来,每次分析都在该数据集上进行2、数据块:文件的独立存储单元,默认64MB;目的是为了最小化寻址开销;块的元数据存在namenode的内存中;HDFS中一个小于块大小的文件不会占据整个块的空间3、namenode的容错为什么重要,容错的方法有哪些?4、读文件的流程:5、写文件的流程:6、写文件中数据队列、管线、副本布局的问题7、distcp并行复制8、带宽:数据中心中最稀缺的资源! 阅读全文
posted @ 2013-07-11 21:23 kivi 阅读(204) 评论(0) 推荐(0) 编辑