hadoop - 随笔分类 - kivi

hadoop IO学习笔记

摘要：1、数据完整性的保证：校验和2、压缩的重要性及各种压缩算法的适用场景（时间性、空间性，以及是否支持mapreduce）3、writable序列化框架：为什么不用java序列化的东西，该框架的好处（精简、快速、可拓展、可以互操作等）4、Text与String的区别：Text通过字节的偏移量进行索引（还有其他区别）5、基于文件的数据结构：sequenceFile、MapFile以及他们的扩展6、Avro数据序列化系统阅读全文

posted @ 2013-07-11 21:41 kivi 阅读(164) 评论(0) 推荐(0) 编辑

MapReduce学习笔记

摘要：1、分片大小的确定2、最佳分片大小应该与块大小相同3、map任务的输出一般卸载本地硬盘，而reduce任务的输出写在hdfs中实现可靠存储；（当没有reduce过程时，map输出写在hdfs中）4、若多个reduce任务，则每个map任务都会输出多个分区（为每个reduce建立一个分区）5、三种map、reduce形式：6、为减少map与reduce之间的数据传输（带宽很重要），可以设计combine函数阅读全文

posted @ 2013-07-11 21:31 kivi 阅读(166) 评论(0) 推荐(0) 编辑

HDFS学习笔记

摘要：1、流式数据访问：一次写入，多次读取是最高效的访问模式。数据集通常由数据源生成或从数据源复制而来，每次分析都在该数据集上进行2、数据块：文件的独立存储单元，默认64MB;目的是为了最小化寻址开销；块的元数据存在namenode的内存中；HDFS中一个小于块大小的文件不会占据整个块的空间3、namenode的容错为什么重要，容错的方法有哪些？4、读文件的流程：5、写文件的流程：6、写文件中数据队列、管线、副本布局的问题7、distcp并行复制8、带宽：数据中心中最稀缺的资源！阅读全文

posted @ 2013-07-11 21:23 kivi 阅读(204) 评论(0) 推荐(0) 编辑

随笔分类 - hadoop

公告