Hadoop - 随笔分类 - 3池

Hadoop知识点

摘要：1.小文件合并：如果文件有一定的规律或者是在同一个文件夹下，可以采用获取文件夹下所有的文件，通过流进行合并，然后再存到hdfs上。 2.mapreduce的优点：1.离线计算、2.高容错性，一个节点挂了可以将计算转移到另一个节点、3.易扩展，廉价机器随便加。缺点就是做不到实时计算。 3.链接mapr 阅读全文

posted @ 2017-10-18 16:44 3池阅读(92) 评论(0) 推荐(0)

Hadoop序列化

摘要：什么是序列化：序列化就是将对象转化为字节流。为什么不用java的序列化：java序列化后体积太大且计算量花销太大，因为Hadoop集群的节点之间，经常要进行通讯和数据传输。要实现序列化和反序列化必须实现writable接口。要实现对象之间能进行大小比较要实现comparable接口，也可以直接阅读全文

posted @ 2017-10-18 16:11 3池阅读(85) 评论(0) 推荐(0)

Hadoop的本地库（Native Libraries）介绍

摘要：Hadoop是使用Java语言开发的，但是有一些需求和操作并不适合使用java，所以就引入了本地库（Native Libraries）的概念，通过本地库，Hadoop可以更加高效地执行某一些操作。目前在Hadoop中，本地库应用在文件的压缩上面： zlib gzip在使用这两种压缩方式的时候，Had 阅读全文

posted @ 2017-08-21 11:39 3池阅读(211) 评论(0) 推荐(0)

yarn

摘要：yarn主要是1.0mapreduce的新框架，主要解决了1.0单点故障的问题，yarn主要分为ResourceManager、ApplicationManager、NodeManager、Container。 yarn把1.0的资源管理和调度、应用程序的管理分开，主要由ResourceManage 阅读全文

posted @ 2017-08-18 18:07 3池阅读(115) 评论(0) 推荐(0)

hdfs结构

摘要：hdfs文件系统主要由四部分组成：client客户端、namenode、datanode、secondary namenode. client：1.分割文件成block. 2.与namenode交互，获取文件的位置信息。 3.与datanode交互，读取和写入数据。 namenode：1.接收客户端阅读全文

posted @ 2017-08-18 16:32 3池阅读(203) 评论(0) 推荐(0)

mapreduce的执行过程

摘要：1.首先是map获取分片，分片的大小和分片规则取决于文件输入的格式，FileInputFormat是输入格式的一个基类，FileInputFormat下有几个重要的子类，分别是TextInputFormat，KeyValueTextInputFormat，NLineInputFormat等等，使用什阅读全文

posted @ 2017-08-18 16:20 3池阅读(166) 评论(0) 推荐(0)

mapreduce的输入格式 --- InputFormat

摘要：InputFormat 接口决定了mapreduce如何切分输入文件。 InputFormat 由getspilit和createRecordReader组成，getspilit主要是标记分片的初始位置和大小，获取inputSplit，createRecordReader配合getspilit的信息阅读全文

posted @ 2017-08-15 15:20 3池阅读(201) 评论(0) 推荐(0)

3池

随笔分类 - Hadoop