摘要:1.小文件合并:如果文件有一定的规律或者是在同一个文件夹下,可以采用获取文件夹下所有的文件,通过流进行合并,然后再存到hdfs上。 2.mapreduce的优点:1.离线计算、2.高容错性,一个节点挂了可以将计算转移到另一个节点、3.易扩展,廉价机器随便加。缺点就是做不到实时计算。 3.链接mapr
        
阅读全文
 
    
        
        
摘要:什么是序列化:序列化就是将对象转化为字节流。 为什么不用java的序列化:java序列化后体积太大且计算量花销太大,因为Hadoop集群的节点之间,经常要进行通讯和数据传输。 要实现序列化和反序列化必须实现writable接口。 要实现对象之间能进行大小比较要实现comparable接口,也可以直接
        
阅读全文
 
    
        
        
摘要:Hadoop是使用Java语言开发的,但是有一些需求和操作并不适合使用java,所以就引入了本地库(Native Libraries)的概念,通过本地库,Hadoop可以更加高效地执行某一些操作。目前在Hadoop中,本地库应用在文件的压缩上面: zlib gzip在使用这两种压缩方式的时候,Had
        
阅读全文
 
    
        
        
摘要:yarn主要是1.0mapreduce的新框架,主要解决了1.0单点故障的问题,yarn主要分为ResourceManager、ApplicationManager、NodeManager、Container。 yarn把1.0的资源管理和调度、应用程序的管理分开,主要由ResourceManage
        
阅读全文
 
    
        
        
摘要:hdfs文件系统主要由四部分组成:client客户端、namenode、datanode、secondary namenode. client:1.分割文件成block. 2.与namenode交互,获取文件的位置信息。 3.与datanode交互,读取和写入数据。 namenode:1.接收客户端
        
阅读全文
 
    
        
        
摘要:1.首先是map获取分片,分片的大小和分片规则取决于文件输入的格式,FileInputFormat是输入格式的一个基类,FileInputFormat下有几个重要的子类,分别是TextInputFormat,KeyValueTextInputFormat,NLineInputFormat等等,使用什
        
阅读全文
 
    
        
        
摘要:InputFormat 接口决定了mapreduce如何切分输入文件。 InputFormat 由getspilit和createRecordReader组成,getspilit主要是标记分片的初始位置和大小,获取inputSplit,createRecordReader配合getspilit的信息
        
阅读全文