随笔分类 - Hadoop(随笔)
摘要:可以在Hadoop作业中插桩计数器来分析其整体运作。在程序中定义不同的计数器,分别累计特定事件的发生次数。对于来自同一个作业所有任务的相同计数器,Hadoop会自动对它们进行求和, 以反映整个作业的情况。这些计数器的数值会在JobTracker的Web用户界面中与Hadoop的内部计数器一起显示...
阅读全文
摘要:写Hadoop程序的时候在Mapper里遇到这个需求,上网查了下,做个记录:public static class MapClass extends MapReduceBase implements Mapper { @Override public...
阅读全文
摘要:Mahout是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。 Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。下载Maho...
阅读全文
摘要:上一种方法让所有的数据在网络上重排,然后在许多情况下大部分数据又被丢弃了,如果我们在map阶段就去除不必要的数据,会更有效率。当较小的数据源可以装入mapper的内存时,可以通过将较小的数据源复制到所有的mapper,并在mapper阶段进行联结,以实现效率的极大提高。管理分布式缓存的类为Distr...
阅读全文
摘要:我是参照《Hadoop in action》完成示例程序。如果是在eclipse下需要将 hadoop-datajoin-xxx.jar 导入工程的Library中。另外新的API已经不再使用mapper,reducer接口,而Datajoin中DataJoinMapperBase,DataJoin...
阅读全文
摘要:MapFile是已经排过序的SequenceFile,它有索引,所以可以按键查找1.MapFile的写操作MapFile的写操作类似于SequenceFile的写操作。新建一个MapFile.Writer实例,然后调用append()方法顺序写入文件内容。如果不按顺序写入,就抛出一个IOExcept...
阅读全文
摘要:纯文本不适合记录二进制类型的数据,在这种情况看下,Hadoop的SequenceFile类非常合适,为二进制键值对提供了一种持久的数据结构1.SequenceFile的写操作通过createWriter()静态方法可以创建SequenceFile对象,并返回SequenceFile.Writer实例...
阅读全文
摘要:codec实现了一种压缩-解压缩算法,在Hadoop中,一个对CompressionCodec接口的实现代表一个codecCompressionCodec接口包含两个函数如果要对写入输出数据流的数据进行压缩,可用createOutputStream(OutputStream out)方法在底层的数据...
阅读全文
摘要:wordcount作为Hadoop的示例程序,其思想很简洁,但也值得去理解尤其是作为Hadoop菜鸟的我wordcount程序如下:package com.lcy.hadoop.examples;import java.io.IOException;import java.util.StringTo...
阅读全文
摘要:FileSystem的listStatus方法的功能:列出目录中的内容当传入的参数是一个文件时,它会转变成以数组的方式返回长度为1的FileStatus对象当传入的参数是一个目录时,返回0或多个FileStatus对象,表示此目录中包含的文件和目录如果指定一组路径,其执行结果相当于依次轮流传递每条路...
阅读全文
摘要:参照前面提到的通过Hadoop URL读取数据,有时根本不可能在应用中设置URLStreamHandlerFactory实例,在这种情况下,需要使用FileSystem API来打开一个文件的输入流FIleSystem是一个通用文件系统的API,所以第一步是检索我们需要的文件系统的实例,这里是HDF...
阅读全文
摘要:让Java程序能够识别Hadoop的hdfs URL方案需要一些额外的工作,采用的方法是通过FsUrlStreamHandlerFactory实例调用java.net.URL对象的setURLStreamHandlerFactory方法。每个Java虚拟机只能调用一次这个方法,因此通常在静态方法中调...
阅读全文
摘要:Tomcat日志:127.0.0.1,-,-,[08/May/2014:13:42:40 +0800],GET / HTTP/1.1,200,11444127.0.0.1,-,-,[08/May/2014:13:42:42 +0800],GET /jygl/jaxrs/teachingManage/...
阅读全文
摘要:文件列表命令:如果你想看到所有的字目录,则可以使用Hadoop的lsr命令:在本地的文件系统创建一个名为example.txt的文本文件,用Hadoop的命令put将它从本地文件系统复制到HDFS上去:注意命令最后一个参数是一个句点(.)。这意味着我把文件放入了默认的工作目录,等价于 bin/had...
阅读全文
摘要:引言Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数...
阅读全文
摘要:转载自董的博客1、 概述传统的MapReduce框架(见博文:传统MapReduce框架)把一个作业的执行过程分为两个阶段:map和reduce,在map阶段,每个map task读取一个block,并调用map()函数进行处理,然后将结果写到本地磁盘(注意,不是HDFS)上;在reduce阶段,每...
阅读全文

浙公网安备 33010602011771号