文章分类 -  Hadoop

摘要:转自:http://prinx.blog.163.com/blog/static/190115275201211128513868/以下是我看过的最有价值的资料,收录在Core文件夹内,按如下顺序看效果最佳:MapReduce Simplied Data Processing on Large ClustersHadoop环境的安装By徐伟Parallel K-Means Clustering Based on MapReduce《Hadoop权威指南》的第一章和第二章迭代式MapReduce框架介绍董的博客HaLoop: Efficient Iterative Data Processing 阅读全文
posted @ 2013-03-07 09:26 午后的猫 阅读(908) 评论(0) 推荐(1) 编辑
摘要:HFile存储格式文章原址:http://hi.baidu.com/cpuramdisk/item/43a4eb0d0879d2cd90571835http://www.tbdata.org/?s=hbaseHBase中的所有数据文件都存储在Hadoop HDFS文件系统上,主要包括两种文件类型:1.HFile, HBase中KeyValue数据的存储格式,HFile是Hadoop的二进制格式文件,实际上StoreFile就是对HFile做了轻量级包装,即StoreFile底层就是HFile2.HLog File,HBase中WAL(Write Ahead Log) 的存储格式,物理上是Had 阅读全文
posted @ 2012-08-29 12:00 午后的猫 阅读(782) 评论(0) 推荐(0) 编辑
摘要:内容很多,在这里部贴了。源网址:http://langyu.iteye.com/blog/992916 讲解的非常透彻,详细。 阅读全文
posted @ 2012-03-17 10:06 午后的猫 阅读(371) 评论(0) 推荐(0) 编辑
摘要:本文转自:http://www.alidw.com/?p=1420 在hadoop中的例子TeraSort,就是一个利用mapredue进行排序的例子。本文参考并简化了这个例子: 排序的基本思想是利用了mapreduce的自动排序功能,在hadoop中,从map到reduce阶段,map出来的结构会按照各个key按照 hash值分配到各个reduce中,其中,在reduce中所有的key都是有序的了。如果使用一个reduce,那么我们直接将他output出来就 行了,但是这不能够体现分布式的好处,所以,我们还是要用多个reduce来跑。比方说我们有1000个1-10000的数据,跑10个ru. 阅读全文
posted @ 2012-03-16 22:25 午后的猫 阅读(2086) 评论(0) 推荐(0) 编辑
摘要:参考网址:http://www.javabloger.com/article/hadoop-mapreduce-hbase.html 根据参考网址中的小实例,自己亲自实现了一下,记录一下自己对该程序的一些理解。 实例:先将数据文件上传到HDFS,然后用MapReduce进行处理,将处理后的数据插入到hbase中。代码如下: 首先是Mapper:package txt_to_hbase;import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;imp.. 阅读全文
posted @ 2011-11-02 20:50 午后的猫 阅读(7107) 评论(1) 推荐(1) 编辑
摘要:(一)hadoop伪分布式的配置: 这个也可以参考《hadoop权威指南》上面写的很全面,这里再说一遍: 我的机器配置环境: OS:Ubuntu10.10 ,hadoop版本:hadoop-0.20.2(下载网址: http://apache.etoak.com//hadoop/common/hadoop-0.20.2/ ) (1)安装jdk,请参考我之前的文章:http://www.cnblogs.com/Dreama/articles/2097630.html (2)安装配置SSH,使其可以自动登录: $ sudo apt-get install ssh $ ssh-keygen -... 阅读全文
posted @ 2011-10-20 17:14 午后的猫 阅读(6685) 评论(1) 推荐(1) 编辑
摘要:最近在学习MapReduce编程遇到很多用MR实现按某一列值排序,或二次排序的类似问题,于是试着用MR实现各种排序问题,最终有点小总结:无需在key对象之外写任何排序函数,MR会完成按key值排序,具体详解如下: 在这之前要先说一下WritableComparable接口。Writable接口大家可能都知道,它是一个实现了序列化协议的序列化对象。在Hadoop中定义一个结构化对象都要实现Writable接口,使得该结构化对象可以序列化为字节流,字节流也可以反序列化为结构化对象。那WritableComparable接口是可序列化并且可比较的接口。MapReduce中所有的key值类型都必... 阅读全文
posted @ 2011-09-30 21:23 午后的猫 阅读(3905) 评论(1) 推荐(0) 编辑
摘要:这篇文章记录一下自己对Hadoop输入格式的理解。详细参考hadoop API org.apache.hadoop.mapreduce 以及org.apache.hadoop.mapreduce.input.lib 包。 图一:InputFormat类结构 以上是hadoop输入部分用到的类的结构层次图(注:改图是根据旧版API画,类所在的包显示的均是就版API中所在,我在学习时均使用新版API,贴出此图为了直观的理解)。InputFormat(org.apache.hadoop.mapreduce): 从上图可以看出,最上层是一个InputFormat接口,它描述MapReduc... 阅读全文
posted @ 2011-09-29 22:35 午后的猫 阅读(3648) 评论(0) 推荐(0) 编辑
摘要:我使用的hadoop的版本为0.20.2。Hadoop从0.20.0版本加入了新的MapReduce Java API,我之后的学习中没有额外说明,均使用的新的API。下面简单介绍一下新旧API的区别: (1)新的API倾向于使用抽象类,而不是接口。新的API中Mapper和Reducer是抽象类。 (2)新的API在org.apache.hadoop.mapreduce包和子包中,旧版的API放在org.apache.hadoop.mapred中。在编程中一定要注意两个包不要混用或者用错,程序中要正确统一的的import进新包或者旧包。我在刚开始写代码的时候由于没有注意这一点,程序出... 阅读全文
posted @ 2011-09-29 16:16 午后的猫 阅读(895) 评论(0) 推荐(0) 编辑
摘要:本文转自:http://labs.chinamobile.com/mblogs/573_23352接下来我们按照MapReduce过程中数据流动的顺序,来分解org.apache.hadoop.mapreduce.lib.*的相关内容,并介绍对应的基类的功能。首先是input部分,它实现了MapReduce的数据输入部分。类图如下:类图的右上角是InputFormat,它描述了一个MapReduce Job的输入,通过InputFormat,Hadoop可以:l 检查MapReduce输入数据的正确性;l 将输入数据切分为逻辑块InputSplit,这些块会分配给Mapper;l 提供一个R. 阅读全文
posted @ 2011-09-26 08:34 午后的猫 阅读(5444) 评论(0) 推荐(1) 编辑
摘要:本文转自:http://blog.csdn.net/dahaifeiyu/article/details/6655652 最近也觉得应该仔细的看一下Hadoop的源代码了,以前只是懂得基本的架构了使用,最近在做一个系统,觉得很多东西可以借鉴MapReduce的 可扩展性。但是当我们的系统的0.1版本出现的时候才发现我们的配置上很混乱。于是我自己的看了一下Hadoop的Configuration类,真的觉 得Hadoop的配置是值得借鉴的,学到了很多!下面是Configuration类的属性清单: Log是记录日志的对象。quietmode对应的是配置信息加载过程中是否属于静默的模式,如果处于静 阅读全文
posted @ 2011-09-24 10:54 午后的猫 阅读(1908) 评论(0) 推荐(0) 编辑
摘要:本文转自:http://1985wanggang.blog.163.com/blog/static/7763833201131933828371/Q1. Name the most common InputFormats defined inHadoop? Which one is default ?Following 2 are most common InputFormats defined inHadoop- TextInputFormat- KeyValueInputFormat- SequenceFileInputFormatQ2. What is the difference be 阅读全文
posted @ 2011-09-23 09:40 午后的猫 阅读(657) 评论(0) 推荐(0) 编辑
摘要:最近需要在Ubuntu下用Eclipse写MapReduce的程序,现记录下需要在Eclipse做哪些配置,部署好一个Mapeduce工程。1.在Ubuntu下将Hadoop安装并配置好。2.找一个可以在Ubuntu下运行的Eclipse。Hadoop自带了Eclipse的插件,在Hadoo的安装软件包的contrib/eclipse-plugin下有hadoop-0.20-eclipse-plugin.jar文件,在确保eclipse关闭的情况下将该文件拷贝到eclipse安装目录下的plugins下。3.打开Eclipse,点击主菜单下Window--preferences,在左边栏里.. 阅读全文
posted @ 2011-09-15 22:14 午后的猫 阅读(1731) 评论(0) 推荐(0) 编辑
摘要:解决hadoop集群搭建过程中,namenode节点namespaceID值与datanode节点namespaceID值不一致问题。 阅读全文
posted @ 2011-07-04 10:57 午后的猫 阅读(3675) 评论(2) 推荐(1) 编辑
摘要:该问题在安装hadoop以及hadoop-fuse时遇到,困扰了很久。 本人安装hadoop时操作系统Centos5.6,64位机。用Cloudera安装好Hadoop-0.20,以及hadop-fuse,但是在hadoop安装目录下用:ldd bin/fuse_dfs 命令发现有几个问题:1.找不到 libjvm.so和libhdfs.so.0文件。 2.本机是64位机,其余的lib文件本应该找/lib64文件下的对应文件,现在却都找到/lib文件夹下。具体如下图: 我不确定我以下的理解是不是完全正确,但是我用下面的方法确实将以上两个问题解决了。 先说问题2,64位机,lib文件却到/l. 阅读全文
posted @ 2011-06-28 11:04 午后的猫 阅读(1574) 评论(4) 推荐(0) 编辑