文章分类 -  hadoop

分布式存储与运算
摘要:1.运行dfsadmin -upgradeProgress status 检查是否存在备份 如果是第一次升级 就不存在备份(在升级Hadoop前,如果已经存在备份,需要先结束 finalize 它。)2.备份dfs.namenode.dir下文件,同时要备份下hdfs的文件目录的元数据信息:bin/hadoop fsck / -files -blocks -locations > dfs-v-old-fsck-1.log bin/hadoop dfs -lsr / > dfs-v-old-lsr-1.log bin/hadoop dfsadmin -report > dfs- 阅读全文
posted @ 2012-11-07 16:43 出发一路向北 阅读(358) 评论(0) 推荐(0)
摘要:Hadoop集群基准测试一、测试条件集群完全安装配置后,应立即开始基准测试。基准测试时集群里不应该运行其他一切任务。二、测试目标1.硬盘故障:新系统最常见的故障。可以通过运行高强度的IO基准测试程序集中测试。例如TestDFSIO2.MapReduce的性能三、测试方法1、TestDFSIO基准测试HDFS测试顺序应该是先写测试后读测试写测试:使用10个map任务写10个文件,每个500m。hadoopjar$HADOOP_HOME/hadoop-test-*.jarTestDFSIO-write-nrFiles10-fileSize1000在运行的最后,结果被写入控制台并记录到当前路径Tes 阅读全文
posted @ 2012-11-06 22:38 出发一路向北 阅读(1057) 评论(0) 推荐(0)
摘要:hadoop对于压缩格式的是透明识别,我们的MapReduce任务的执行是透明的,hadoop能够自动为我们 将压缩的文件解压,而不用我们去关心。如果我们压缩的文件有相应压缩格式的扩展名(比如lzo,gz,bzip2等),hadoop就会根据扩展名去选择解码器解压。压缩格式工具算法文件扩展名多文件可分割性DEFLATE无DEFLATE.deflate不不gzipgzipDEFLATE.gz不不ZIPzipDEFLATE.zip是是,在文件范围内bzip2bzip2bzip2.bz2不是LZOlzopLZO.lzo不是 如果压缩的文件没有扩展名,则需 要在执行mapreduce任务的时候指定输. 阅读全文
posted @ 2012-11-05 23:25 出发一路向北 阅读(371) 评论(0) 推荐(0)
摘要:基于Hadoop Sequencefile的小文件解决方案一、概述 小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1000 0000个小文件,每个文件占用一个block,则namenode大约需要2G空间。如果存储1亿个文件,则namenode需要20G空间。这样namenode内存容量严重制约了集群的扩展。 其次,访问大量小文件速度远远小于访问几个大文件。HDFS最初是为流式访问大文件开发的,如果访问大量小文件,需要不 阅读全文
posted @ 2012-11-05 22:47 出发一路向北 阅读(488) 评论(0) 推荐(0)
摘要:hadoop上默认块的大小为64M当文件小于64M时,以一个block计算,在实际的文件系统中,仅占原始文件的大小,外加一个.meta文件例如:中等文件,40M[root@ungeo12 current]#[root@ungeo8 xliu]# /usr/local/hadoop/bin/hadoop dfs -put /home/xliu/hadoop-0.20.3-dev.tar.gz /[root@ungeo8 xliu]# /usr/local/hadoop/bin/hadoop dfs -lsr /-rw-r--r-- 3 root supergroup 40972760 201.. 阅读全文
posted @ 2012-11-05 22:45 出发一路向北 阅读(698) 评论(0) 推荐(0)
摘要:hadoop的分块有两部分,其中第一部分更为人熟知一点。第一部分就是数据的划分(即把File划分成Block),这个是物理上真真实实的进行了划分,数据文件上传到HDFS里的时候,需要划分成一块一块,每块的大小由hadoop-default.xml里配置选项进行划分。<property> <name>dfs.block.size</name> <value>67108864</value> <description>The default block size for new files.</description&g 阅读全文
posted @ 2012-11-05 22:31 出发一路向北 阅读(1198) 评论(0) 推荐(0)
摘要:hadoop机架感知实现及配置背景分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布 式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度,并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制。具体到hadoop集群,由于hadoop的HDFS对数据文件的分布式存放是按照分块block存储,每个block会有多个副本(默认为3),并且为了数据的安全和高效,所以hadoop默认对3个副本的存放策略为:在本地机器的hdfs目录下存储一个block在另外一个rack的某个datano 阅读全文
posted @ 2012-11-03 21:24 出发一路向北 阅读(1801) 评论(0) 推荐(0)