2012 年 4月 22 日随笔档案 - ggjucheng

hadoop mapreduce作业流程概论

摘要： mapreduce的一个完整作业流程是怎么样的呢，相信刚接触hadoop,刚写mapreduce的初学者都有很大的困扰，下面的图来自http://horicky.blogspot.com/2008/11/hadoop-mapreduce-implementation.html，是我看到的讲MapReduce最好的图。以Hadoop带的wordcount为例子（下面是启动行）：hadoop jar hadoop-0.19.0-examples.jar wordcount /usr/input /usr/output用户提交一个任务以后，该任务由JobTracker协调，先执行Map阶段（图中M1 阅读全文

posted @ 2012-04-22 23:58 ggjucheng 阅读(5479) 评论(1) 推荐(0)

hadoop升级

摘要： 1.运行dfsadmin -upgradeProgress status 检查是否存在备份如果是第一次升级就不存在备份(在升级Hadoop前，如果已经存在备份，需要先结束 finalize 它。)2.备份dfs.namenode.dir下文件,同时要备份下hdfs的文件目录的元数据信息:bin/hadoop fsck / -files -blocks -locations > dfs-v-old-fsck-1.log bin/hadoop dfs -lsr / > dfs-v-old-lsr-1.log bin/hadoop dfsadmin -report > dfs- 阅读全文

posted @ 2012-04-22 23:06 ggjucheng 阅读(3652) 评论(0) 推荐(1)

hadoop笔记本

摘要：海量数据那些年Google公开的大数据领域论文大数据量，海量数据处理方法总结布隆过滤器应用 Google Dremel 原理 – 如何能3秒分析1PB Google Spanner原理- 全球级的分布式数据库悉数那些“巨型”数据仓库 Hadoop在业... 阅读全文

posted @ 2012-04-22 22:52 ggjucheng 阅读(40673) 评论(11) 推荐(22)

Hadoop在MapReduce中使用压缩详解

摘要： hadoop对于压缩文件的支持hadoop对于压缩格式的是透明识别,我们的MapReduce任务的执行是透明的，hadoop能够自动为我们将压缩的文件解压，而不用我们去关心。如果我们压缩的文件有相应压缩格式的扩展名（比如lzo，gz，bzip2等），hadoop就会根据扩展名去选择解码器解压。hadoop对每个压缩格式的支持,详细见下表：压缩格式工具算法文件扩展名多文件可分割性DEFLATE无DEFLATE.deflate不不gzipgzipDEFLATE.gz不不ZIPzipDEFLATE.zip是是，在文件范围内bzip2bzip2bzip2.bz2不是LZOlzopLZO.lzo不是如阅读全文

posted @ 2012-04-22 22:28 ggjucheng 阅读(22988) 评论(1) 推荐(3)

简单，可复制

公告