随笔分类 -  Hadoop

摘要:Advanced Hadoop Tuning and Optimization - Hadoop Consulting View more PowerPoint from Impetus Technologies 阅读全文
posted @ 2012-03-20 16:22 qiang.xu 阅读(926) 评论(0) 推荐(1) 编辑
摘要:分享一个关于hdfs写入流程文档:今天主要的话遇到了这样的一个问题:集群中的配置环境是一台datanode和一台namenode,这时如果在datanode上运行hdfs的客户端上传一个2g的文件 和在namenode上运行同样的程序 个人觉得应该是在datanode上运行的时间短 为什么出现的结果却是相反?运行结果如下:namenode start upload finish upload, cost time: 24240 datanode start upload finish upload, cost time: 69679 阅读全文
posted @ 2011-12-30 15:38 qiang.xu 阅读(1853) 评论(3) 推荐(1) 编辑
摘要:1. 数据写入流程gfs论文中给定的流程如下:1. The client asks the master which chunkserver holdsthe current lease for the chunkan d the locations ofthe other replicas. If no one has a lease, the mastergrants one to a replica it chooses (not shown).2. The master replies with the identity of the primary andthe locations 阅读全文
posted @ 2011-12-06 19:34 qiang.xu 阅读(972) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2011-11-17 17:05 qiang.xu 阅读(1750) 评论(0) 推荐(0) 编辑
摘要:分享到: 阅读全文
posted @ 2011-11-12 15:18 qiang.xu 阅读(762) 评论(1) 推荐(0) 编辑
摘要:Hfile格式详细介绍 View more documents from xuqianghitsoft 阅读全文
posted @ 2011-11-04 09:49 qiang.xu 阅读(802) 评论(0) 推荐(0) 编辑
摘要:1. 安装hive2. hive实战3. hive存储模型4. 深入hql查询语言5. 参考资料及代码下载<1>. 安装hive下载hive,下载地址http://mirror.bjtu.edu.cn/apache//hive/,解压该文件: xuqiang@ubuntu:~/hadoop/src/hive$ tar zxvf hive-0.7.0-bin.tar.gz 设置环境变量: xuqiang@ubuntu:~/hadoop/src/hive$ cd hive-0.7.0-bin/ xuqiang@ubuntu:~/hadoop/src/hive/hive-0.7.0-bi 阅读全文
posted @ 2011-06-15 21:05 qiang.xu 阅读(23530) 评论(0) 推荐(4) 编辑
摘要:1. pig简介2. 安装pig3. 实战pig4. 深入pig5. 参考资料及代码下载<1>. Pig简介pig是hadoop项目的一个拓展项目,用以简化hadoop编程(简化的程度超乎想象啊),并且提供一个更高层次抽象的数据处理能力,同时能够保持hadoop的简单和可靠性。<2>. 安装pig2.1 下载pig:[点击下载]pig安装包2.2 解压下载完成的pig安装包:xuqiang@ubuntu:~/hadoop/src/pig$ tar zxvf pig-0.8.1.tar.gz2.3 设置环境变量xuqiang@ubuntu:~$ vim .bashrcex 阅读全文
posted @ 2011-06-06 13:23 qiang.xu 阅读(15778) 评论(5) 推荐(4) 编辑
摘要:1. Chaining MapReduce Jobs任务链2. Join data from different data source<1>. Changing MapReduce jobs1.1Chaining MapReduce jobs in a sequenceMapReduce程序能够执行一些复杂数据处理的工作,通常的情况下,需要将这个任务task分割成多个较小的subtask,然后每个subtask通过hadoop中的job运行完成,然后教案subtask的结果收集起来,完成这个复杂的task。最简单的就是“顺序”执行了。编程模型也比较简单。我们知道在MapReduc 阅读全文
posted @ 2011-06-05 19:25 qiang.xu 阅读(7769) 评论(3) 推荐(2) 编辑
摘要:1.WordCount示例及MapReduce程序框架2. MapReduce程序执行流程3. 深入学习MapReduce编程(1)4. 参考资料及代码下载<1>. WordCount示例及MapReduce程序框架首先通过一个简单的程序来实际运行一个MapReduce程序,然后通过这个程序我们来哦那个结一下MapReduce编程模型。下载源程序:/Files/xuqiang/WordCount.rar,将该程序打包成wordcount.jar下面的命令,随便写一个文本文件,这里是WordCountMrtrial,并上传到hdfs上,这里的路径是/tmp/WordCountMrtr 阅读全文
posted @ 2011-06-05 10:19 qiang.xu 阅读(21780) 评论(6) 推荐(5) 编辑
摘要:1. 概述2. 文件操作 2.1上传本地文件到hadoop fs 2.2 在hadoop fs中新建文件,并写入 2.3 删除hadoop fs上的文件 2.4读取文件3. 目录操作 3.1 在hadoop fs上创建目录 3.2 删除目录 3.3 读取某个目录下的所有文件4. 参考资料接代码下载<1>. 概述hadoop中关于文件操作类基本上全部是在org.apache.hadoop.fs包中,这些api能够支持的操作包含:打开文件,读写文件,删除文件等。hadoop类库中最终面向用户提供的接口类是FileSystem,该类是个抽象类,只能通过来类的get方法得到具体类。get方 阅读全文
posted @ 2011-06-03 10:08 qiang.xu 阅读(38788) 评论(5) 推荐(3) 编辑
摘要:1. hadoop文件系统权限简介2.命令简介3. 参考资料<1>. hadoop文件系统权限简介hadoop文件系统实现的文件权限模型和posix模型极其类似。每个文件和目录和一个owner和group相关联。可以使用下面的命令来查看/tmp/目录下的所有文件及其权限:xuqiang@ubuntu:~/hadoop/src/hadoop-0.21.0$ ./bin/hadoop fs -ls /tmp/11/05/10 06:42:56 INFO security.Groups: Group mapping impl=org.apache.hadoop.security.Shel 阅读全文
posted @ 2011-06-02 09:19 qiang.xu 阅读(4587) 评论(0) 推荐(0) 编辑
摘要:1.This script is Deprecated2.no namenode to stop错误于2011-6-5上午,最后更新...1.This script is Deprecated. Instead use start-dfs.sh and start-mapred.shstarting namenode, logging to /home/xuqiang/hadoop/src/hadoop-0.21.0/bin/../logs/hadoop-root-namenode-ubuntu.out由于hadoop采用的是master/slave的模式,那么我们必须定义一种方式来使得mas 阅读全文
posted @ 2011-05-10 20:52 qiang.xu 阅读(9123) 评论(0) 推荐(0) 编辑
摘要:1. hdfs架构简介 1.1hdfs架构挑战 1.2 架构简介 1.3文件系统命名空间File System Namespace 1.4数据复制 1.5 元数据持久化 1.6 信息交换协议2. hdfs数据可访问性 2.1web interface 2.2 shell command <1>. hdfs架构简介1.1 hdfs架构挑战hdfs和大多数现有的分布式文件系统存在很多类似特点,但是又具有自己一些特性:具有很高的容错性highly fault-tolerant,较高的数据吞吐量high throughput等。为了满足上面的特性,hdfs将不得不解决下面的一些棘手问题:1 阅读全文
posted @ 2011-04-23 21:09 qiang.xu 阅读(11509) 评论(1) 推荐(4) 编辑
摘要:1. Hadoop简介2. Hadoop环境建立3. 参考资料<1>. Hadoop简介hadoop是apache的开源项目,开发的主要目的是为了构建可靠,可拓展scalable,分布式的系统,hadoop是一系列的子工程的总和,其中包含。1. hadoop common:为其他项目提供基础设施2. HDFS:分布式的文件系统3. MapReduce:A software framework for distributed processing of large data sets on compute clusters。一个简化分布式编程的框架。4. 其他工程包含:Avro(序列 阅读全文
posted @ 2011-04-22 20:07 qiang.xu 阅读(19163) 评论(2) 推荐(4) 编辑