Hadoop - 随笔分类 - qiang.xu

摘要：Advanced Hadoop Tuning and Optimization - Hadoop Consulting View more PowerPoint from Impetus Technologies 阅读全文

posted @ 2012-03-20 16:22 qiang.xu 阅读(926) 评论(0) 推荐(1) 编辑

摘要：分享一个关于hdfs写入流程文档：今天主要的话遇到了这样的一个问题:集群中的配置环境是一台datanode和一台namenode，这时如果在datanode上运行hdfs的客户端上传一个2g的文件和在namenode上运行同样的程序个人觉得应该是在datanode上运行的时间短为什么出现的结果却是相反?运行结果如下：namenode start upload finish upload, cost time: 24240 datanode start upload finish upload, cost time: 69679 阅读全文

posted @ 2011-12-30 15:38 qiang.xu 阅读(1853) 评论(3) 推荐(1) 编辑

GFS一些问题总结

摘要：1. 数据写入流程gfs论文中给定的流程如下：1. The client asks the master which chunkserver holdsthe current lease for the chunkan d the locations ofthe other replicas. If no one has a lease, the mastergrants one to a replica it chooses (not shown).2. The master replies with the identity of the primary andthe locations 阅读全文

posted @ 2011-12-06 19:34 qiang.xu 阅读(972) 评论(0) 推荐(0) 编辑

hbase负载均衡流程

摘要：阅读全文

posted @ 2011-11-17 17:05 qiang.xu 阅读(1750) 评论(0) 推荐(0) 编辑

hbase简介

摘要：分享到：阅读全文

posted @ 2011-11-12 15:18 qiang.xu 阅读(762) 评论(1) 推荐(0) 编辑

Hfile格式详细介绍

摘要：Hfile格式详细介绍 View more documents from xuqianghitsoft 阅读全文

posted @ 2011-11-04 09:49 qiang.xu 阅读(802) 评论(0) 推荐(0) 编辑

hive实战

摘要：1. 安装hive2. hive实战3. hive存储模型4. 深入hql查询语言5. 参考资料及代码下载<1>. 安装hive下载hive，下载地址http://mirror.bjtu.edu.cn/apache//hive/，解压该文件： xuqiang@ubuntu:~/hadoop/src/hive$ tar zxvf hive-0.7.0-bin.tar.gz 设置环境变量： xuqiang@ubuntu:~/hadoop/src/hive$ cd hive-0.7.0-bin/ xuqiang@ubuntu:~/hadoop/src/hive/hive-0.7.0-bi 阅读全文

posted @ 2011-06-15 21:05 qiang.xu 阅读(23530) 评论(0) 推荐(4) 编辑

Pig实战

摘要：1. pig简介2. 安装pig3. 实战pig4. 深入pig5. 参考资料及代码下载<1>. Pig简介pig是hadoop项目的一个拓展项目，用以简化hadoop编程（简化的程度超乎想象啊），并且提供一个更高层次抽象的数据处理能力，同时能够保持hadoop的简单和可靠性。<2>. 安装pig2.1 下载pig：[点击下载]pig安装包2.2 解压下载完成的pig安装包：xuqiang@ubuntu:~/hadoop/src/pig$ tar zxvf pig-0.8.1.tar.gz2.3 设置环境变量xuqiang@ubuntu:~$ vim .bashrcex 阅读全文

posted @ 2011-06-06 13:23 qiang.xu 阅读(15778) 评论(5) 推荐(4) 编辑

MapReduce高级编程

摘要：1. Chaining MapReduce Jobs任务链2. Join data from different data source<1>. Changing MapReduce jobs1.1Chaining MapReduce jobs in a sequenceMapReduce程序能够执行一些复杂数据处理的工作，通常的情况下，需要将这个任务task分割成多个较小的subtask，然后每个subtask通过hadoop中的job运行完成，然后教案subtask的结果收集起来，完成这个复杂的task。最简单的就是“顺序”执行了。编程模型也比较简单。我们知道在MapReduc 阅读全文

posted @ 2011-06-05 19:25 qiang.xu 阅读(7769) 评论(3) 推荐(2) 编辑

MapReduce编程基础

摘要：1.WordCount示例及MapReduce程序框架2. MapReduce程序执行流程3. 深入学习MapReduce编程（1）4. 参考资料及代码下载<1>. WordCount示例及MapReduce程序框架首先通过一个简单的程序来实际运行一个MapReduce程序，然后通过这个程序我们来哦那个结一下MapReduce编程模型。下载源程序：/Files/xuqiang/WordCount.rar，将该程序打包成wordcount.jar下面的命令,随便写一个文本文件，这里是WordCountMrtrial，并上传到hdfs上，这里的路径是/tmp/WordCountMrtr 阅读全文

posted @ 2011-06-05 10:19 qiang.xu 阅读(21780) 评论(6) 推荐(5) 编辑

使用java api操作Hadoop文件

摘要：1. 概述2. 文件操作 2.1上传本地文件到hadoop fs 2.2 在hadoop fs中新建文件，并写入 2.3 删除hadoop fs上的文件 2.4读取文件3. 目录操作 3.1 在hadoop fs上创建目录 3.2 删除目录 3.3 读取某个目录下的所有文件4. 参考资料接代码下载<1>. 概述hadoop中关于文件操作类基本上全部是在org.apache.hadoop.fs包中，这些api能够支持的操作包含：打开文件，读写文件，删除文件等。hadoop类库中最终面向用户提供的接口类是FileSystem，该类是个抽象类，只能通过来类的get方法得到具体类。get方阅读全文

posted @ 2011-06-03 10:08 qiang.xu 阅读(38788) 评论(5) 推荐(3) 编辑

通过shell命令来控制hdfs

摘要：1. hadoop文件系统权限简介2.命令简介3. 参考资料<1>. hadoop文件系统权限简介hadoop文件系统实现的文件权限模型和posix模型极其类似。每个文件和目录和一个owner和group相关联。可以使用下面的命令来查看/tmp/目录下的所有文件及其权限：xuqiang@ubuntu:~/hadoop/src/hadoop-0.21.0$ ./bin/hadoop fs -ls /tmp/11/05/10 06:42:56 INFO security.Groups: Group mapping impl=org.apache.hadoop.security.Shel 阅读全文

posted @ 2011-06-02 09:19 qiang.xu 阅读(4587) 评论(0) 推荐(0) 编辑

Hadoop常见问题及解决方法

摘要：1.This script is Deprecated2.no namenode to stop错误于2011-6-5上午，最后更新...1.This script is Deprecated. Instead use start-dfs.sh and start-mapred.shstarting namenode, logging to /home/xuqiang/hadoop/src/hadoop-0.21.0/bin/../logs/hadoop-root-namenode-ubuntu.out由于hadoop采用的是master/slave的模式，那么我们必须定义一种方式来使得mas 阅读全文

posted @ 2011-05-10 20:52 qiang.xu 阅读(9123) 评论(0) 推荐(0) 编辑

深入Hadoop HDFS

摘要：1. hdfs架构简介 1.1hdfs架构挑战 1.2 架构简介 1.3文件系统命名空间File System Namespace 1.4数据复制 1.5 元数据持久化 1.6 信息交换协议2. hdfs数据可访问性 2.1web interface 2.2 shell command <1>. hdfs架构简介1.1 hdfs架构挑战hdfs和大多数现有的分布式文件系统存在很多类似特点，但是又具有自己一些特性：具有很高的容错性highly fault-tolerant，较高的数据吞吐量high throughput等。为了满足上面的特性，hdfs将不得不解决下面的一些棘手问题：1 阅读全文

posted @ 2011-04-23 21:09 qiang.xu 阅读(11509) 评论(1) 推荐(4) 编辑

Hadoop入门简介

摘要：1. Hadoop简介2. Hadoop环境建立3. 参考资料<1>. Hadoop简介hadoop是apache的开源项目，开发的主要目的是为了构建可靠，可拓展scalable，分布式的系统，hadoop是一系列的子工程的总和，其中包含。1. hadoop common：为其他项目提供基础设施2. HDFS：分布式的文件系统3. MapReduce：A software framework for distributed processing of large data sets on compute clusters。一个简化分布式编程的框架。4. 其他工程包含：Avro(序列阅读全文

posted @ 2011-04-22 20:07 qiang.xu 阅读(19163) 评论(2) 推荐(4) 编辑

记录，分享，成长

随笔分类 - Hadoop

公告