随笔分类 -  Hadoop

学习hadoop
摘要:1 ZooKeeper简介 ZooKeeper是一个为分布式应用设计的开源协调服务。它可以为用户提供同步、配置管理、分组和命名服务。ZooKeeper的文件系统使用了目录树结构,并且使用java编写,但是它也支持c。 协调服务非常容易出错,而且很难从故障中恢复,例如协调服务很容易处于竞争状态以至于出现死锁。ZooKeeper设计目的就是为了减轻分布式应用程序锁承担的协调任务2 数据模型和层次命名空间 ZooKeeper提供的命名空间与标准的文件系统非常相似。它的名称是由通过斜线分隔的路径名序列所组成的... 阅读全文
posted @ 2013-07-19 20:34 朗道二级相变 阅读(948) 评论(0) 推荐(0)
摘要:1 Hive简介 Hadoop项目下包含很多子项目,这些项目很多是围绕hadoop的处理数据的核心基础上的。我们可以简单的看一下Pig————一种高级数据流语言Hive————一种类SQL数据仓库基础设施HBase————一种模仿Google Bigtable的分布式的、面向列的数据库ZooKeeper————一种用于管理分布式应用之间共享状态的可靠的协同系统Chukwa————一种用于管理大型分布式系统的数据收集系统 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能... 阅读全文
posted @ 2013-07-16 07:57 朗道二级相变 阅读(3973) 评论(0) 推荐(0)
摘要:第一步:下载hive并解压tar zxvf hive-0.8.1-bin.tar.gz重命名: mv hive-0.8.1-bin hive给权限:chown hadoop:hadoop hive -R创建文件:mkdir -p/usr/local/hive/hiveData第二步:配置hive-config.sh及hive-default.xml开始编辑hive配置文件添加hadoop和JDK路径vi /usr/local/hive/bin/hive-config.shexport HIVE_HOME=/usr/local/hiveexport HADOOP_HOME=/usr/local/ 阅读全文
posted @ 2013-07-14 11:59 朗道二级相变 阅读(306) 评论(0) 推荐(0)
摘要:转载地址:http://www.blogjava.net/hello-yun/archive/2012/05/03/377250.html本方法,本人亲自试验,可以成功。 ZooKeeper是一个分布式开源框架,提供了协调分布式应用的基本服务,它向外部应用暴露一组通用服务——分布式同步(Distributed Synchronization)、命名服务(Naming Service)、集群维护(Group Maintenance)等,简化分布式应用协调及其管理的难度,提供高性能的分布式服务。ZooKeeper本身可以以Standalone模式安装运行,不过它的长处在于通过分布式ZooKeep. 阅读全文
posted @ 2013-07-14 11:00 朗道二级相变 阅读(445) 评论(0) 推荐(0)
摘要:1 单机模式部署 1.1 JDK安装 命令:sudo apt-get install openjdk-6-jdk目录:/usr/lib/jvm/java-6-openjdk配置环境变量:sudo gedit /etc/environment在其中添加如下两行: CLASSPATH=./:/usr/lib/jvm/java-6-openjdk/libJAVA_HOME=/usr/lib/jvm/java-6-openjdkPATH添加::/usr/lib/jvm/java-6-openjdk1.2 新增hado... 阅读全文
posted @ 2013-07-11 08:45 朗道二级相变 阅读(370) 评论(0) 推荐(0)
摘要:Pig是一个大规模数据分析平台。Pig的基础结构层包括一个产生MapReduce程序的编译器。在编译器中,大规模并行执行依据存在。Pig的语言包括一个叫Pig Latin的文本语言,此语言有如下特性:1.易于编程。实现简单的和高度并行的数据分析任务非常容易。2.自动优化。任务编码的方式允许系统自动去优化执行过程,从而使用户能够专注于逻辑,而非效率3.可扩展性,用户可以轻松编写自己的函数用于特殊用途的处理。1 安装 1.安装java,配置环境变量2.安装pig,配置环境变量ps:安装一款平台级软件一般都是要配置环境变量用于系统执行时进... 阅读全文
posted @ 2013-07-09 19:15 朗道二级相变 阅读(1676) 评论(0) 推荐(0)
摘要:问题1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer:程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。修改办法:修改2个文件。 /etc/security/limits.confvi /etc/security/limits.conf加上:* soft nofile 102400* hard nofile 409600 $cd /etc/pam.d/ $sudo vi login 添加 sessio... 阅读全文
posted @ 2013-07-06 01:58 朗道二级相变 阅读(1308) 评论(0) 推荐(0)
摘要:ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs in /var/lib/hadoop-0.20/cache/hdfs/dfs/data: namenode namespaceID = 240012870; datanode namespaceID = 1462711424. 问题:Namenode上namespaceID与datanode上namespaceID不一致。 问题产生原因:每次namenode format会重新创建一个na.. 阅读全文
posted @ 2013-07-06 01:56 朗道二级相变 阅读(1527) 评论(0) 推荐(0)
摘要:本部分介绍hadoop简介hadoop的安装以及理解MapReduce,并运行一个MapReduce1 Hadoop简介 1.1 Hadoop特点Hadoop是一个开源框架,可编写、运行分布式应用程序处理大规模数据方便:Hadoop运行在由商用机器组合成的集群上或者云服务上健壮:Hadoop可以在集群的某个节点失效的情况下,进行故障处理可扩展:通过增加节点,Hadoop可以线性扩展处理数据简单:可以快速编写代码运行在Hadoop平台上1.2 了解分布式系统和hadoop 分布式系统与大型单机服务器:分布式系统是将许多台计算机进行组网,形成一个集... 阅读全文
posted @ 2013-04-22 13:55 朗道二级相变 阅读(488) 评论(0) 推荐(0)