Hadoop - 随笔分类 - 朗道二级相变

ZooKeeper详解

摘要：1 ZooKeeper简介 ZooKeeper是一个为分布式应用设计的开源协调服务。它可以为用户提供同步、配置管理、分组和命名服务。ZooKeeper的文件系统使用了目录树结构，并且使用java编写，但是它也支持c。协调服务非常容易出错，而且很难从故障中恢复，例如协调服务很容易处于竞争状态以至于出现死锁。ZooKeeper设计目的就是为了减轻分布式应用程序锁承担的协调任务2 数据模型和层次命名空间 ZooKeeper提供的命名空间与标准的文件系统非常相似。它的名称是由通过斜线分隔的路径名序列所组成的... 阅读全文

posted @ 2013-07-19 20:34 朗道二级相变阅读(948) 评论(0) 推荐(0)

Hive详解

摘要：1 Hive简介 Hadoop项目下包含很多子项目，这些项目很多是围绕hadoop的处理数据的核心基础上的。我们可以简单的看一下Pig————一种高级数据流语言Hive————一种类SQL数据仓库基础设施HBase————一种模仿Google Bigtable的分布式的、面向列的数据库ZooKeeper————一种用于管理分布式应用之间共享状态的可靠的协同系统Chukwa————一种用于管理大型分布式系统的数据收集系统 hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能... 阅读全文

posted @ 2013-07-16 07:57 朗道二级相变阅读(3980) 评论(0) 推荐(0)

Hive安装及配置

摘要：第一步：下载hive并解压tar zxvf hive-0.8.1-bin.tar.gz重命名: mv hive-0.8.1-bin hive给权限：chown hadoop:hadoop hive -R创建文件：mkdir -p/usr/local/hive/hiveData第二步：配置hive-config.sh及hive-default.xml开始编辑hive配置文件添加hadoop和JDK路径vi /usr/local/hive/bin/hive-config.shexport HIVE_HOME=/usr/local/hiveexport HADOOP_HOME=/usr/local/ 阅读全文

posted @ 2013-07-14 11:59 朗道二级相变阅读(309) 评论(0) 推荐(0)

zookeeper集群安装(转)

摘要：转载地址：http://www.blogjava.net/hello-yun/archive/2012/05/03/377250.html本方法，本人亲自试验，可以成功。 ZooKeeper是一个分布式开源框架，提供了协调分布式应用的基本服务，它向外部应用暴露一组通用服务——分布式同步（Distributed Synchronization）、命名服务（Naming Service）、集群维护（Group Maintenance）等，简化分布式应用协调及其管理的难度，提供高性能的分布式服务。ZooKeeper本身可以以Standalone模式安装运行，不过它的长处在于通过分布式ZooKeep. 阅读全文

posted @ 2013-07-14 11:00 朗道二级相变阅读(447) 评论(0) 推荐(0)

Hadoop安装及配置

摘要：1 单机模式部署 1.1 JDK安装命令：sudo apt-get install openjdk-6-jdk目录：/usr/lib/jvm/java-6-openjdk配置环境变量：sudo gedit /etc/environment在其中添加如下两行： CLASSPATH=./:/usr/lib/jvm/java-6-openjdk/libJAVA_HOME=/usr/lib/jvm/java-6-openjdkPATH添加：:/usr/lib/jvm/java-6-openjdk1.2 新增hado... 阅读全文

posted @ 2013-07-11 08:45 朗道二级相变阅读(370) 评论(0) 推荐(0)

Pig Latin程序设计1

摘要：Pig是一个大规模数据分析平台。Pig的基础结构层包括一个产生MapReduce程序的编译器。在编译器中，大规模并行执行依据存在。Pig的语言包括一个叫Pig Latin的文本语言，此语言有如下特性：1.易于编程。实现简单的和高度并行的数据分析任务非常容易。2.自动优化。任务编码的方式允许系统自动去优化执行过程，从而使用户能够专注于逻辑，而非效率3.可扩展性，用户可以轻松编写自己的函数用于特殊用途的处理。1 安装 1.安装java，配置环境变量2.安装pig，配置环境变量ps：安装一款平台级软件一般都是要配置环境变量用于系统执行时进... 阅读全文

posted @ 2013-07-09 19:15 朗道二级相变阅读(1678) 评论(0) 推荐(0)

hadoop运行常见问题FAQ

摘要：问题1：Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer：程序里面需要打开多个文件，进行分析，系统一般默认数量是1024，（用ulimit -a可以看到）对于正常使用是够了，但是对于程序来讲，就太少了。修改办法：修改2个文件。 /etc/security/limits.confvi /etc/security/limits.conf加上：* soft nofile 102400* hard nofile 409600 $cd /etc/pam.d/ $sudo vi login 添加 sessio... 阅读全文

posted @ 2013-07-06 01:58 朗道二级相变阅读(1310) 评论(0) 推荐(0)

hadoop运行故障问题解决1——datanode节点启动后自动关闭

摘要：ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs in /var/lib/hadoop-0.20/cache/hdfs/dfs/data: namenode namespaceID = 240012870; datanode namespaceID = 1462711424. 问题：Namenode上namespaceID与datanode上namespaceID不一致。问题产生原因：每次namenode format会重新创建一个na.. 阅读全文

posted @ 2013-07-06 01:56 朗道二级相变阅读(1530) 评论(0) 推荐(0)

Hadoop程序设计1

摘要：本部分介绍hadoop简介hadoop的安装以及理解MapReduce，并运行一个MapReduce1 Hadoop简介 1.1 Hadoop特点Hadoop是一个开源框架，可编写、运行分布式应用程序处理大规模数据方便：Hadoop运行在由商用机器组合成的集群上或者云服务上健壮：Hadoop可以在集群的某个节点失效的情况下，进行故障处理可扩展：通过增加节点，Hadoop可以线性扩展处理数据简单：可以快速编写代码运行在Hadoop平台上1.2 了解分布式系统和hadoop 分布式系统与大型单机服务器：分布式系统是将许多台计算机进行组网，形成一个集... 阅读全文

posted @ 2013-04-22 13:55 朗道二级相变阅读(488) 评论(0) 推荐(0)

随笔分类 - Hadoop

公告