随笔分类 -  hadoop

摘要:背景 分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度,并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制。 具体到Hadoop集群,由于hadoop的HDFS对数据文件的分布式存放是按照分块block存储,每个block会有多个副本(默认为3),并且为了数据的安全和高效,所以hadoop默认对3个副本的存放策略为:第一个block副本放在和client所在的node里(如果client不在集群范围内,则这第一个node是 阅读全文
posted @ 2014-04-03 16:01 heart.. 阅读(395) 评论(0) 推荐(0) 编辑
摘要:1 Ganglia简介 Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点。每台计算机都运行一个收集和发送度量数据(如处理器速度、内存使用量等)的名为 gmond 的守护进程。它将从操作系统和指定主机中收集。接收所有度量数据的主机可以显示这些数据并且可以将这些数据的精简表单传递到层次结构中。正因为有这种层次结构模式,才使得 Ganglia 可以实现良好的扩展。gmond 带来的系统负载非常少,这使得它成为在集群中各台计算机上运行的一段代码,而不会影响用户性能。1.1 Ganglia组件 Ganglia 监控套件包括三个主要部分:gmond,gme.. 阅读全文
posted @ 2014-04-01 16:16 heart.. 阅读(1070) 评论(2) 推荐(1) 编辑
摘要:HDFS的体系架构整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持,并通过MR来实现对分布式并行任务处理的程序支持。HDFS采用主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的(在最新的Hadoop2.2版本已经实现多个NameNode的配置-这也是一些大公司通过修改hadoop源代码实现的功能,在最新的版本中就已经实现了)。NameNode作为主服务器,管理文件系统命名空间和客户端对文件的访问操作。DataNode管理存储的数据。HDFS支持文件形式的数据。从内部来看,文件被分成若干个数据块,这若干个数据 阅读全文
posted @ 2014-03-27 15:08 heart.. 阅读(561) 评论(0) 推荐(0) 编辑
摘要:hbase.rootdir:这个目录是region server的共享目录,用来持久化Hbase。URL需要是'完全正确'的,还要包含文件系统的scheme。例如,要表示hdfs中的 '/hbase'目录,namenode 运行在namenode.example.org的9090端口。则需要设置为h... 阅读全文
posted @ 2014-03-05 15:37 heart.. 阅读(10189) 评论(0) 推荐(0) 编辑
摘要:Hadoop中的NameNode好比是人的心脏,非常重要,绝对不可以停止工作。在hadoop1时代,只有一个NameNode。如果该NameNode数据丢失或者不能工作,那么整个集群就不能恢复了。这是hadoop1中的单点问题,也是hadoop1不可靠的表现。hadoop2就解决了这个问题。 hadoop2.2.0中HDFS的高可靠指的是可以同时启动2个NameNode。其中一个处于工作状态,另一个处于随时待命状态。这样,当一个NameNode所在的服务器宕机时,可以在数据不丢失的情况下,手工或者自动切换到另一个NameNode提供服务。这些NameNode之间通过共享数据,保证数据的状态一. 阅读全文
posted @ 2014-03-04 15:30 heart.. 阅读(6401) 评论(1) 推荐(1) 编辑
摘要:安装配置jdk,SSH一.首先,先搭建三台小集群,虚拟机的话,创建三个下面为这三台机器分别分配IP地址及相应的角色:集群有个特点,三台机子用户名最好一致,要不你就创建一个组,把这些用户放到组里面去,我这三台的用户名都是hadoop,主机名随意起192.168.0.20-----master(主机),... 阅读全文
posted @ 2014-02-24 15:24 heart.. 阅读(2768) 评论(9) 推荐(2) 编辑
摘要:第一部分:先讲这么去安装hive.先去hive官网下载,我这里以hive-0.12.0为例子。前面第二章讲了安装hadoop,hbase实例,我们继续讲这么安装hive,先说下hive配置文件一,先讲下使用Derby数据库的安装方式1.tar zxvf hive-0.12.0.tar.gz 解压hive2.sudo nano /etc/profile 配置环境变量,在原有的基础上加上hive配置在终端输入 source /etc/profile 使环境变量对当前终端有效3.cd /home/hadoop/hive-0.12.0/conf默认配置文档不存在,所以我们根据模板创建另外2个配置文件, 阅读全文
posted @ 2014-01-08 15:13 heart.. 阅读(1621) 评论(0) 推荐(0) 编辑
摘要:hbase shell命令 描述 alter修改列族(Column Family)模式count统计表中行的数量create创建表describe显示表相关的详细信息delete删除指定对象的值(可以为表,行,列对应的值,另外也可以指定时间戳的值)deleteall删除指定行的所有元素值disable使表无效drop删除表enable使表有效exists测试表是否存在exit退出hbase shellget获取行或单元(cell)的值incr增加指定表,行或列的值list列出hbase中存在的所有表put向指向的表单元添加值tools列出hbase所支持的工具scan通过对表的扫描来获取对用. 阅读全文
posted @ 2014-01-06 13:36 heart.. 阅读(2225) 评论(0) 推荐(0) 编辑
摘要:从hadoop0.20.203以后,hadoop的发布包里,不再对eclipse插件进行jar包发布,而是给出了打包的代码,需要各位开发人员自己进行打包和设置。我们打的包必须跟自己使用的hadoop版本一致第一步:先下载hadoop版本,我们这里以hadoop-1.2.1.tar.gz为例,解压,把这个项目全部倒入到MyEclipse里File-----import----选择项目导入第二步 我们要修改Hadoop根目录下的src/contrib/META-INFO/MANIFEST.MF,修改这个jar的classpath。找到这个文件的Bundle-ClassPath这一行,然后,修改成B 阅读全文
posted @ 2013-12-30 15:29 heart.. 阅读(1340) 评论(0) 推荐(0) 编辑
摘要:前面给大家讲了怎么安装Hadoop,肯定会有人还是很迷茫,装完以后原来就是这个样子,但是怎么用,下面,先给大家讲下Hadoop简介:大致理解下就OK了hadoop是一个平台,提供了庞大的存储和并行计算的能力.Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。Hadoop的核心内容是HDFS和MpReduce.Hadoop项目结构有一下9中:Common:是Hadoop其他子项目提供支持的常用工具。Avro:是用于数据序列化的系统。MapReduce:是一种编程模型,用于大规模数据集(大于1TB)的并行运算。HDFS:是一个分布式文件系统。Chukwa:是开源的数据收集系统,用于 阅读全文
posted @ 2013-12-25 11:55 heart.. 阅读(775) 评论(0) 推荐(0) 编辑
摘要:安装单机模式的hadoop无须配置,在这种方式下,hadoop被认为是一个单独的java进程,这种方式经常用来调试。所以我们讲下伪分布式安装hadoop. 我们继续上一章继续讲解,安装完先试试SSH装上没有,敲命令,注意:这个安装是hadoop伪分布式的安装,配置集群我在后面讲!!!!!!!! ls 阅读全文
posted @ 2013-12-02 14:59 heart.. 阅读(746) 评论(0) 推荐(0) 编辑
摘要:最近正在研究hadoop,hbase,准备自己写一套研究的感研,下面先讲下安装ubuntu,我这个是在虚拟机下安装,先用文件转换的方式安装。1:选择语言:最好选择英文,以免出错的时候乱码2:选择安装3.选择安装语言4.选择“否”默认键盘模式5.默认键盘布局6.配置主机名字7.创建新用户7.设置密码密码复杂性验证,我这里选择yes8.这里问你是否要加密您的主目录,这里选择否9.设置时钟10.磁盘分区,这里选择默认就好11.将更改写入磁盘并配置lvm,这是选择YES选择继续这里选择YES正在安装中。。。。12.配置软件包管理器,这里选择:继续13.默认就行,没有自动更新14.这里是选择要安装的软. 阅读全文
posted @ 2013-12-02 14:20 heart.. 阅读(325) 评论(0) 推荐(0) 编辑