文章分类 -  Hadoop

Hive升级至0.13
摘要:一、升级MetaStore1.更新hive源码git checkout -brelease-0.13.0release-0.13.02.编译hiveexport MAVEN_OPTS=-Xmx512mmvn package -Phadoop-1,dist -Dmaven.test.skip=true... 阅读全文

posted @ 2014-05-11 20:34 李涛_buptsse 阅读(698) 评论(0) 推荐(0)

hadoop管理NameNode AND SecondaryNameNode
摘要:光从字面上来理解,很容易让一些初学者先入为主的认为:SecondaryNameNode(snn)就是NameNode(nn)的热备进程。其 实不是。snn是HDFS架构中的一个组成部分,但是经常由于名字而被人误解它真正的用途,其实它真正的用途,是用来保存namenode中对HDFS metadata的信息的备份,并减少namenode重启的时间。对于hadoop进程中 ,要配置好并正确的使用 snn,还是需要做一些工作的。hadoop的默认配置中让 snn进程默认运行在了 namenode 的那台机器上,但是这样的话,如果这台机器出错,宕机,对恢复HDFS文件系统是很大的灾难,更好的方式是:将 阅读全文

posted @ 2013-10-04 22:28 李涛_buptsse 阅读(142) 评论(0) 推荐(0)

Hadoop 新 MapReduce 框架 Yarn 详解
摘要:Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 MapReduce 框架图:图 1.Hadoop 原 MapReduce 架构从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路:首先用户程序 (JobClient) 提交了一个 job,job 的信息会发送到 阅读全文

posted @ 2013-09-28 23:35 李涛_buptsse 阅读(153) 评论(0) 推荐(0)

hbase安装配置(整合到hadoop)
摘要:1.快速单机安装:在单机安装Hbase的方法。会引导你通过shell创建一个表,插入一行,然后删除它,最后停止Hbase。只要10分钟就可以完成以下的操作。1.1下载解压最新版本选择一个Apache 下载镜像:http://www.apache.org/dyn/closer.cgi/hbase/,下载HBase Releases. 点击stable目录,然后下载后缀为.tar.gz的文件; 例如hbase-0.90.4.tar.gz.$ tar xfz hbase-0.90.4.tar.gz$ cd hbase-0.90.4现在你已经可以启动Hbase了。但是你可能需要先编辑conf/hbas 阅读全文

posted @ 2013-07-07 16:12 李涛_buptsse 阅读(503) 评论(0) 推荐(0)

Hadoop集群配置(最全面总结)
摘要:通常,集群里的一台机器被指定为NameNode,另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves\官方地址:(http://hadoop.apache.org/common/docs/r0.19.2/cn/cluster_setup.html)1 先决条件确保在你集群中的每个节点上都安装了所有必需软件:sun-JDK ,ssh,HadoopJavaTM1.5.x,必须安装,建议选择Sun公司发行的Java版本。ssh必须安装并且保证sshd一直运行,以便用Hadoop 脚本管理远端... 阅读全文

posted @ 2013-07-06 23:03 李涛_buptsse 阅读(124) 评论(0) 推荐(0)

云计算平台管理的三大利器Nagios、Ganglia和Splunk
摘要:综合利用Nagios、Ganglia和Splunk搭建起的云计算平台监控体系,具备错误报警、性能调优、问题追踪和自动生成运维报表的功能。有了这套系统,就可轻松管理Hadoop/HBase云计算平台。云计算早已不是停留在概念阶段了,各大公司都购买了大量的机器,开始正式的部署和运营。而动辄上百台的性能强劲的服务器,为运营管理带来了巨大的挑战。如果没有方便的监控报警平台,对于管理员而言犹如噩梦,每天都将如救火队员一样,飞快地敲击键盘,用原始的Unix命令在多台机器中疲于奔命。如果没有好的日志管理平台,对于开发者Troubleshooting更是一件泪流满面的事情。而如果你是运维团队的总负责人,简洁清 阅读全文

posted @ 2013-05-07 22:54 李涛_buptsse 阅读(247) 评论(0) 推荐(0)

Hadoop DistCp
摘要:概述DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。 由于使用了Map/Reduce方法,这个工具在语义和执行上都会有特殊的地方。 这篇文档会为常用DistCp操作提供指南并阐述它的工作模型。使用方法基本使用方法DistCp最常用在集群之间的拷贝:bash$ hadoop distcp hdfs://nn1:8020/foo/bar \ hdfs://nn2:8020/bar/foo这条命令会把nn1集群的/foo/ba. 阅读全文

posted @ 2013-03-29 16:43 李涛_buptsse 阅读(468) 评论(0) 推荐(0)

GFS架构分析
摘要:Google文件系统(Google File System,GFS)是构建在廉价的服务器之上的大型分布式系统。它将服务器故障视为正常现象,通过软件的方式自动容错,在保证系统可靠性和可用性的同时,大大减少了系统的成本。GFS是Google云存储的基石,其它存储系统,如Google Bigtable,Google Megastore,Google Percolator均直接或者间接地构建在GFS之上。另外,Google大规模批处理系统MapReduce也需要利用GFS作为海量数据的输入输出。系统架构GFS将整个系统的节点分为三种角色:GFS Master(总控服务器),GFS Chunkserve 阅读全文

posted @ 2013-03-03 20:54 李涛_buptsse 阅读(527) 评论(0) 推荐(0)

使用nutch和solr建立搜索引擎
摘要:一、lucene,solr,nutch,hadoop的区别和联系apache lucene是apache下一个著名的开源搜索引擎内核,基于Java技术,处理索引,拼写检查,点击高亮和其他分析,分词等技术。nutch和solr原来都是lucene下的子项目。但后来nutch独立成为独立项目。nutch是2004年由俄勒冈州立大学开源实验室模仿google搜索引擎创立的开源搜索引擎,后归于apache旗下。nutch主要完成抓取,提取内容等工作。solr则是基于lucene的搜索界面。提供XML/HTTP 和 JSON/Python/Ruby API,提供搜索入口,点击高亮,缓存,备份和管理界面。 阅读全文

posted @ 2013-02-17 17:32 李涛_buptsse 阅读(787) 评论(0) 推荐(0)

Hadoop Hama项目–BSP模型的实现
摘要:1、Hama概论 ·建立在Hadoop上的分布式并行计算模型。 ·基于 Map/Reduce 和 Bulk Synchronous 的实现框架。 ·运行环境需要关联 Zookeeper、HBase、HDFS 组件。 ·集群环境中的系统架构由 BSPMaster/GroomServer(Computation Engine)、Zookeeper(Distributed Locking)、HDFS/HBase(Storage Systems)这3大块组成。如图所示: ·Hama中有2个主要的模型: – 矩阵计算(Matrix package) – 阅读全文

posted @ 2013-02-01 16:05 李涛_buptsse 阅读(796) 评论(0) 推荐(0)

hadoop中使用lzo的压缩
摘要:在hadoop中使用lzo的压缩算法可以减小数据的大小和数据的磁盘读写时间,不仅如此,lzo是基于block分块的,这样他就允许数据被分解成chunk,并行的被hadoop处理。这样的特点,就可以让lzo在hadoop上成为一种非常好用的压缩格式。lzo本身不是splitable的,所以当数据为text格式时,用lzo压缩出来的数据当做job的输入是一个文件作为一个map。但是sequence file本身是分块的,所以sequence file格式的文件,再配上lzo的压缩格式,就可实现lzo文件方式的splitable。由于压缩的数据通常只有原始数据的1/4,在HDFS中存储压缩数据,可以 阅读全文

posted @ 2012-12-17 14:38 李涛_buptsse 阅读(698) 评论(0) 推荐(0)