随笔分类 -  Hadoop

摘要:hadoop的配置,个人感觉是非常容易出问题。一个原因是要配置的地方多,还有个原因就是集群配置要在几台机器上都配置正确,才能保证配置好hadoop,跑起任务。经过昨晚加今天上午的折腾,总算成功配好了集群模式,其中苦不堪言啊,中间好几次都想要放弃。这里总结了一下配置的几个要点,分享给大家,以使大家少走... 阅读全文
posted @ 2014-04-18 11:58 郑文亮 阅读(1641) 评论(0) 推荐(0) 编辑
摘要:前两天和朋友李天王吃饭的时候,聊到了一个hadoop的运维的很简单问题,感觉很有意思,以前也没有注意过,现在加以重现和整理。 感谢李天王的分享。。。。 翻看了yarn-deamon.sh stop部分的脚本:Java代码(stop)if[-f$pid];thenTARGET_PID=`cat$pid... 阅读全文
posted @ 2014-04-18 11:40 郑文亮 阅读(1264) 评论(0) 推荐(0) 编辑
摘要:昨晚整了半天,遇上的问题是通过start-all.sh无法启动datanode,然后关闭时就会报no datanode to stop ,引起这个的原因是因为我多次格式化,导致namespaceID不一致,解决方法也就简单了,修改Salve里的current/VERSION里的namespaceID... 阅读全文
posted @ 2014-04-17 17:39 郑文亮 阅读(2258) 评论(0) 推荐(0) 编辑
摘要:start-all.sh脚本现在已经废弃,推荐使用start-dfs.sh和start-yarn.sh分别启动HDFS和YARN。在新一代的Hadoop里面HDFS称为了统一存储的平台,而YARN成为了统一计算的平台。(1)调用start-dfs.sh启动HDFS。之后JPS会出现NameNode,... 阅读全文
posted @ 2014-04-17 16:04 郑文亮 阅读(9396) 评论(0) 推荐(0) 编辑
摘要:说明:由于hadoop集群对时间要求很高,所以集群内主机要经常同步。本文档适合ubuntu、redhat系列。注:很多内容是在网上摘录,然后试验后总结,如有疑问可留言探讨。1.设置主机时间准确(任意机器都可)。//如果不需要同步网络时间则可以省略这一步1.1查看本机时间和时区(date)1.2设置时... 阅读全文
posted @ 2014-04-17 12:00 郑文亮 阅读(5262) 评论(1) 推荐(0) 编辑
摘要:1.hadoop简介Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明... 阅读全文
posted @ 2014-04-15 16:24 郑文亮 阅读(676) 评论(0) 推荐(0) 编辑
摘要:环境准备1、操作系统:centos6.0 64位2、hadoop版本:hahadoop-2.2.0安装和配置步骤具体如下:1、主机和ip分配如下ip地址 主机名 用途 192.168.1.112 hadoop1 namenode 192.168.1.113 hadoop2datanode192.16... 阅读全文
posted @ 2014-04-14 11:50 郑文亮 阅读(2596) 评论(1) 推荐(0) 编辑
摘要:一、Hadoop基本介绍Hadoop优点1.高可靠性:Hadoop按位存储和处理数据2.高扩展性:Hadoop是在计算机集群中完成计算任务,这个集群可以方便的扩展到几千台3.高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度快4.高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配5.低成本:Hadoop是开源的,集群是由廉价的PC机组成Hadoop架构和组件Hadoop是一个分布式系统基础架构,底层是HDFS(Hadoop Distributed File System)分布式文件系统,它存储Hadoop集群中所有存储节点上 阅读全文
posted @ 2014-04-12 17:14 郑文亮 阅读(3520) 评论(0) 推荐(0) 编辑
摘要:1、JDK安装下载网址:http://www.oracle.com/technetwork/java/javase/downloads/jdk-6u29-download-513648.html如果本地有安装包,则用SecureCRT连接Linux机器,然后用rz指令进行上传文件;下载后获得jdk-6u29-linux-i586-rpm.bin文件,使用sh jdk-6u29-linux-i586-rpm.bin进行安装,等待安装完成即可;java默认会安装在/usr/java下;在命令行输入:vi /etc/profile在里面添加如下内容export JAVA_HOME=/usr/java 阅读全文
posted @ 2014-04-11 11:10 郑文亮 阅读(420) 评论(0) 推荐(0) 编辑
摘要:HadoopDB 是一个 Mapreduce 和传统关系型数据库的结合方案,以充分利用 RDBMS 的性能和 Hadoop 的容错、分布特性。2009 年被 Yale 大学教授 Abadi 提出,继而商业化为 Hadapt,据称从 VC 那儿拉到了 10M 刀投资。本文是对 HadoopDB 论文的总结。其中不免掺杂些自己的不成熟想法,更详细的内容,还请参见原论文 HadoopDB: An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads背景PB 级数据分析系统的能力要求1.性能:节 阅读全文
posted @ 2014-04-10 09:25 郑文亮 阅读(554) 评论(0) 推荐(0) 编辑
摘要:最近一段时间一直在从事和hadoop相关的工作,主要是技术内容学习、安装配置优化以及一些框架结构的设计。在此期间,我对于RDBMS和Hadoop的结合应用有了一些自己的看法,写出来大家共同探讨一下。1、为什么要用Hadoop这个在网上已近有很多的人说过这个问题,我在这里就不多述了。但是我想说下,对于一个工具而言,只有最合适的应用场景没有最牛的工具。hadoop对我而言也只是一个工具,所以,更多的时候我是从业务角度出发去考虑hadoop能给我带来什么。2、RDBMS?RDBMS是关系型数据库英文缩写,但对于我而言,就是oracle(因为我现在的公司用就是)。关于RDBMS和NOSQL谁更好这个话 阅读全文
posted @ 2014-04-10 09:17 郑文亮 阅读(663) 评论(1) 推荐(0) 编辑
摘要:这篇文章主要介绍了使用hadoop的API对HDFS上的文件访问,其中包括上传文件到HDFS上、从HDFS上下载文件和删除HDFS上的文件,需要的朋友可以参考下hdfs文件操作操作示例,包括上传文件到HDFS上、从HDFS上下载文件和删除HDFS上的文件,大家参考使用吧复制代码 代码如下:import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import java.io.File;import java.io.IOException;public class HadoopFile { priva... 阅读全文
posted @ 2014-04-10 09:11 郑文亮 阅读(10740) 评论(0) 推荐(0) 编辑
摘要:用hdfs存储海量的视频数据存储海量的视频数据,主要考虑两个因素:如何接收视频数据和如何存储视频数据。我们要根据数据block在集群上的位置分配计算量,要充分利用带宽的优势。1.接收视频数据将从摄像头接收到的或通过模拟产生的视频流以文件的形式存储在本地文件夹,在这个过程中不产生任何中间文件。2.海量视频数据存储存储海量视频数据的思路:通过hadoop提供的api结构,实现将接收到的视频流文件从本地上传到hdfs中。在这一过程中,把接收到的视频文件不断地存储到一个指定的本地文件夹中,而这个本地文件夹是在不断动态变换的,这时,将这个动态变化的文件夹当成是一个“缓冲区”,把“缓冲区”中的文件以流的形 阅读全文
posted @ 2014-04-09 17:35 郑文亮 阅读(3455) 评论(1) 推荐(0) 编辑
摘要:一.Hive应用场景本文主要讲述使用 Hive 的实践,业务不是关键,简要介绍业务场景,本次的任务是对搜索日志数据进行统计分析。集团搜索刚上线不久,日志量并不大 。这些日志分布在 5 台前端机,按小时保存,并以小时为周期定时将上一小时产生的数据同步到日志分析机,统计数据要求按小时更新。这些统计项,包括关键词搜索量 pv ,类别访问量,每秒访问量 tps 等等。基于 Hive ,我们将这些数据按天为单位建表,每天一个表,后台脚本根据时间戳将每小时同步过来的 5 台前端机的日志数据合并成一个日志文件,导入 Hive 系统,每小时同步的日志数据被追加到当天数据表中,导入完成后,当天各项统计项将被重新 阅读全文
posted @ 2014-04-09 15:42 郑文亮 阅读(6623) 评论(0) 推荐(0) 编辑
摘要:前言:年前,在老大的号召下,我们纠集了一帮人搞起了hadoop,并为其取了个响亮的口号“云在手,跟我走”。大家几乎从零开始,中途不知遇到多少问题,但终 于在回家之前搭起了一个拥有12台服务器的集群,并用命令行在该集群上运行了一些简单的mapreduce程序。想借此总结我们的工作过程。安装过程:一、安装Linux操作系统二、在Ubuntu下创建hadoop用户组和用户三、在Ubuntu下安装JDK四、修改机器名五、安装ssh服务六、建立ssh无密码登录本机七、安装hadoop八、在单机上运行hadoop一、安装Linux操作系统我们是在windows中安装linux系统的,选择的是ubuntu1 阅读全文
posted @ 2014-04-03 14:33 郑文亮 阅读(381) 评论(0) 推荐(0) 编辑
摘要:robby老师讲了套hadoop视频,讲的比的深入浅出,内容很丰富,把网盘下载地址提供给大家一下:视频下载啦很大,有图有真相:1,Hadoop介绍,HDFS和MapReduce工作原理:http://kuai.xunlei.com/d/CLCBYHQKJQNT2、安装Hadoop(单机版和集群), HDFS的命令行工具使用(1):http://kuai.xunlei.com/d/CSMFERCHAGEE 阅读全文
posted @ 2014-04-02 10:43 郑文亮 阅读(482) 评论(0) 推荐(0) 编辑