随笔分类 - hadoop
摘要:查阅了几篇中英文资料,发现有的地方说的不是很全部,总结在此,共有两种命令行的方式来实现数据的导入导出功能,即备份和还原。1 HBase本身提供的接口其调用形式为:1)导入./hbase org.apache.hadoop.hbase.mapreduce.Driver import 表名 数据文件位置其中数据文件位置可为本地文件目录,也可以分布式文件系统hdfs的路径。当其为前者时,直接指定即可,也可以加前缀file:///而当其伟后者时,必须明确指明hdfs的路径,例如hdfs://mymaster:9000/path2)导出./hbase org.apache.hadoop.hbase.ma
阅读全文
摘要:Map-Reduce工作原理1 client run job2 get new job ID3 copy job resources4 submit job5 initialize job6 retrieve input splits7 heartbeat (return task)8 retrieve job resource9 lunch10 runJobClient的runJob()方法是用于新建JobClient实例和调用其submitJob()方法。提交作业后,runJob()将每秒轮询作业的进度,如果发现与上一个记录不同,便把报告显示到控制台。作业完成后,如果成功,就显示作业计数器
阅读全文
摘要:摘要Bigtable 是设计用来管理那些可能达到很大大小(比如可能是存储在数千台服务器上的数PB的数据)的结构化数据的分布式存储系统。Google的很多项目都将数据存 储在Bigtable中,比如网页索引,google 地球,google金融。这些应用对Bigtable提出了很多不同的要求,无论是数据大小(从单纯的URL到包含图片附件的网页)还是延时需求。尽管存 在这些各种不同的需求,Bigtable成功地为google的所有这些产品提供了一个灵活的,高性能的解决方案。在这篇论文中,我们将描述 Bigtable所提供的允许客户端动态控制数据分布和格式的简单数据模型,此外还会描述Bigtable
阅读全文
摘要:一、安装准备1、下载zookeeper-3.3.1,地址:http://www.apache.org/dist/hadoop/zookeeper/zookeeper-3.3.1/2、JDK版本:jdk-6u20-linux-i586.bin3、操作系统:Linux4、默认前提是安装完hadoop 0.20.2版本: 192.168.3.131 namenode 192.168.3.132 datanode 192.168.3.133 datanode二、操作步骤(默认在namenode上进行)1、拷贝以上文件到Linux的“/usr/”目录下。同时新建目录“/zookeeper-3.3.1”。
阅读全文
摘要:什么时候需要HBase 半结构化或非结构化数据,对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的数据适合用HBase。当业务发展需要存储author的email,phone,address信息时RDBMS需要停机维护,而HBase支持动态增加.记录非常稀疏RDBMS的行有多少列是固定的,为null的列浪费了存储空间。而如上文提到的,HBase为null的Column不会被存储,这样既节省了空间又提高了读性能。多版本数据如上文提到的根据Row key和Column key定位到的Value可以有任意数量的版本值,因此对于需要存储变动历史记录的数据,用HBase就非常方便了。比如上例中
阅读全文
摘要:HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。1. 简介HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。2. HBase的表结构HBase以表的形式存储数据。表
阅读全文
摘要:1、MapReduce理论简介1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracker;另一个是 TaskTracker,JobTracker是用于调度工作的,TaskTracker是用于执行工作的。一个Hadoop集群中只有一台 JobTracker。 在分布式计算中
阅读全文
摘要:主要介绍用DataJoin类来链接多数据源,先看一下例子,假设二个数据源customs和orderscustomer ID Name PhomeNumber1 赵一 025-5455-5662 钱二 025-4587-5653 孙三 021-5845-5875客户的订单号:Customer ID order ID Price Data2 1 93 2008-01-083 2 43 2012-01-211 ...
阅读全文
摘要:摘要:Intel会和Hadoop擦出怎样的火花?今年7月Intel发布了Hadoop发行版,在功能和用户界面进行了完善。Intel在GitHub维护开源项目Project Panthera,并积极招募committer。目前Intel在Apache Hadoop社区中没有一位committer,但你不能小看CPU巨人投入Hadoop怀抱的热情和努力。【CSDN报道】Intel在今年7月发布了首个Hadoop发行版,用Intel亚太研发有限公司总经理、Intel软件与服务事业部中国区总经理何京翔博士的原话来说,这是“过去几年研究的成果。”在2012Hadoop与大数据技术大会上,Intel将推出
阅读全文
摘要:首先,将测试数据上载到hadoop的hdfs上。进入hadoop目录后输入命令:bin/start-all.sh(启动hadoop的守护进程)输入jps看进程是否启动,启动完成后输入命令:bin/hadoop fs -put input02 input //将hadoop目录下的input02文件夹上载到文件系统hdfs上输入命令:bin/hadoop fs -ls//查看文件系统上的文件 也可以用bin/hadoop fs -ls input 查看文件是否上载成功文件上载成功后,打开eclipse Maxtemperature代码 -->右击-->Run as-->Run
阅读全文
摘要:第1章 引言1.1 编写目的介绍pig,一个不得不说的hadoop的扩展。1.2 什么是pigPig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。1.3 pig的特点1、专注于于大量数据集分析(ad-hoc analysis , ad-hoc 代表:a solution that has been custom designed for a specific problem ); 2、运行在集群的
阅读全文
摘要:Pig是yahoo捐献给apache的一个项目,它是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。这是Yahoo开发的又一个克隆Google的项目:Sawzall。Pig是一个客户端应用程序,就算你要在Hadoop集群上运行Pig,也不需要在集群上装额外的东西。Pig的安装是灰常的简单的:1、安装JAVA6(在Windows的话要装Cygwin),设置好JAVA_HOME。% export JAVA_HOME=/home/tom/jdk1.62、到http://hadoop.ap
阅读全文
摘要:只要谈论大数据,就一定会提到Hadoop。短短的几年时间,Apache Hadoop已经迅速成长为首选的、适用于非结构化数据的大数据分析解决方案。最初,Hadoop项目是由原Yahoo的Doug Cutting创建的,而"Hadoop"这个名字也是来自于Doug Cutting的孩子的玩具的名字,一个可爱的黄色小象。 Hadoop主要由HDFS、MapReduce和HBase三部分组成,是一个能够便捷的开发和运行处理大数据的开源软件平台,最大的特点是其极大的扩展性和良好的伸缩性,可以利用高性价比的X86服务器组成高性能集群,当数据量增加到无法负荷的时候,只需增加相应节点即可
阅读全文
摘要:Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。
阅读全文
摘要:根据国外媒体报道,Twitter计划开源Hadoop-happy架构的一个附加部分,Twitter用来作为内部数据分析。作为知名的Crane,这个是用来将MySQL转化到Hadoop的工具。这一开源数据分析平台建立在Google的私有设施上。Twitter使用Hadoop来进行数据分析,同时该平台也被使用在站点上,包括Twitter的名称搜索功能。Twitter的大部分表格数据存储在MySQL中,只有一小部分存储在Cassandra。Twitter的技术负责人表示要做的就是在一些地方结束MySQL表格存储。因此Crane被开发出来,用于将数据从MySQL到HDFS或者Hadoop的HBase上
阅读全文
摘要:1、1TB(或1分钟)排序的冠军 作为分布式数据处理的框架,集群的数据处理能力究竟有多快?或许1TB排序可以作为衡量的标准之一。 1TB排序,就是对1TB(1024GB,大约100亿行数据)的数据进行排序。2008年,Hadoop赢得1TB排序基准评估第一名,排序1TB数据耗时209秒。后来,1TB排序被1分钟排序所取代,1分钟排序指的是在一分钟内尽可能多的排序。2009年,在一个1406个节点组成的hadoop集群,在59秒里对500GB完成了排序;而在1460个节点的集群,排序1TB数据只花了62秒。 这么惊人的数据处理能力,是不是让你印象深刻呢?呵呵 下面我们来看看排序的过程吧。 2、排
阅读全文
摘要:从架构角度而言,hadoop HDFS 是一个master/slave架构的系统。 NameNode类似于master的身份,负责管理文件系统的名字空间(namespace)以及客户端对文件meta信息的访问。所谓meta信息,就是指文件存储路径,复制因子,名称等信息以及修改日志等。同时NameNode还通过侦听客户端发送过来的心跳信息,维护整个hadoop Cluster的节点状态。 HDFS中的实际数据则由DataNode负责存储和维护,DataNode是一个slave身份。 向HDFS写入一个文件数据时,默认情况下hadoop系统Block Szie=64MB,将当前文件切分成多个...
阅读全文
摘要:分布式文件系统部署-Hadoop【转载】在Hadoop部署的分布式文件系统中有4种角色:namenode,datanode,jobtracker,tasktracker。Namenode和Jobtracker属于Master角色,Datanode和Tasktracker属于Slaver角色。Namenode和Datanode用于分布式存储,JobTracker和Tasktracker用于分布式计算。这里我们不需要用到分布式计算,故忽略分布式计算的配置和部署。Hadoop有两种部署方式:1)方式1:master和slave独立启动,master无需访问slave;(这种方式最简单)2)方式2:m
阅读全文
摘要:1. JDK配置1 从Sun的网站下载JDK,注意有两个linux下的安装包。一个是rpm,一个是普通的bin,二者均可。2 进入下载的目录,安装jdk。(不会的就google)。3 等待其安装结束,不必配置其他信息。在Fedora 12中djk的环境变量均已自动配置。注意:请先卸载系统自带的openJDK,保险一些。可从安装包管理器中卸载。2. Hadoop配置2.1 虚拟机配置 一台NameNode,两台DataNode。2.2 配置总体过程 以下记录配置过程以及要点。2.2.1 主要配置内容 配置可分为两类:系统配置和Hadoop配置,主要内容包括主机配置、SSH和Hadoop三部分内容
阅读全文
摘要:这两天在网上看了个MapReduce的多文件输出的帖子: http://blog.csdn.net/inkfish。写的不错。我试着完成了一下。也是分为三个文件:我这三个文件,跟原作者的稍有不同。其中有些类是我原来写的,我直接拷贝过来的,所以有点不同。My_LineRead.java [java] view plaincopyprint?publicclassMy_LineRead<K,V>extendsRecordWriter<K,V>{privatestaticfinalStringutf8="UTF-8";privatestaticfinalS
阅读全文
浙公网安备 33010602011771号