随笔分类 -  hadoop

摘要:GlusterFS是一个高层次的分布式文件系统解决方案。通过增加一个逻辑层,对上层使用者掩盖了下面的实现,使用者不用了解也不需知道,文件的存储形式、分布。 内部实现是整合了许多存储块(server)通过Infiniband RDMA或者 Tcp/Ip方式互联的一个并行的网络文件系统,这样的许多存储块可以通过许多廉价的x86主机,通过网络搭建起来。 其相对于传统NAS 、SAN、Raid的优点就是:... 阅读全文
posted @ 2010-04-27 22:01 searchDM 阅读(1213) 评论(0) 推荐(0) 编辑
摘要:CloudEra 提供了较为完整的商业解决方案(免费),从数据导入的Sqoop到管理工具 CloudEra Desktop。http://www.cloudera.com/products-services/ 阅读全文
posted @ 2010-04-27 21:59 searchDM 阅读(196) 评论(0) 推荐(0) 编辑
摘要:Yahoo的Hadoop版本http://developer.yahoo.com/hadoop/distribution/ 阅读全文
posted @ 2010-04-27 21:59 searchDM 阅读(307) 评论(0) 推荐(0) 编辑
摘要:Web 2.0 的一个核心思想就是“群体智慧”,即基于大众行为,为每个用户提供个性化的推荐。这使得如何让用户能更快速更准确的获得所需要的信息,成为了 Web 应用成败的关键。Apache Mahout 是 ASF(Apache Software Foundation)的一个较新的开源项目,提供机器学习领域的一些经典算法的高效实现。本文主要讲述如何基于 Apache Maho... 阅读全文
posted @ 2010-04-27 21:58 searchDM 阅读(630) 评论(1) 推荐(1) 编辑
摘要:Presentation: Map_Reduce and Queues for MySQL Using Gearman Presentation [PDF] 阅读全文
posted @ 2010-04-27 21:55 searchDM 阅读(172) 评论(0) 推荐(0) 编辑
摘要:http://code.google.com/p/hbase-writer/What is HBase-Writer?HBase-Writer is an extension to the Heritrix open source crawler written by the Internet Archive (http://crawler.archive.org/) that enables i... 阅读全文
posted @ 2010-04-27 21:40 searchDM 阅读(335) 评论(0) 推荐(0) 编辑
摘要:HBase-Writer (http://code.google.com/p/hbase-writer/) is designed to be extensible but as it is, it can be used as a powerful web crawling tool. Out of the box, HBase-Writer is ready to write the cra... 阅读全文
posted @ 2010-04-27 21:39 searchDM 阅读(332) 评论(0) 推荐(0) 编辑
摘要:既然是RPC, 自然就有客户端和服务器,当然,org.apache.hadoop.rpc也就有了类Client和类Server。在这里我们来仔细考察 org.apache.hadoop.rpc.Client。下面的图包含了org.apache.hadoop.rpc.Client中的关键类和关键 方法。 由于Client 可能和多个Server通信,典型的一次HDFS读,需要和NameNode打交道... 阅读全文
posted @ 2010-03-20 00:44 searchDM 阅读(390) 评论(0) 推荐(0) 编辑
摘要:为org.apache.hadoop.io.compress等的分析预留位置 介绍完org.apache.hadoop.io以后,我们开始来分析org.apache.hadoop.rpc。RPC采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务器。当我们讨论HDFS的,通信可能发生在: Client-NameNode之间,其中NameNode是服务器Client-DataN... 阅读全文
posted @ 2010-03-20 00:43 searchDM 阅读(577) 评论(0) 推荐(0) 编辑
摘要:由于Hadoop的MapReduce和HDFS都有通信的需求,需要对通信的对象进行序列化。Hadoop并没有采用Java的序列化,而是引入了它自己的系统。 org.apache.hadoop.io中定义了大量的可序列化对象,他们都实现了Writable接口。实现了Writable接口的一个典型例子如下: Java代码 publicclassMyWritableimplementsWritable... 阅读全文
posted @ 2010-03-20 00:38 searchDM 阅读(615) 评论(0) 推荐(0) 编辑
摘要:下面给出了Hadoop的包的功能分析。 Package Dependences tool 提供一些命令行工具,如DistCp,archive mapreduce Hadoop的Map/Reduce实现 filecache 提供HDFS文件的本地缓存,用于加快Map/Reduce的数据访问速度 fs 文件系统的抽象,可以理解为支持多种文件系统实现的统一文件访问接口 hdfs HDFS,Hadoop的... 阅读全文
posted @ 2010-03-20 00:36 searchDM 阅读(451) 评论(0) 推荐(0) 编辑
摘要:Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。 GoogleCluster: http://research.google.com/archive/googlecluster.html Chubby:http://labs.google.com/papers/chubby.html GFS:http://labs.google.com/pap... 阅读全文
posted @ 2010-03-20 00:35 searchDM 阅读(643) 评论(0) 推荐(0) 编辑
摘要:HDFS是一个不错的分布式文件系统,它有很多的优点,但也存在有一些缺点。目前而言,它在以下几个方面就效率不佳:  低延时访问  HDFS不太适合于那些要求低延时(数十毫秒)访问的应用程序,因为HDFS是设计用于大吞吐量数据的,这是以一定延时为代价的。HDFS是单Master的,所有的对文件的请求都要经过它,当请求多时,肯定会有延时。当前,对于那些有低延时要求的应用程序,HBase是一个更好的选择。... 阅读全文
posted @ 2010-03-20 00:31 searchDM 阅读(3702) 评论(0) 推荐(1) 编辑
摘要:来自原小站,技术含量≈0,翻译整理自Hadoop-The Definitive Guide。 Pig 是yahoo捐献给apache的一个项目,它是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进 MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。这是Yahoo开发的又一个克隆Google的项目:Sawzall。 Pig是... 阅读全文
posted @ 2010-03-20 00:30 searchDM 阅读(734) 评论(0) 推荐(0) 编辑
摘要:还是原小站的东西,学习Hadoop的一些心得,扔这里保管先吧。   HDFS也有块(Block)的概念,但它的块是一个很大的单元,默认是64MB。像硬盘中的文件系统一样,在HDFS中的文件将会按块大小进 行分解,并作为独立的单元进行存储。但和硬盘中的文件系统不一样的是,存储在块中的一个比块小的文件并不会占据一个块大小的硬盘物理空间(HDFS中一个 块只存储一个文件的内容)。  那为什么HDFS中的... 阅读全文
posted @ 2010-03-20 00:30 searchDM 阅读(235) 评论(0) 推荐(0) 编辑
摘要:额外的MapReduce功能图4.6 插入了Combiner的MapReduce数据流  Combiner:前 面展示的流水线忽略了一个可以优化MapReduce作业所使用带宽的步骤,这个过程叫Combiner,它在Mapper之后Reducer之前运行。 Combiner是可选的,如果这个过程适合于你的作业,Combiner实例会在每一个运行map任务的节点上运行。Combiner会接收特定节点... 阅读全文
posted @ 2010-03-20 00:29 searchDM 阅读(428) 评论(0) 推荐(0) 编辑
摘要:这篇文章翻译自Yahoo的Hadoop教程, 很久之前就看过了,感觉还不错。最近想总结一下以前学的东西,看到现在关于Hadoop的中文资料还比较少,就有了把它翻译出来的想法,希望能帮助到初学 者。这只是Yahoo的Hadoop教程中很小的一部分,我下去还会选一些来翻译,一般来说只翻译讲原理的,操作类的就不翻译了。水平有限,不妥之处,请 指正(感觉翻译过来后,读起来倒是没英文的顺畅:)。废话说完,正... 阅读全文
posted @ 2010-03-20 00:27 searchDM 阅读(1750) 评论(1) 推荐(1) 编辑
摘要:在上一篇文章中我们讲解了一个基本的MapReduce作业由那些基本组件组成,从高层来看,所有的组件在一起工作时如下图所示: 图4.4高层MapReduce工作流水线   MapReduce的输入一般来自HDFS中的文件,这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点甚至所有节点上运行mapping任务,每一个mapping任务都是平等的:mappers没有特定... 阅读全文
posted @ 2010-03-20 00:27 searchDM 阅读(1144) 评论(0) 推荐(1) 编辑
摘要:HbaseArchitecture HBase架构 原文地址:http://wiki.apache.org/hadoop/Hbase/HbaseArchitecture 本文来自 博客园 逖靖寒 http://gpcuster.cnblogs.com关于HBase,有一篇非常容易入门的文章,可以参考:Understanding HBase and BigTable 介绍 为了更好地理解本文所讲的内容,强烈建议您先去阅读Google的论文Bigtable paper。 HBase是一个Apa... 阅读全文
posted @ 2009-09-25 00:25 searchDM 阅读(174) 评论(0) 推荐(0) 编辑
摘要:启动hadoop,但ssh 端口不是默认的22怎么样?好在它可以配置。在conf/hadoop-env.sh里改下。如: exportHADOOP_SSH_OPTS="-p1234" 阅读全文
posted @ 2009-09-16 12:29 searchDM 阅读(542) 评论(0) 推荐(0) 编辑