随笔分类 -  hadoop

摘要:在 Eclipse 环境下进行开发和调试 http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop2/index.html IBM Hadoop Eclipse Plugin http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop2/mapreduce_plugin.zip 它可以把本地代码在hadoop上运行. 右击main类, 点"Run on hadoop", 它会把类打包成jar上传到服务器, 然后运行. 但有个缺点:main 的输入参数 阅读全文
posted @ 2009-09-16 12:29 searchDM 阅读(605) 评论(0) 推荐(0) 编辑
摘要:infoQ.com的:分布式计算开源框架Hadoop入门实践,作者:岑文初 分布式计算开源框架Hadoop介绍Hadoop中的集群配置和使用技巧Hadoop基本流程与应用开发 ibm.com的:用 Hadoop 进行分布式并行编程 基本概念与安装部署程序实例与分析部署到分布式环境 Hadoop的0.17版本中文文档:http://www.hadoop.org.cn/document/cn/r0.17.0/ 其它: Hadoop分布式文件系统:架构和设计要点 http://www.hadoop.org.cn/ 官网:http://hadoop.apache.org/ 官方wiki:h... 阅读全文
posted @ 2009-09-16 12:28 searchDM 阅读(493) 评论(0) 推荐(0) 编辑
摘要:关于Hadoop IPC 我们一起来了解Hadoop IPC,这是一个内进程间通信(Inter-Process Communication)的子系统。Hadoop IPC被用于在一个进程的程序与另一个进程的程序进行通信 Hadoop IPC 1.与SOAP和XML-RPC不同,Hadoop IPC使用java中的DataOutputStream与DataInputStream进行二进制的序列化。 2. 它是一个简洁的,低消耗的RPC机制。 3. 它只支持单播的操作。 为什么Hadoop的IPC实现不使用RMI或者是java.io.Serialization呢? 理... 阅读全文
posted @ 2009-09-06 22:49 searchDM 阅读(368) 评论(0) 推荐(0) 编辑
摘要:1、硬件环境 我们采用了3台机器来构建,都安装的是Ubuntu8.04系统,并且都有一个名为“quan“的帐号,如下: 主机名称:360quan-1 ip:192.168.0.37 功能:NameNode,JobTracker 主机名称:360quan-2 ip:192.168.0.43 功能:DataNode,TaskTracker 主机名称:360quan-3 ip:192.168.0.53 功能:DataNode,TaskTracker 重点:修改3台机器的/etc/hosts,让彼此的主机名称和ip都能顺利解析 127.0.0.1 localhost 192.168.0.3... 阅读全文
posted @ 2009-08-03 13:17 searchDM 阅读(635) 评论(0) 推荐(0) 编辑
摘要:Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架,借助于 Hadoop, 程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的计算。在本文中,详细介绍了如何针对一个具体的并行计算任务,基于 Hadoop 编写程序,如何使用 IBM MapReduce Tools 在 Eclipse 环境中编译并运行 Hadoop 程序。 前言 在上一篇文章:“用 Hadoop 进行分布式并行编程 第一部分 基本概念与安装部署”中,介绍了 MapReduce 计算模型,分布式文件系统 HDFS,分布式并行计算等的基本原理, 并且详细介绍了如何安装 Hadoo 阅读全文
posted @ 2009-08-03 13:16 searchDM 阅读(844) 评论(0) 推荐(0) 编辑
摘要:【赛迪网-IT技术报道】HBase是Hadoop中的一个简单数据库。它与Google的Bigtable特别相似,但也存在许多的不同之处。数据模型HBase数据库使用了和Bigtable非常相似的数据模型。用户在表格里存储许多数据行。每个数据行都包括一个可排序的关键字,和任意数目的列。表格是稀疏的,所以同一个表格里的行可能有非常不同的列,只要用户喜欢这样做。列名是“<族名>:<标签>”形式,其中<族名>和<标签>可以是任意字符串。一个表格的<族名>集合(又叫“列族”集合)是固定的,除非你使用管理员权限来改变表格的列族。不过你可以在任何时 阅读全文
posted @ 2009-08-03 13:14 searchDM 阅读(1181) 评论(0) 推荐(0) 编辑
摘要:Google最近关于Google Application Engin的介绍再一次引起了大家对备选数据库技术的兴趣。几星期前InfoQ访谈Hypertable项目的创始人之一Doug Judd,该项目受到了Google的BigTable数据库的启发。本周InfoQ很乐意给大家奉献对HBase领导人——im Kellerman、Michael Stack和Bryan Duxbury的专访。HBase是一个开源的、分布式的、仿效BigTable的面向列存储系统。 1. 对于第一次听说HBase的人,你准备怎么描述它?HBase是一个开源的、分布式的、面向列的存储系统,该技术来源于Chang et a 阅读全文
posted @ 2009-08-03 13:10 searchDM 阅读(1883) 评论(0) 推荐(0) 编辑
摘要:Hadoop分布式文件系统:架构和设计要点Hadoop分布式文件系统:架构和设计要点原文:http://hadoop.apache.org/core/docs/current/hdfs_design.html一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2、跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。3、HDFS以支持大数据集合为目标,一个存储在上面的典型文件大小一般都 阅读全文
posted @ 2009-03-21 13:44 searchDM 阅读(877) 评论(0) 推荐(1) 编辑
摘要:Hadoop 简介 云计算Posted in 10gen, Amazon, EC2, Eucalyptus, Hadoop, LAMP, cloud computing, 未分类 on Sep 6th, 2008 No Comments Google和Amazon已经走在了云计算商业化的前面,在他们后面则是一群开源的云计算项目。这让我们多了一些选择,可以考虑... Hadoop 简介 Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架,由于分布式存储对于分布式编程来说是必不可少的,这个框架中还包含了一个分布式文件系统 HDFS( Hadoop Distributed File 阅读全文
posted @ 2009-03-21 13:42 searchDM 阅读(2103) 评论(1) 推荐(0) 编辑
摘要:Hadoop 初体验Hadoop 支持 Linux 及 Windows 操作系统, 但其官方网站声明 Hadoop 的分布式操作在 Windows 上未做严格测试,建议只把 Windows 作为 Hadoop 的开发平台。在 Windows 环境上的安装步骤如下( Linux 平台类似,且更简单一些): (1)在 Windows 下,需要先安装 Cgywin, 安装 Cgywin 时注意一定要选择安装 openssh (在 Net category )。安装完成之后,把 Cgywin 的安装目录如 c:\cygwin\bin 加到系统环境变量 PATH 中,这是因为运行 Hadoop 要执行一 阅读全文
posted @ 2009-03-21 13:41 searchDM 阅读(3409) 评论(0) 推荐(0) 编辑
摘要:使用Linux 和Hadoop 进行分布式计算人们每天都依赖搜索引擎以从 Internet 的海量数据中找到特定的内容,但您曾经想过这些搜索是如何执行的吗?一种方法是 Apache 的 Hadoop,它是一个能够对海量数据进行分布式处理的软件框架。Hadoop 的一个应用是并行索引 Internet Web 页面。Hadoop 是一个受到 Yahoo!、Google 和 IBM 等公司支持的 Ap... 阅读全文
posted @ 2009-03-21 13:41 searchDM 阅读(1650) 评论(0) 推荐(0) 编辑
摘要:Hadoop学习笔记二 安装部署内容摘要:本文主要是以安装和使用hadoop-0.12.0为例,指出在部署Hadoop的时候容易遇到的问题以及如何解决。   硬件环境  共有3台机器,均使用的FC5系统,Java使用的是jdk1.6.0。IP配置如下:dbrg-1:202.197.18.72dbrg-2:202.197.18.73dbrg-3:202.197.18.74  这里有一点需要强调的就是... 阅读全文
posted @ 2009-03-21 13:40 searchDM 阅读(876) 评论(0) 推荐(0) 编辑
摘要:Hadoop学习笔记一 简要介绍内容摘要:Lucene并不是一个应用程序,而是提供了一个纯Java的高性能全文索引引擎工具包,它可以方便的嵌入到各种实际应用中实现全文搜索/索引功能。Nutch是一个应用程序,是一个以Lucene为基础实现的搜索引擎应用,Lucene为Nutch提供了文本搜索和索引的API,Nutch不光有搜索的功能,还有数据抓取的功能。   这里先大致介绍一下Hadoop.  本... 阅读全文
posted @ 2009-03-21 13:40 searchDM 阅读(792) 评论(0) 推荐(0) 编辑
摘要:分布式计算开源框架Hadoop入门实践(三)Hadoop基本流程  一个图片太大了,只好分割成为两部分。根据流程图来说一下具体一个任务执行的情况。  在分布式环境中客户端创建任务并提交。   InputFormat做Map前的预处理,主要负责以下工作:  验证输入的格式是否符合JobConfig的输入定义,这个在实现Map和构建Conf的时候就会知道,不定义可以是Writable的任意子类。   ... 阅读全文
posted @ 2009-03-21 13:39 searchDM 阅读(1122) 评论(0) 推荐(0) 编辑
摘要:其实参看Hadoop官方文档已经能够很容易配置分布式框架运行环境了,不过这里既然写了就再多写一点,同时有一些细节需要注意的也说明一下,其实也就是这些细节会让人摸索半天。Hadoop可以单机跑,也可以配置集群跑,单机跑就不需要多说了,只需要按照Demo的运行说明直接执行命令即可。这里主要重点说一下集群配置运行的过程。  环境  7台普通的机器,操作系统都是Linux。内存和CPU就不说了,反正Had... 阅读全文
posted @ 2009-03-21 13:38 searchDM 阅读(1153) 评论(0) 推荐(0) 编辑
摘要:内容摘要:Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等等。   在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《Tiger Concurrent Practice --日志分析并行分解设计与实现》中有所提到。但是由于统计的内容暂时还是十分简单,... 阅读全文
posted @ 2009-03-21 13:37 searchDM 阅读(3636) 评论(2) 推荐(4) 编辑