摘要: 这期折腾了比较长的时间,从稿件筹备到整理,都不容易,但总算还是出来了,希望能给大家带来些许帮助。在这里再次感谢为这期《Hadoop开发者》做出贡献的童鞋们,you're so nice!目 录mooon海量数据处理平台架构演变计算不均衡问题在Hive中的解决办法Join算子在Hadoop中的实现配置Hive元数据DB为PostgreSQLZooKeeper权限管理机制ZooKeeper服务器工作原理和流程ZooKeeper实现共享锁Hadoop最佳实践通过Hadoop的API管理JobHadoop集群的配置调优Hadoop平台的Java规范及经验MapReduce开发经验总结Hadoo 阅读全文
posted @ 2011-04-14 22:22 spork 阅读(2738) 评论(0) 推荐(0) 编辑
摘要: 最近项目需要实现一个类似Pig的用于分析海量数据的高级数据流语言,其中涉及语法分析的技术,鄙人非计科出生,没学过编译原理,了解点计算理论,倒腾这个实在没啥经验,只能借助开源项目了。  网上G了下,一般推荐JavaCC和ANTLR,Pig用的是JavaCC,不过已经很久没更新了,我没找到JavaCC对应的C/C++ runtime,项目语言定的是C/C++,只能放弃。  ANTLR在多语言支持上就做得很好,基本主流语言都支持了,不过最新的ANTLR3目前只支持C,不支持Cpp的,有点遗憾,但至少满足基本要求了。  下面这两篇入门不错,推荐:  http://blog.csdn.net/NewMa 阅读全文
posted @ 2011-01-07 18:28 spork 阅读(3245) 评论(1) 推荐(1) 编辑
摘要: 经过上一篇的分析,我们知道了Hadoop的作业提交目标是Cluster还是Local,与conf文件夹内的配置文件参数有着密切关系,不仅如此,其它的很多类都跟conf有关,所以提交作业时切记把conf放到你的classpath中。  因为Configuration是利用当前线程上下文的类加载器来加载资源和文件的,所以这里我们采用动态载入的方式,先添加好对应的依赖库和资源,然后再构建一个URLCla... 阅读全文
posted @ 2010-04-21 21:49 spork 阅读(13877) 评论(6) 推荐(5) 编辑
摘要: 前面我们所分析的部分其实只是Hadoop作业提交的前奏曲,真正的作业提交代码是在MR程序的main里,RunJar在最后会动态调用这个main,在(二)里有说明。我们下面要做的就是要比RunJar更进一步,让作业提交能在编码时就可实现,就像Hadoop Eclipse Plugin那样可以对包含Mapper和Reducer的MR类直接Run on Hadoop。  一般来说,每个MR程序都会有这么... 阅读全文
posted @ 2010-04-21 20:31 spork 阅读(12279) 评论(0) 推荐(1) 编辑
摘要: Alibaba DFS这个PDF是我从阿里巴巴的《互联网时代的软件革命》这本书里扫描出来,放到Hadoop群里给大家共享的,但时不时发现有人来寻这个PDF,原来在我的小站上有下载链接,但现在挂了,所以在网上貌似没的下了。这里我再上传一次吧,方便想下载的人。  ADFS这个东西到底只是虚构的还是真实存在,我不得而知,请找阿里人询问。  如果这东西侵权或干啥的,请联系我,我撤掉。  >>点... 阅读全文
posted @ 2010-04-21 20:02 spork 阅读(1775) 评论(0) 推荐(0) 编辑
摘要: 通过前面两篇文章的分析,对Hadoop的作业提交流程基本明了了,下面我们就可以开始编写代码模拟这个流程。  第一步要做的是添加Hadoop的依赖库和配置文件到classpath。最常用的方法就是用一个容器先把各个要添加到classpath的文件或文件夹存储起来,后面再作为类加载器的URL搜索路径。  上面的classPath变量就是我们声明用来装载classpath组件的容器。[代码]  由于需要... 阅读全文
posted @ 2010-04-12 17:10 spork 阅读(6885) 评论(5) 推荐(1) 编辑
摘要: 上一篇我们分析了bin/hadoop脚本,知道了提交一个Hadoop作业所需要的基本设置以及真正执行任务提交的类。这一篇我们就来分析这个提交任务的类org.apache.hadoop.util.RunJar,看它内部具体又做了些什么。 RunJar是Hadoop中的一个工具类,结构很简单,只有两个方法:main和unJar。我们从main开始一步步分析。 main首先检查传递参数是否符合要求,然后... 阅读全文
posted @ 2010-04-11 10:20 spork 阅读(9607) 评论(0) 推荐(0) 编辑
摘要: 目录 1、Hadoop 业界资讯......................................... - 1 - 2、Nutch + Hadoop 构建商用分布式搜索引擎的问题探究....... - 5 -3、支持自定义爬虫的Nutch segment 文件存储接口改写.......... - 11 - 4、Nutch 中mapreduce 应用的几个特殊点................ 阅读全文
posted @ 2010-04-08 23:05 spork 阅读(2995) 评论(0) 推荐(0) 编辑
摘要: [代码]  这样的命令,各位玩Hadoop的估计已经调用过NN次了,每次写好一个Project或对Project做修改后,都必须打个Jar包,然后再用上面的命令提交到Hadoop Cluster上去运行,在开发阶段那是极其繁琐的。程序员是“最懒”的,既然麻烦肯定是要想些法子减少无谓的键盘敲击,顺带延长键盘寿命。比如有的人就写了些Shell脚本来自动编译、打包,然后提交到Ha... 阅读全文
posted @ 2010-04-07 11:43 spork 阅读(20052) 评论(2) 推荐(5) 编辑
摘要: 最近看到调度器这一块,发现Hadoop官方文档中有关公平调度器(Fair Scheduler Guide)和容量调度器(Capacity Scheduler Guide)部分的文档还没有汉化,Google了下也未发现有相关汉化,So,我班门弄斧,抛砖引玉一下了。这里先奉上公平调度器的中文版。由于我一直用Cloudera Hadoop 0.20.1+152的版本,所以这个汉化也是基于里面的文档来的。... 阅读全文
posted @ 2010-04-02 21:44 spork 阅读(15321) 评论(2) 推荐(2) 编辑
摘要: 由于在Ubuntu系统中,程序默认启动都是显示在左上角的,这样我就经常需要把它拉回到中间来。但是在拉的过程中我经常会触碰到顶上隐藏的Panel(已设置自动隐藏),当然在平时由于操作习惯,我也会经常触发顶上隐藏的Panel。平时就忍着忍着过了,今日实在心痒就想把顶上的那个Panel换到其它地方去,但换左换右都是感觉不太舒服。就在这时,悲剧的事情发生了,我选择了放置在下方(原来下方已有一个固定的Pan... 阅读全文
posted @ 2010-03-14 21:30 spork 阅读(2085) 评论(4) 推荐(1) 编辑
摘要:      今天给家里购置了一台TP-LINK的无线路由器,想在家里组建一个无线局域网。但原来家里已经有了一个集成Modem加路由的有线路由器了,所以得跟它连接起来混合使用。刚开始忘了咋配置了,先是自己折腾了下,但折腾不出来。只好上网查了,但不知是我倒霉还是咋滴,看到的配置到我手里配了就是不成功(后来发现是自己折腾晕了,有些配置好了的时候,没插网线到有线路由器... 阅读全文
posted @ 2010-02-16 14:03 spork 阅读(1981) 评论(0) 推荐(0) 编辑
摘要: 这篇文章跟大家分享一下我这两天折腾域名、Google Apps和App Engine的一些事。  原来,我在新网某代理下曾注册过一个cn和com域名,但不幸在某运动中cn域名和空间歇菜了,只剩下了一个com域名。最近,看见国内众多站长都把国际域名转移到国外,于是我也跟风想把我那com域名转出,但是没想到在国内转出域名还真是麻烦的要死,寄这资料寄那资料的,代理还爱理不理的(不过网上说没禁止转出和加收... 阅读全文
posted @ 2010-02-09 18:33 spork 阅读(3050) 评论(0) 推荐(0) 编辑
摘要: Sort Benchmark是一个专门从事排序基准评估的非盈利机构,该机构每年都会举办一次排序基准评估比赛,很多公司和学术机构都会带着他们最新的研究成果来参加这个比赛,以评估他们的研究成果。在2007之前,该机构的排序基准评估比赛的主办和管理主要都是由Jim Gray来负责,他是数据库界的超级牛人、1998年图灵奖获得者。但不幸的是,JimGray在2007年1月28日早上独自乘船离开San Fr... 阅读全文
posted @ 2010-02-06 03:13 spork 阅读(5610) 评论(1) 推荐(1) 编辑
摘要: 我们论坛出的第一期Hadoop电子杂志, 欢迎大家下载.目录1 Hadoop介绍2 Hadoop在国内应用情况3 Hadoop源代码eclipse编译教程7 在Windows上安装Hadoop教程13 在Linux上安装Hadoop教程19 在Windows上使用eclipse编写Hadoop应用程序24 在Windows中使用Cygwin安装HBase28 Nutch 与Hado... 阅读全文
posted @ 2010-01-28 17:39 spork 阅读(3965) 评论(0) 推荐(0) 编辑