上一页 1 2 3 4 5 6 7 8 9 10 ··· 18 下一页
摘要: 一个MapReduce作业是一个用户希望被执行的工作单元:它包括输入数据,MapReduce程序和配置信息。Hadoop通过把作业分成任务(tasks,分为map tasks 和reduce tasks两种)的形式来运行该作业。 有两种节点用来控制每个作业的执行:jobtracker通过把tasks分发到各个tasktrackers来运行,并协调系统上运行的所有作业。tasktrackers运行任务,并向jobtracker报告进度信息,jobtracker保持了每个作业的全局进度。如果一个任务失败了,jobtracker会把这个任务重新分发到另一个tasktracker上(也就是说,j... 阅读全文
posted @ 2012-12-08 08:57 beanmoon 阅读(3699) 评论(6) 推荐(1)
摘要: 本《hadoop学习笔记》系列是在《hadoop: the definitive guide 3th》的基础上通过网上额外搜集资料和查看hadoop的API再加上自己的实践方面的理解编写而成的,主要针对hadoop的特性和功能学习以及Hadoop生态圈中的其他工具(如Pig,Hive,Hbase,Avro等等)。另外设计到hadoop编程方面的请查阅另一个笔记系列:《Hadoop编程笔记》。如果有同学同时也在研究这本书,欢迎沟通交流,在下能力有限,还望各路大神看到有不对的地方加以指正~~(本系列学习笔记还正在整理中,以后会陆续发布)。 本书第二章以一个很浅显的例子为大家提供了hadoop... 阅读全文
posted @ 2012-12-07 09:52 beanmoon 阅读(8010) 评论(1) 推荐(3)
摘要: Hadoop Release 0.20.0的API包括了一个全新的API:Context,有时候也称为上下文对象,此对象的设计使得在未来进行扩展更加容易。 后续的hadoop版本--如1.x--已经完成了大部分的API 更新。新的API类型上不兼容以前的API,所以以前的应用程序需要重写才能使新的API发挥其作用 。新的API和旧的API之间有下面几个明显的区别:1. 新的API倾向于使用抽象类,而不是接口,因为这更容易扩展。例如,你可以添加一个方法(附带默认的实现)到一个抽象类而不需修改类之前的实现方法。在新的API中,Mapper和Reducer是抽象类。有关更多抽象类与接口的区别请参见这 阅读全文
posted @ 2012-12-06 16:51 beanmoon 阅读(2397) 评论(1) 推荐(2)
摘要: 在Java语言中, abstract class 和interface是支持抽象类定义的两种机制。正是由于这两种机制的存在,才赋予了Java强大的 面向对象能力。abstract class和interface之间在对于抽象类定义的支持方面具有很大的相似性,甚至可以相互替换,因此很多开发者在进行抽象类定义时对于abstract class和interface的选择显得比较随意。其实,两者之间还是有很大的区别的,对于它们的选择甚至反映出对于问题领域本质的理解、对于设计意图的理解是否正确、合理。本文将对它们之间的区别进行一番剖析,试图给开发者提供一个在二者之间进行选择的依据。 理解抽象类 ... 阅读全文
posted @ 2012-12-06 16:02 beanmoon 阅读(21148) 评论(4) 推荐(2)
摘要: 本《hadoop编程笔记》系列主要针对Hadoop编程方面的学习,包括主要类及接口的用法和作用以及编程方法,最佳实践等,如果你想更多的学习Hadoop本身所具有的特性和功能及其附属的生态圈(如Pig,Hive,Hbase等),请参阅另一个笔记系列《Hadoop学习笔记》,俺深知自己能力有限,写的不对的地方还望各位海涵,同时给俺指点一二~~ 本文说明:本文来源于hadoop1.0.4 API。1. MapperMaps are the individual tasks which transform input records into a intermediate records. Th... 阅读全文
posted @ 2012-12-06 12:50 beanmoon 阅读(8570) 评论(0) 推荐(0)
摘要: 几乎一年没有写博客了,说没时间那是借口,唯一的原因是,年纪越大越发觉自己肤浅。有些想法还没提笔,就发现很幼稚,就不敢发出来贻笑大方了。这次先给大家说个小故事:从前有三个屌丝,聚在一起做网络,提供免费的网络服务,砸锅卖铁,通宵达旦,除了卖肾啥都做了。3年后终于做到了五百万用户,对于年轻人来说,能把五百万人玩弄于鼓掌之间,已经是很牛逼轰轰的事了,不过用户越多,成本越高,每年服务器、带宽租金、房租水电、广告运营等成本,已经达到了十七八万,屌丝们不得不面对一个终极问题:如何盈利?屌丝们定了三盘沙县水饺,围着一箱子的冰啤酒开始计算:按照最近一月的登陆情况来看,四百万个账号已经不活跃了,真正有商业价值的只 阅读全文
posted @ 2012-12-03 12:37 beanmoon 阅读(457) 评论(2) 推荐(0)
摘要: 说明:通过本文对MapReduce编程模型循序渐进的说明,你可以对MapReduce工作机制有一个总体上的很好的把握,是来自IBM developerWorks的一篇非常好的文章(转载)!Google 在 2001 年发布图像搜索功能时,只有 2.5 亿索引图像,不到 10 年,这个巨大的搜索功能已经可以检索超过 100 亿个图像了,每分钟有 35 小时的内容上传到 YouTube。据称,Twitter 每天平均处理 5500 万 tweet。今年早些时候,搜索功能每天记录 6 亿条查询记录。这就是我们讨论大数据的意义所在。如此大规模的数据一度仅限于大企业、学校和政府机构 — 这些机构有能力购 阅读全文
posted @ 2012-11-30 13:02 beanmoon 阅读(1690) 评论(0) 推荐(0)
摘要: 10年前,Eric Brewer教授提出了非常著名的CAP理论,后人也论证了CAP理论的正确性。CAP理论指出:一个分布式系统不可能同时满足一致性(Consistency),可用性(Availibility)和分区容忍性(Partition Tolerance)这三个需求。最多只能同时满足其中的两个。架构师不要将精力浪费在如何设计能满足三者的完美分布式系统,而是应该进行取舍。一致性(Consistency):对于分布式的存储系统,一个数据往往会存在多份。简单的说,一致性会让客户对数据的修改操作(增/删/改)要么在所有的数据副本(在英文文献中常称为Replica)全部成功,要么全部失败。即,修改 阅读全文
posted @ 2012-11-30 10:23 beanmoon 阅读(1226) 评论(0) 推荐(0)
摘要: (1). 修改linux的时间可以使用date指令在命令行输入:date显示当前时间 Fri Aug 3 14:15:16 CST 2007date -s按字符串方式修改时间可以只修改日期,不修改时间,输入: date -s 2007-08-03只修改时间,输入:date -s 14:15:00同时修改日期时间,注意要加双引号,日期与时间之间有一空格,输入:date -s "2007-08-03 14:15:00"修改完后,记得输入:sudo clock -w (在debian中是sudo hwclock -w命令)把系统时间写入CMOS(2). 经典LAMP架构实例:Sy 阅读全文
posted @ 2012-11-28 16:19 beanmoon 阅读(416) 评论(0) 推荐(0)
摘要: 使用过新浪博客的人都知道,新浪博客的首页有访问量统计功能,迁移到博客园之后发现博客园却没有这项功能,所幸博客园在后台管理的设置选项中有一个公告栏和设置页首页脚代码功能,使用起来非常灵活和方便。借此我们可以通过网络上提过的其他强大的插件来为获取更加详细的访问统计信息(博客园这难道是借鉴了传统unix中“一个软件工具只做好一件事”的设计原则吗~~^_^),本教程所使用的方法对于其他提供类似公告栏机制的任何网络页面都适用,而不仅仅限于博客园,以下为详细步骤:1. 如果你想在博客园的首页显示你的访问数据,可以采用以下方法: 1)flagcounter.com:进入这个网站,然后根据首页的自定义界面选. 阅读全文
posted @ 2012-11-27 20:47 beanmoon 阅读(5583) 评论(17) 推荐(14)
上一页 1 2 3 4 5 6 7 8 9 10 ··· 18 下一页