上一页 1 2 3 4 5 6 7 8 9 10 ··· 18 下一页
摘要: Hadoop Release 0.20.0的API包括了一个全新的API:Context,有时候也称为上下文对象,此对象的设计使得在未来进行扩展更加容易。 后续的hadoop版本--如1.x--已经完成了大部分的API 更新。新的API类型上不兼容以前的API,所以以前的应用程序需要重写才能使新的API发挥其作用 。新的API和旧的API之间有下面几个明显的区别:1. 新的API倾向于使用抽象类,而不是接口,因为这更容易扩展。例如,你可以添加一个方法(附带默认的实现)到一个抽象类而不需修改类之前的实现方法。在新的API中,Mapper和Reducer是抽象类。有关更多抽象类与接口的区别请参见这 阅读全文
posted @ 2012-12-06 16:51 beanmoon 阅读(2379) 评论(1) 推荐(2) 编辑
摘要: 在Java语言中, abstract class 和interface是支持抽象类定义的两种机制。正是由于这两种机制的存在,才赋予了Java强大的 面向对象能力。abstract class和interface之间在对于抽象类定义的支持方面具有很大的相似性,甚至可以相互替换,因此很多开发者在进行抽象类定义时对于abstract class和interface的选择显得比较随意。其实,两者之间还是有很大的区别的,对于它们的选择甚至反映出对于问题领域本质的理解、对于设计意图的理解是否正确、合理。本文将对它们之间的区别进行一番剖析,试图给开发者提供一个在二者之间进行选择的依据。 理解抽象类 ... 阅读全文
posted @ 2012-12-06 16:02 beanmoon 阅读(21047) 评论(4) 推荐(2) 编辑
摘要: 本《hadoop编程笔记》系列主要针对Hadoop编程方面的学习,包括主要类及接口的用法和作用以及编程方法,最佳实践等,如果你想更多的学习Hadoop本身所具有的特性和功能及其附属的生态圈(如Pig,Hive,Hbase等),请参阅另一个笔记系列《Hadoop学习笔记》,俺深知自己能力有限,写的不对的地方还望各位海涵,同时给俺指点一二~~ 本文说明:本文来源于hadoop1.0.4 API。1. MapperMaps are the individual tasks which transform input records into a intermediate records. Th... 阅读全文
posted @ 2012-12-06 12:50 beanmoon 阅读(8438) 评论(0) 推荐(0) 编辑
摘要: 几乎一年没有写博客了,说没时间那是借口,唯一的原因是,年纪越大越发觉自己肤浅。有些想法还没提笔,就发现很幼稚,就不敢发出来贻笑大方了。这次先给大家说个小故事:从前有三个屌丝,聚在一起做网络,提供免费的网络服务,砸锅卖铁,通宵达旦,除了卖肾啥都做了。3年后终于做到了五百万用户,对于年轻人来说,能把五百万人玩弄于鼓掌之间,已经是很牛逼轰轰的事了,不过用户越多,成本越高,每年服务器、带宽租金、房租水电、广告运营等成本,已经达到了十七八万,屌丝们不得不面对一个终极问题:如何盈利?屌丝们定了三盘沙县水饺,围着一箱子的冰啤酒开始计算:按照最近一月的登陆情况来看,四百万个账号已经不活跃了,真正有商业价值的只 阅读全文
posted @ 2012-12-03 12:37 beanmoon 阅读(443) 评论(2) 推荐(0) 编辑
摘要: 说明:通过本文对MapReduce编程模型循序渐进的说明,你可以对MapReduce工作机制有一个总体上的很好的把握,是来自IBM developerWorks的一篇非常好的文章(转载)!Google 在 2001 年发布图像搜索功能时,只有 2.5 亿索引图像,不到 10 年,这个巨大的搜索功能已经可以检索超过 100 亿个图像了,每分钟有 35 小时的内容上传到 YouTube。据称,Twitter 每天平均处理 5500 万 tweet。今年早些时候,搜索功能每天记录 6 亿条查询记录。这就是我们讨论大数据的意义所在。如此大规模的数据一度仅限于大企业、学校和政府机构 — 这些机构有能力购 阅读全文
posted @ 2012-11-30 13:02 beanmoon 阅读(1615) 评论(0) 推荐(0) 编辑
摘要: 10年前,Eric Brewer教授提出了非常著名的CAP理论,后人也论证了CAP理论的正确性。CAP理论指出:一个分布式系统不可能同时满足一致性(Consistency),可用性(Availibility)和分区容忍性(Partition Tolerance)这三个需求。最多只能同时满足其中的两个。架构师不要将精力浪费在如何设计能满足三者的完美分布式系统,而是应该进行取舍。一致性(Consistency):对于分布式的存储系统,一个数据往往会存在多份。简单的说,一致性会让客户对数据的修改操作(增/删/改)要么在所有的数据副本(在英文文献中常称为Replica)全部成功,要么全部失败。即,修改 阅读全文
posted @ 2012-11-30 10:23 beanmoon 阅读(1203) 评论(0) 推荐(0) 编辑
摘要: (1). 修改linux的时间可以使用date指令在命令行输入:date显示当前时间 Fri Aug 3 14:15:16 CST 2007date -s按字符串方式修改时间可以只修改日期,不修改时间,输入: date -s 2007-08-03只修改时间,输入:date -s 14:15:00同时修改日期时间,注意要加双引号,日期与时间之间有一空格,输入:date -s "2007-08-03 14:15:00"修改完后,记得输入:sudo clock -w (在debian中是sudo hwclock -w命令)把系统时间写入CMOS(2). 经典LAMP架构实例:Sy 阅读全文
posted @ 2012-11-28 16:19 beanmoon 阅读(408) 评论(0) 推荐(0) 编辑
摘要: 使用过新浪博客的人都知道,新浪博客的首页有访问量统计功能,迁移到博客园之后发现博客园却没有这项功能,所幸博客园在后台管理的设置选项中有一个公告栏和设置页首页脚代码功能,使用起来非常灵活和方便。借此我们可以通过网络上提过的其他强大的插件来为获取更加详细的访问统计信息(博客园这难道是借鉴了传统unix中“一个软件工具只做好一件事”的设计原则吗~~^_^),本教程所使用的方法对于其他提供类似公告栏机制的任何网络页面都适用,而不仅仅限于博客园,以下为详细步骤:1. 如果你想在博客园的首页显示你的访问数据,可以采用以下方法: 1)flagcounter.com:进入这个网站,然后根据首页的自定义界面选. 阅读全文
posted @ 2012-11-27 20:47 beanmoon 阅读(5498) 评论(17) 推荐(14) 编辑
摘要: 1. Maven简介1. Maven的出发点在进行软件开发的过程中,无论什么项目,采用何种技术,使用何种编程语言,我们 都要重复相同的开发步骤:编码,测试,打包,发布,文档。实际上这些步骤是完全重复性的工作。那为什么让软件开发人员去重复这些工作?开发人员的主要任务 应该是关注商业逻辑并去实现它,而不是把时间浪费在学习如何在不同的环境中去打包,发布,。。。Maven正是为了将开发人员从这些任务中解脱出来而诞生的。2. Maven能做什么?Maven是由早期为Jakarta Turbine定制的构建工具发展而来的,现在成为了一个独立的软件项目管理工具。Maven能够:1)理解并管理整个软件开发周期 阅读全文
posted @ 2012-11-26 23:14 beanmoon 阅读(8334) 评论(0) 推荐(1) 编辑
摘要: IntroductionMaven, aYiddish wordmeaningaccumulator of knowledge, was originally started as an attempt to simplify the build processes in the Jakarta Turbine project. There were several projects each with their own Ant build files that were all slightly different and JARs were checked into CVS. We wa 阅读全文
posted @ 2012-11-26 12:20 beanmoon 阅读(314) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 18 下一页