上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 22 下一页
摘要: [ Hadoop 实战:谁是最倒霉的人? ] 这次尝试用 Hadoop 来写一个简单的应用。要解决的问题是这样的:现在我手里有大量的邮件数据,并且我知道每封邮件是正常邮件还是垃圾邮件,现在我想要找出收到的邮件中垃圾邮 件最多的人,亦即找出“谁是最倒霉的人”。 首先是 Map 的过程,输入数据是一封一封的邮件,彼此之间没有任何关联,因此可以很自然地分组处理。Map 将邮件... 阅读全文
posted @ 2010-04-27 22:05 searchDM 阅读(613) 评论(0) 推荐(0) 编辑
摘要: [ 来自谷歌中国Blog ] 和传统的单机或网络应用模式相比,云计算有四个非常显著的特点。 首先,云计算提供了最可靠、最安全的数据存储中心,用户不用再担心数据丢 失、病毒入侵等麻烦。很多人觉得数据只有保存在自己看得见、摸得着的电脑里才最安全,其实不然。你的电脑可能会因为自己不小心而被损坏,或者被病毒攻击, 导致硬盘上的数据无法恢复,而有机会接触你的电脑的不法之徒则可能利用各种机会窃取你的数据。... 阅读全文
posted @ 2010-04-27 22:05 searchDM 阅读(1728) 评论(0) 推荐(0) 编辑
摘要: 两个微型的Map/Reduce框架: FileMap(FM)和BashReduce- FileMap ( http://mfisk.github.com/filemap/ ) 用python写成,只有一个文件,实现了基于文件的并行M/R操作 - 与此异曲同工的是,在bashReduce项目中(http://github.com/erikfrey/bashreduce/tree/master )... 阅读全文
posted @ 2010-04-27 22:04 searchDM 阅读(460) 评论(0) 推荐(0) 编辑
摘要: Hadoop中文文档 ( Aliababa团队翻译 ) http://hadoop.apache.org/core/docs/r0.19.0/cn/quickstart.html 阅读全文
posted @ 2010-04-27 22:04 searchDM 阅读(653) 评论(0) 推荐(0) 编辑
摘要: GlusterFS是一个高层次的分布式文件系统解决方案。通过增加一个逻辑层,对上层使用者掩盖了下面的实现,使用者不用了解也不需知道,文件的存储形式、分布。 内部实现是整合了许多存储块(server)通过Infiniband RDMA或者 Tcp/Ip方式互联的一个并行的网络文件系统,这样的许多存储块可以通过许多廉价的x86主机,通过网络搭建起来。 其相对于传统NAS 、SAN、Raid的优点就是:... 阅读全文
posted @ 2010-04-27 22:01 searchDM 阅读(1215) 评论(0) 推荐(0) 编辑
摘要: CloudEra 提供了较为完整的商业解决方案(免费),从数据导入的Sqoop到管理工具 CloudEra Desktop。http://www.cloudera.com/products-services/ 阅读全文
posted @ 2010-04-27 21:59 searchDM 阅读(198) 评论(0) 推荐(0) 编辑
摘要: Yahoo的Hadoop版本http://developer.yahoo.com/hadoop/distribution/ 阅读全文
posted @ 2010-04-27 21:59 searchDM 阅读(307) 评论(0) 推荐(0) 编辑
摘要: Web 2.0 的一个核心思想就是“群体智慧”,即基于大众行为,为每个用户提供个性化的推荐。这使得如何让用户能更快速更准确的获得所需要的信息,成为了 Web 应用成败的关键。Apache Mahout 是 ASF(Apache Software Foundation)的一个较新的开源项目,提供机器学习领域的一些经典算法的高效实现。本文主要讲述如何基于 Apache Maho... 阅读全文
posted @ 2010-04-27 21:58 searchDM 阅读(632) 评论(1) 推荐(1) 编辑
摘要: Presentation: Map_Reduce and Queues for MySQL Using Gearman Presentation [PDF] 阅读全文
posted @ 2010-04-27 21:55 searchDM 阅读(173) 评论(0) 推荐(0) 编辑
摘要: public class ICTCLASAnalyzer : Analyzer { //定义要过滤的词 public static readonly System.String[] CHINESE_ENGLISH_STOP_WORDS = new string[428]; public string NoisePath = Environment.CurrentDirectory + "\\dat... 阅读全文
posted @ 2010-04-27 21:51 searchDM 阅读(237) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 22 下一页