云计算 - 随笔分类 - ahujack

用python写map reduce程序

摘要：利用hadoop streaming框架，帮助我们在map和reduce之间传递数据，通过stdin和stdout.http://wenku.baidu.com/link?url=R1vj6NWV5nv_aVI8P0G5SNzxOyaDsffGeOJrRT6iA9iYHry3w60hJ9CVAtS1... 阅读全文

posted @ 2014-09-16 18:13 ahujack 阅读(185) 评论(0) 推荐(0)

大数据读书笔记之第三章——Findding Similar Items

摘要：对于大量的web pages，不可避免的一个问题就是有很多网页是相似的。比如有些网页只是另一网页的剽窃或者镜像。发现这些相似性是大数据处理的一个问题。Jaccada距离：首先，引入一个Jaccad距离来量度两个集合的相似度。定义如下：两个集合S和T之间的相似度为：|S∩T|/|SUT|。例如： S和T之间的相似度为SIM(S,T)=3/8利用这个量度可以很好的解决web pages字面上相似的问题，但是显而易见的问题是，如果逐个字母（或者汉字）对比的话，只是字母层面的相似比较。有可能两篇文章的内容很相似，但是表述的方式不一样，也就是meaning 层面的相似。这在处理新闻等网页时，就很重要了。阅读全文

posted @ 2013-05-20 17:19 ahujack 阅读(386) 评论(0) 推荐(0)

SLH（Location Sensitive Hash）学习

摘要：考虑一下这个场景,使用网络爬虫高速爬取大量的网页内容,如果想把这些网页进行实时聚类,并从中提取每个网页聚类的主题.我们应该怎么样去做对于普通或常见的聚类算法,比如K-means,或Hierarchical聚类,无法适用于这个常见,对于这些聚类算法无法进行incremental聚类,即在聚类开始前必须知道整个数据集,而这个场景中的数据集是随着爬虫不断增多的.而且这些聚类算法的performance不够高,比如对于K-means需要不断的partition以达到比较好的聚类效果.所以向来聚类算法在我的印象中是低效的,而面对这样一个需要实时数据递增处理的场景,我们需要一种one-shot的高效算法, 阅读全文

posted @ 2013-05-03 15:13 ahujack 阅读(455) 评论(0) 推荐(0)

hadoop学习笔记（一）--简介

摘要：Hadoop 是什么？Hadoop是一个提供分布式存储和计算能力的，具有对大型数据集的数据分割和并行计算的能力的平台。由上千台hosts组成的cluster（云）可以达到千兆级的存储和计算能力。一个Hadoop平台的核心组成有两个：分布式的计算（利用的是一个MapReduce的框架）和分布式的存储（一个分布式的文件系统叫做HDFS)，高层次的结构图如下：HDFS:MapReduce:程序员要做的事情就是定义map和reduce函数，map函数用来输出key/value tuples,然后交给reduce函数生成最后的输出。伪代码如下：map函数有可能产生零个或者多个输出，当条件不满足时，产生零阅读全文

posted @ 2013-04-15 13:58 ahujack 阅读(150) 评论(0) 推荐(0)

随笔分类 - 云计算

公告