随笔分类 - 云计算
分布式、hadhoop
用python写map reduce程序
摘要:利用hadoop streaming框架,帮助我们在map和reduce之间传递数据,通过stdin和stdout.http://wenku.baidu.com/link?url=R1vj6NWV5nv_aVI8P0G5SNzxOyaDsffGeOJrRT6iA9iYHry3w60hJ9CVAtS1...
阅读全文
大数据读书笔记之第三章——Findding Similar Items
摘要:对于大量的web pages,不可避免的一个问题就是有很多网页是相似的。比如有些网页只是另一网页的剽窃或者镜像。发现这些相似性是大数据处理的一个问题。Jaccada距离:首先,引入一个Jaccad距离来量度两个集合的相似度。定义如下:两个集合S和T之间的相似度为:|S∩T|/|SUT|。例如: S和T之间的相似度为SIM(S,T)=3/8利用这个量度可以很好的解决web pages字面上相似的问题,但是显而易见的问题是,如果逐个字母(或者汉字)对比的话,只是字母层面的相似比较。有可能两篇文章的内容很相似,但是表述的方式不一样,也就是meaning 层面的相似。这在处理新闻等网页时,就很重要了。
阅读全文
SLH(Location Sensitive Hash)学习
摘要:考虑一下这个场景,使用网络爬虫高速爬取大量的网页内容,如果想把这些网页进行实时聚类,并从中提取每个网页聚类的主题.我们应该怎么样去做对于普通或常见的聚类算法,比如K-means,或Hierarchical聚类,无法适用于这个常见,对于这些聚类算法无法进行incremental聚类,即在聚类开始前必须知道整个数据集,而这个场景中的数据集是随着爬虫不断增多的.而且这些聚类算法的performance不够高,比如对于K-means需要不断的partition以达到比较好的聚类效果.所以向来聚类算法在我的印象中是低效的,而面对这样一个需要实时数据递增处理的场景,我们需要一种one-shot的高效算法,
阅读全文
hadoop学习笔记(一)--简介
摘要:Hadoop 是什么?Hadoop是一个提供分布式存储和计算能力的,具有对大型数据集的数据分割和并行计算的能力的平台。由上千台hosts组成的cluster(云)可以达到千兆级的存储和计算能力。一个Hadoop平台的核心组成有两个:分布式的计算(利用的是一个MapReduce的框架)和分布式的存储(一个分布式的文件系统叫做HDFS),高层次的结构图如下:HDFS:MapReduce:程序员要做的事情就是定义map和reduce函数,map函数用来输出key/value tuples,然后交给reduce函数生成最后的输出。伪代码如下:map函数有可能产生零个或者多个输出,当条件不满足时,产生零
阅读全文