随笔分类 - 移动互联网

摘要：对于大量的web pages，不可避免的一个问题就是有很多网页是相似的。比如有些网页只是另一网页的剽窃或者镜像。发现这些相似性是大数据处理的一个问题。Jaccada距离：首先，引入一个Jaccad距离来量度两个集合的相似度。定义如下：两个集合S和T之间的相似度为：|S∩T|/|SUT|。例如： S和T之间的相似度为SIM(S,T)=3/8利用这个量度可以很好的解决web pages字面上相似的问题，但是显而易见的问题是，如果逐个字母（或者汉字）对比的话，只是字母层面的相似比较。有可能两篇文章的内容很相似，但是表述的方式不一样，也就是meaning 层面的相似。这在处理新闻等网页时，就很重要了。阅读全文

posted @ 2013-05-20 17:19 ahujack 阅读(378) 评论(0) 推荐(0)

[转]关于协同过滤的好文章

摘要：“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制，实现方法，其中还涉及一些基本的优化方法，例如聚类和分类的应用。同时在理论讲解的基础上，还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略，进行策略优化，构建高效的推荐引擎的方法。本文作为这个系列的第一篇文章，将深入介绍推荐引擎的工作原理，和其中涉及的各种推荐机制，以及它们各自的优缺点和适用场景，帮助用户清楚的了解和快速构建适合自己的推荐引擎。信息发现如今已经进入了一个数据爆炸的时代，随着 Web 2.0 的发展， Web 已经变成数据分享的平台，那么，如何让人们在海量的数据中想要找到他们需要的信阅读全文

posted @ 2013-05-20 08:49 ahujack 阅读(227) 评论(0) 推荐(0)

随笔分类 - 移动互联网

公告