随笔分类 -  移动互联网

大数据读书笔记之第三章——Findding Similar Items
摘要:对于大量的web pages,不可避免的一个问题就是有很多网页是相似的。比如有些网页只是另一网页的剽窃或者镜像。发现这些相似性是大数据处理的一个问题。Jaccada距离:首先,引入一个Jaccad距离来量度两个集合的相似度。定义如下:两个集合S和T之间的相似度为:|S∩T|/|SUT|。例如: S和T之间的相似度为SIM(S,T)=3/8利用这个量度可以很好的解决web pages字面上相似的问题,但是显而易见的问题是,如果逐个字母(或者汉字)对比的话,只是字母层面的相似比较。有可能两篇文章的内容很相似,但是表述的方式不一样,也就是meaning 层面的相似。这在处理新闻等网页时,就很重要了。 阅读全文
posted @ 2013-05-20 17:19 ahujack 阅读(363) 评论(0) 推荐(0) 编辑
[转]关于协同过滤的好文章
摘要:“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制,实现方法,其中还涉及一些基本的优化方法,例如聚类和分类的应用。同时在理论讲解的基础上,还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略,进行策略优化,构建高效的推荐引擎的方法。本文作为这个系列的第一篇文章,将深入介绍推荐引擎的工作原理,和其中涉及的各种推荐机制,以及它们各自的优缺点和适用场景,帮助用户清楚的了解和快速构建适合自己的推荐引擎。信息发现如今已经进入了一个数据爆炸的时代,随着 Web 2.0 的发展, Web 已经变成数据分享的平台,那么,如何让人们在海量的数据中想要找到他们需要的信 阅读全文
posted @ 2013-05-20 08:49 ahujack 阅读(210) 评论(0) 推荐(0) 编辑