搜索引擎重复网页发现技术分析
摘要:中科院软件所 张俊林TIMESTAMP:2006年6月1日一. 介绍统计结果表明,近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如 HTML, Postscript),文献[Models and Algorithms for Duplicate Document Detection 1999年]将内容重复归结为以下四个类型:1.如果2篇文档内容和格式上毫无差别,则这种重复叫做full-layout duplicat
阅读全文
Google Hilltop算法
摘要:Hilltop算法同PageRank算法同样是搜索引擎结果排序的一项专利。PageRank页面级别系统单纯根据网页上的外部链接站点的数量,质量及页面等级决定该网页的“重要性”,但却忽略了链接页面对查询条件的主题相关性,导致一些网页即使主题与该查询条件并无关系,但也由于偶而提及该查询关键词而在搜索结果中得到很好的排名。从而影响了搜索结果的相关性与精准性。 早在2000年,美国加州多伦多大学计算机系的Krishna Bharat意识到基于页面等级的PR排名系统中存在瑕玼,于是提出了“Hilltop”新算法,并于次年1月份申请了Hilltop专利权,Google成为受让方。吴泽欣有一篇关于Googl
阅读全文
VIPS算法对搜索引擎的意义[转载]
摘要:基于VIPS(视觉式版面切割算法)建立链接结构指望单靠开展链接数量和链接文字来推广链接活动的日子已经屈指可数。勿容置疑,PageRank和Hilltop算法体系中所蕴涵的链接广泛度理论仍占据相当重要性,但为了进一步提高搜索结果对用户查询条件的相关性,同时也为了巩固排名算法对作弊技术的防护性,那些大门大派的搜索引擎始终在其链接算法中不断糅合新的元素。其中一个新元素就是最近一段时间在一篇名为“块级链接分析”的论文中提到的“视觉式版面切割”。有兴趣的读者可以访问原文出处:http://research.microsoft.com/research/pubs/view.aspx?tr_id=690。V
阅读全文