随笔分类 -  搜索引擎

摘要:索引是计算机科学领域中非常常用的数据结构,比如数据库中的索引。索引的目的就是为了加快查找速度,具体到搜索引擎中,索引更是扮演了非常重要的角色,面对海量的网页内容,如何快速找到包含用户查询关键词的所有网页呢?——这其中就用到了倒排索引! 什么是倒排索引?如何建立倒排索引表?倒排索引表有什么作用?... 阅读全文
posted @ 2019-09-14 21:42 kkbill 阅读(2808) 评论(0) 推荐(0)
摘要:搜索结果排序是搜索引擎最核心的构成部分,很大程度上决定了搜索引擎的质量好坏。虽然搜索引擎在实际结果排序时考虑了上百个相关因子,但最重要的因素还是用户查询与网页内容的相关性。(ps:百度最臭名朝著的“竞价排名”策略,就是在搜索结果排序时,把广告客户给钱最多的排在前列,而不是从内容质量考虑,从而严重影响 阅读全文
posted @ 2019-09-13 16:36 kkbill 阅读(5126) 评论(0) 推荐(0)
摘要:(注:本文转载自阮一峰老师的博文,原文地址:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html) 今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主 阅读全文
posted @ 2019-09-11 21:33 kkbill 阅读(1628) 评论(0) 推荐(0)
摘要:(注:本文转载自阮一峰老师的博文,原文地址:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html) 这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase ext 阅读全文
posted @ 2019-09-11 20:58 kkbill 阅读(4073) 评论(0) 推荐(1)
摘要:Simhash算法是Google应用在网页去重中的一个常用算法,在开始讲解Simhash之前,首先需要了解:什么是网页去重?为什么要进行网页去重?如何进行网页去重,其基本框架是什么? 网页去重,顾名思义,就是过滤掉重复的网页。统计结果表明,近似重复网页的数量占网页总数量的比例较高,即互联网上有很多的 阅读全文
posted @ 2019-09-11 16:54 kkbill 阅读(1464) 评论(2) 推荐(1)