随笔分类 -  搜索引擎技术

摘要:1、倒排索引相关概念: 文档、文档集合、文档编号(DocId)、单词编号 倒排索引、单词词典、倒排列表、倒排文件 2、带有单词频率、文档频率和出现位置信息的倒排索引实例(实现term->DocID的映射关系,并附加主要的结果排序特征) 3、单词词表存储形式:哈希加链表、B树或B+树 4、倒排列表 在 阅读全文
posted @ 2016-06-12 17:00 CN.SnailRun 阅读(316) 评论(0) 推荐(0)
摘要:1、通用爬虫框架: 选取种子URL-》放入待抓取URL队列-》下载网页形成网页库-》已抓取URL队列-》抽取URL放入待抓取URL队列末尾 已下载网页集合 == 已过期网页集合 == 待下载网页集合 == 可知网页集合 == 不可知网页集合 2、禁抓协议:爬虫禁抓协议(robot.txt) + 网页 阅读全文
posted @ 2016-06-08 16:38 CN.SnailRun 阅读(1284) 评论(0) 推荐(0)