Tekkaman

导航

 

2013年10月27日

摘要: 【Website蝴蝶结构】 网页的其正向链接连结在一起表现为一种蝴蝶结结构。 1、蝴蝶结中部(SCC, Strongly Connected Componnet) 这种网页彼此相连。 2、蝴蝶结左部(IN) 导航页居多,通过这类网页,可以正向链接到SCC。 3、蝴蝶结右部(OUT) 权威性网页,因为大多数SCC都链接向了这些站点。 4、蝴蝶结的须脚(Tendrils) 无论采用何种方法都只能遍历有限的网页。 所以,scrawler尽量选择IN部分的网页,另外可以看出,正向链接远大于反向链接的网页,就是权威网页。【Website直径】 从网页A链接到网页... 阅读全文
posted @ 2013-10-27 13:08 Tekkaman 阅读(1200) 评论(0) 推荐(0)
 
摘要: 【Information Retrieval II】 搜索引擎分类: 1、目录式搜索引擎。 2、全文搜索引擎。 3、元搜索引擎(Meta-Search Engine)。 搜索引擎的4个阶段:下载(crawl) -> 分析(segment & pagerank)-> 索引(indexing)-> 查询(retrieval)。 crawler,也就是传说中的爬虫,或者蜘蛛。 下载、分析、索引被称为“离线部分”(offline part),也叫做在线系统;查询部分被称为“在线部分“(online part),也叫做离线系统。在线系统需要毫秒级的访问速度,而离线系统无时间.. 阅读全文
posted @ 2013-10-27 00:10 Tekkaman 阅读(264) 评论(0) 推荐(0)