2012年10月26日
摘要: 如题,随着网络上海量信息的爆炸式增长, 通用搜索引擎面临着索引规模、更新速度和个性化需求等多方面的挑战 。面对这些挑战, 适应特定主题和个性化搜索的主题网络爬虫( focusedcrawler or topical crawler) 应运而生。一下是对网络爬虫的四个定义。 定义1网络爬虫是一个自动提取网页的程序,它为搜索引擎从Web上下载网页,是搜索引擎的重要组成部分。通用网络爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL列表;在抓取网页的过程中,不断从当前页面上抽取新的URL放入待爬行队列,直到满足系统的停止条件。 定义2主题网络爬虫就是根据一定的网页分析算法过滤与主题... 阅读全文
posted @ 2012-10-26 22:48 百年coding 阅读(776) 评论(1) 推荐(0)
摘要: "蜘蛛"(Spider)是Internet上一种很有用的程序,搜索引擎利用蜘蛛程序将Web页面收集到数据库,企业利用蜘蛛程序监视竞争对手的网站并跟踪变动,个人用户用蜘蛛程序下载Web页面以便脱机使用,开发者利用蜘蛛程序扫描自己的Web检查无效的链接……对于不同的用户,蜘蛛程序有不同的用途。那么,蜘蛛程序到底是怎样工作的呢? 蜘蛛是一种半自动的程序,就象现实当中的蜘蛛在它的Web(蜘蛛网)上旅行一样,蜘蛛程序也按照类似的方式在Web链接织成的网上旅行。蜘蛛程序之所以是半自动的,是因为它总是需要一个初始链接(出发点),但此后的运行情况就要由它自己决定了,蜘蛛程序会扫描起始页面包 阅读全文
posted @ 2012-10-26 22:29 百年coding 阅读(569) 评论(2) 推荐(1)
摘要: 网络爬虫在信息检索与处理中有很大的作用,是收集网络信息的重要工具。接下来就介绍一下爬虫的简单实现。爬虫的工作流程如下爬虫自指定的URL地址开始下载网络资源,直到该地址和所有子地址的指定资源都下载完毕为止。下面开始逐步分析爬虫的实现。1. 待下载集合与已下载集合为了保存需要下载的URL,同时防止重复下载,我们需要分别用了两个集合来存放将要下载的URL和已经下载的URL。因为在保存URL的同时需要保存与URL相关的一些其他信息,如深度,所以这里我采用了Dictionary来存放这些URL。具体类型是Dictionary<string, int> 其中string是Url字符串,int是 阅读全文
posted @ 2012-10-26 22:22 百年coding 阅读(743) 评论(2) 推荐(0)