随笔档案「2012年10月26日」：爬虫 ... - 百年coding

2012年10月26日

摘要：如题，随着网络上海量信息的爆炸式增长, 通用搜索引擎面临着索引规模、更新速度和个性化需求等多方面的挑战。面对这些挑战, 适应特定主题和个性化搜索的主题网络爬虫( focusedcrawler or topical crawler) 应运而生。一下是对网络爬虫的四个定义。定义1网络爬虫是一个自动提取网页的程序,它为搜索引擎从Web上下载网页,是搜索引擎的重要组成部分。通用网络爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL列表;在抓取网页的过程中,不断从当前页面上抽取新的URL放入待爬行队列,直到满足系统的停止条件。定义2主题网络爬虫就是根据一定的网页分析算法过滤与主题... 阅读全文

posted @ 2012-10-26 22:48 百年coding 阅读(779) 评论(1) 推荐(0)

[转]如何用C#语言构造蜘蛛程序(网络爬虫实现)

摘要： "蜘蛛"（Spider）是Internet上一种很有用的程序，搜索引擎利用蜘蛛程序将Web页面收集到数据库，企业利用蜘蛛程序监视竞争对手的网站并跟踪变动，个人用户用蜘蛛程序下载Web页面以便脱机使用，开发者利用蜘蛛程序扫描自己的Web检查无效的链接……对于不同的用户，蜘蛛程序有不同的用途。那么，蜘蛛程序到底是怎样工作的呢？蜘蛛是一种半自动的程序，就象现实当中的蜘蛛在它的Web（蜘蛛网）上旅行一样，蜘蛛程序也按照类似的方式在Web链接织成的网上旅行。蜘蛛程序之所以是半自动的，是因为它总是需要一个初始链接（出发点），但此后的运行情况就要由它自己决定了，蜘蛛程序会扫描起始页面包阅读全文

posted @ 2012-10-26 22:29 百年coding 阅读(576) 评论(2) 推荐(1)

用C#实现网络爬虫

摘要：网络爬虫在信息检索与处理中有很大的作用，是收集网络信息的重要工具。接下来就介绍一下爬虫的简单实现。爬虫的工作流程如下爬虫自指定的URL地址开始下载网络资源，直到该地址和所有子地址的指定资源都下载完毕为止。下面开始逐步分析爬虫的实现。1. 待下载集合与已下载集合为了保存需要下载的URL，同时防止重复下载，我们需要分别用了两个集合来存放将要下载的URL和已经下载的URL。因为在保存URL的同时需要保存与URL相关的一些其他信息，如深度，所以这里我采用了Dictionary来存放这些URL。具体类型是Dictionary<string, int> 其中string是Url字符串，int是阅读全文

posted @ 2012-10-26 22:22 百年coding 阅读(746) 评论(2) 推荐(0)