crawler technical spec

爬虫技术文档

一、爬虫的运行效果

首先爬虫工作时要对初始爬取的URL进行输入，点击开始后爬虫开始进行爬取工作。当爬虫将线程全部爬完，并且将要爬取的队列为空时，爬虫停止工作。当然也可以人为停止爬虫的工作。只需要点击停止按钮。

爬取时，爬虫界面显示：当前开的线程数，工作的线程数，爬取过的URL地址。下载的各个类的文件数量，和网页数。

爬虫爬取到的数据文件都放到一个固定的地址。

二、爬虫构成的几个重要包

1、crawler包：

是爬虫的main函数所在，所有功能最后的集成，效果的展现都由这个类来体现。

具体的就是执行爬虫的工作步骤。

2、queue包：

主要工作是对URL进行处理，包含两个队列，一个是已经爬取过的URL队列。一个是将要爬取的URL队列。

其中，对判断队列是否已经爬取过用hash map，对每个URL用MD5算法做处理，之后存入hash map.

3、界面包

界面类就是要在数据更新后及时的展现给用户。

4、页面分析包

对网页进行分析，和robot类进行交互，确定哪些东西可以爬取，将有用的链接放入到queue的将要爬取队列，资源链接给到下载类。由下载类进行下载。

5、下载包

接到要下载的链接后，把资源下载下来，给分类类进行分类。之后存入到一个固定的地方。

6、robot包

对robot文件进行解析，确定可以使用的链接和信息。

7、分类包

确定下载下来的数据的数据类型。

8、线程包

在对URL进行操作时开启一个线程，一个是解析IP，之后是解析到IP后对资源进行下载。

三、具体的算法

posted on 2012-11-06 12:57 百年coding 阅读(260) 评论(0) 收藏举报