crawler technical spec
爬虫技术文档
一、爬虫的运行效果
首先爬虫工作时要对初始爬取的URL进行输入,点击开始后爬虫开始进行爬取工作。当爬虫将线程全部爬完,并且将要爬取的队列为空时,爬虫停止工作。当然也可以人为停止爬虫的工作。只需要点击停止按钮。
爬取时,爬虫界面显示:当前开的线程数,工作的线程数,爬取过的URL地址。下载的各个类的文件数量,和网页数。
爬虫爬取到的数据文件都放到一个固定的地址。
二、爬虫构成的几个重要包
1、crawler包:
是爬虫的main函数所在,所有功能最后的集成,效果的展现都由这个类来体现。
具体的就是执行爬虫的工作步骤。
2、queue包:
主要工作是对URL进行处理,包含两个队列,一个是已经爬取过的URL队列。一个是将要爬取的URL队列。
其中,对判断队列是否已经爬取过用hash map,对每个URL用MD5算法做处理,之后存入hash map.
3、界面包
界面类就是要在数据更新后及时的展现给用户。
4、页面分析包
对网页进行分析,和robot类进行交互,确定哪些东西可以爬取,将有用的链接放入到queue的将要爬取队列,资源链接给到下载类。由下载类进行下载。
5、下载包
接到要下载的链接后,把资源下载下来,给分类类进行分类。之后存入到一个固定的地方。
6、robot包
对robot文件进行解析,确定可以使用的链接和信息。
7、分类包
确定下载下来的数据的数据类型。
8、线程包
在对URL进行操作时开启一个线程,一个是解析IP,之后是解析到IP后对资源进行下载。
三、具体的算法
浙公网安备 33010602011771号