网络爬虫的工作流程

(1) 网络爬虫由控制节点 、爬虫节点 、资源库组成;以搜索引擎或聚焦网络爬虫为例,先确定好要爬取的主题和要爬取的初始URL
(2) 控制节点调用爬虫节点对初始URL进行爬取,爬行过程中,会爬到一些新的URL,会根据主题过滤掉一些URL,然后把剩下的URL根据优先级添加到URL队列等待爬取
(3) 爬虫节点爬取到的数据会存放到资源库中,资源库对爬取到的资源进行分析并建立索引,当用户检索对应信息时,可以从索引中进行检索并呈现给用户

 

 

 

 

 

    

posted @ 2019-03-14 15:55  孔雀东南飞  阅读(1999)  评论(0编辑  收藏  举报