爬虫页面分析及源码实现

 

 

 

 

 

调度程序:

先建立五个模块

 

spider_main 爬虫的总调度程序

 

 

 

 

 

 while循环加入异常处理

 

URL管理器的编写(UrlManager)

 

Html_downloader模块

 

 HtmlParse模块

 

 

 

 

Outputer 模块

 

 

 

posted @ 2017-05-18 20:48  胡卫雄  阅读(554)  评论(0编辑  收藏  举报