Python 爬虫架构

爬虫架构

URL管理器

URL管理器：管理待抓取URL集合和已抓取URL集合- 防止重复抓取，防止循环抓取

URL管理器存储实现方式

　　1、Python自带 set 集合

　　2、Mysql关系型数据库

　　3、Redis缓存数据库

逻辑流程判断

　　1、添加新URL到待爬取集合中

　　2、判断待添加URL是否在容器中

　　3、判断是否还有待爬取的URL

　　4、获取待爬取URL

　　5、将URL从待爬取移动到已爬取

网页下载器

　　1、Python自带 urllib

　　2、第三方库 requests

网页解析器

　　1、正则表达式

　　2、BeautifulSoup

逻辑流程

　　1、接收HTML网页字符串

　　2、使用解析器解析

　　3、提取价值数据

　　4、提取URL列表

　　

posted @ 2017-02-13 00:59 Vincen_shen 阅读(358) 评论(0) 收藏举报

刷新页面返回顶部