简单爬虫架构解析
整体架构
主函数

一、 URL管理器
管理即将爬取的URL和已经爬取的URL
URL管理器


二、 网页下载器
用于下载网页
三种urllib实现网页下载,含cookie模拟登陆






三、 网页解析器
用于解析网页,获得有价值数据或者新的待爬取URL填充URL管理器
使用bs4的网页解析器

四、文件输出
文件输出
岑忠满的博客新站点
http://cenzm.xyz

管理即将爬取的URL和已经爬取的URL


用于下载网页






用于解析网页,获得有价值数据或者新的待爬取URL填充URL管理器
