Python爬虫基础
1. 爬虫简介
- 爬虫:一段自动抓取互联网信息的程序。
![在这里插入图片描述]()
- 价值:互联网数据,为我所用!
![在这里插入图片描述]()
2. 简单爬虫架构
Python简单爬虫架构

Python简单爬虫架构的动态运行流程

3. URL管理器
RUL管理器
- 管理待爬取RUL集合和已抓取URL集合。
- 防止重复抓取、防止循环抓取
![在这里插入图片描述]()
实现方式
- 内存
如Python中:
- 待爬取URL集合:
set() - 已爬取URL集合:
set()
- 关系数据库
如MySQL:
urls(url, is_crawled)
- 缓存数据库
如Redis:
- 待爬取URL集合:
set - 已爬取URL集合:
set
4. 网页下载器(urllib2)
网页下载器:将互联网上RUL对应的网页下载到本地的工具。

Python有哪几种网页下载器呢?
- Python官方基础模块:
urllib2 - 更强大的第三方包:
requests




浙公网安备 33010602011771号