IP代理提取池
IP代理提取池
0x001
反爬虫之IP地址记录
IP地址记录主要是针对恶意爬虫,防止其短时间内大量发起HTTP请求,请求访问网站,造成网站资源的侵占。IP地址记录无非是因为爬虫访问同一个网站的速度过快。
摘自:《反爬虫AST原理与还原混淆实战》
对于这种反爬虫,一般会有两种办法。
- 延迟访问,直到服务器对一个IP地址限制时间过去。
- 构建IP代理池
本文则是对构建IP代理池的一种实现而实现的一直工具。
0x002
在专业的代理IP网站购买的IP一般都会有提取时间限制、IP存活时间限制等等。
而我们实现的大部分爬虫都是并发爬虫。对于这种限制肯定会很头疼。
而如何最大效率的完成每次需要的IP的提取则是IP代理池要完成的工作。
项目介绍
实现功能
- 线程安全的单ip提取功能
- ip存活时间的检查
- ip复用
预计实现
- ip有效检查
- 分布式代理池
- 预提取功能
- 效率优化...

浙公网安备 33010602011771号