IP代理提取池

IP代理提取池

0x001

反爬虫之IP地址记录

IP地址记录主要是针对恶意爬虫,防止其短时间内大量发起HTTP请求,请求访问网站,造成网站资源的侵占。IP地址记录无非是因为爬虫访问同一个网站的速度过快。

​ 摘自:《反爬虫AST原理与还原混淆实战》

对于这种反爬虫,一般会有两种办法。

  1. 延迟访问,直到服务器对一个IP地址限制时间过去。
  2. 构建IP代理池

本文则是对构建IP代理池的一种实现而实现的一直工具。

0x002

在专业的代理IP网站购买的IP一般都会有提取时间限制、IP存活时间限制等等。

而我们实现的大部分爬虫都是并发爬虫。对于这种限制肯定会很头疼。

而如何最大效率的完成每次需要的IP的提取则是IP代理池要完成的工作。

项目介绍

实现功能

  1. 线程安全的单ip提取功能
  2. ip存活时间的检查
  3. ip复用

预计实现

  1. ip有效检查
  2. 分布式代理池
  3. 预提取功能
  4. 效率优化...

项目地址

项目地址

posted @ 2021-10-08 14:02  Kamisora  阅读(228)  评论(0)    收藏  举报