一日一技：如何捅穿Cloud Flare的5秒盾（转）

经常写爬虫的同学，肯定知道 Cloud Flare 的五秒盾。当你没有使用正常的浏览器访问网站的时候，它会返回如下这段文字：

Checking your browser before accessing xxx.

This process is automatic. Your browser will redirect to your requested content shortly.

Please allow up to 5 seconds…
即使你把 Headers 带完整，使用代理 IP，也会被它发现。我们来看一个例子。Mountain View Whisman students sent home after children test positive for COVID-19 ^[1] 这篇文章，使用正常浏览器访问，效果如下图所示：

直接查看原始的网页源代码，可以看到，新闻标题和正文就在源代码里面，说明新闻的标题和正文都是后端渲染的，不是异步加载。如下图所示：

现在，我们使用 requests，带上完整的请求头来访问这个网站，效果如下图所示：
网站识别到了爬虫行为，成功把爬虫请求挡住了。很多同学在这个时候就已经束手无策了。因为这是爬虫的第一次请求就被挡住了，所以网站不是检测的 IP 或者访问频率，所以即使用代理 IP 也无济于事。而现在即使带上了完整的请求头都能被发现，那还有什么办法绕过这个检测呢？

实际上，要绕过这个5秒盾非常简单，只需要使用一个第三方库，叫做cloudscraper。我们可以使用pip来安装：
python3 -m pip install cloudscraper
安装完成以后，只需要使用3行代码就能绕过 Cloud Flare 的5秒盾：
import cloudscraper
scraper = cloudscraper.create_scraper()
resp = scraper.get('目标网站').text
我们还是以上面的网站为例：
import cloudscraper
from lxml.html import fromstring

scraper = cloudscraper.create_scraper()
resp = scraper.get('https://mv-voice.com/news/2021/05/04/mountain-view-whisman-students-sent-home-after-children-test-positive-for-covid-19').text
selector = fromstring(resp)
title = selector.xpath('//h1/text()')[0]
print(title)
运行效果如下图所示：

破盾成功。

CloudScraper^[2] 非常强大，它可以突破 Cloud Flare 免费版各个版本的五秒盾。而且它的接口和 requests 保持一致。原来用 requests 怎么写代码，现在只需要把requests.xxx改成scraper.xxx就可以了。

转自：微信公号：未闻code:https://mp.weixin.qq.com/s?spm=a2c6h.12873639.article-detail.5.34b68c37e8r54K&__biz=MzI2MzEwNTY3OQ==&mid=2648980828&idx=1&sn=0b053e7284442c8e6beb073a61ec8b29&scene=21#wechat_redirect

posted @ 2023-06-21 17:21 阿布_alone 阅读(1698) 评论(0) 收藏举报

刷新页面返回顶部

阿布alone

一日一技：如何捅穿Cloud Flare的5秒盾（转）

公告