摘要: scrapy_redis目前应用最多的一个分布式爬虫框架,与普通的scrapy相比,只需要在原有代码的基础上稍作修改,增加一些简单的配置文件即可实现分布式的数据抓取。本文以1905电影网为例,详细的介绍常见的分布式爬虫的创建与配置。 首先通过scrapy框架,写好爬虫的基本功能部分。然后对爬虫继承的 阅读全文
posted @ 2020-03-24 18:07 helloxiaotang 阅读(360) 评论(0) 推荐(0) 编辑
摘要: requests库是python爬虫中最常见的库,与内置的urllib库相比,它更加简洁高效,是每一个接触爬虫者都务必要掌握的基础;但它也是有缺点的,就是不支持异步操作,虽然可以通过多线程来解决,但当需要发送大量请求时,创建大量的线程会浪费过多的资源;此时出现了一个新的库aiohttp,它是支持异步 阅读全文
posted @ 2020-03-22 11:13 helloxiaotang 阅读(1544) 评论(8) 推荐(1) 编辑
摘要: 与网上的其他滑块验证码不同,腾讯的验证码可以直接通过url请求得到,只需要对url进一步分析,提取出验证码原图的地址,并将图片下载即可。 但据我观察,该url似乎是有两种不同类型的地址格式,需要具体分析。这里,选择其中一种进行实验,源码在文章末尾。 def get_img(self): """ 获取 阅读全文
posted @ 2020-03-22 09:57 helloxiaotang 阅读(2357) 评论(3) 推荐(1) 编辑