helloxiaotang

2020年3月24日

摘要： scrapy_redis目前应用最多的一个分布式爬虫框架，与普通的scrapy相比，只需要在原有代码的基础上稍作修改，增加一些简单的配置文件即可实现分布式的数据抓取。本文以1905电影网为例，详细的介绍常见的分布式爬虫的创建与配置。首先通过scrapy框架，写好爬虫的基本功能部分。然后对爬虫继承的阅读全文

posted @ 2020-03-24 18:07 helloxiaotang 阅读(397) 评论(0) 推荐(0)

2020年3月22日

微博关键词爬虫——基于requests和aiohttp

摘要： requests库是python爬虫中最常见的库，与内置的urllib库相比，它更加简洁高效，是每一个接触爬虫者都务必要掌握的基础；但它也是有缺点的，就是不支持异步操作，虽然可以通过多线程来解决，但当需要发送大量请求时，创建大量的线程会浪费过多的资源；此时出现了一个新的库aiohttp，它是支持异步阅读全文

posted @ 2020-03-22 11:13 helloxiaotang 阅读(1658) 评论(8) 推荐(1)

滑块验证码（腾讯）——基于selenium，pillow实现

摘要：与网上的其他滑块验证码不同，腾讯的验证码可以直接通过url请求得到，只需要对url进一步分析，提取出验证码原图的地址，并将图片下载即可。但据我观察，该url似乎是有两种不同类型的地址格式，需要具体分析。这里，选择其中一种进行实验，源码在文章末尾。 def get_img(self): """ 获取阅读全文

posted @ 2020-03-22 09:57 helloxiaotang 阅读(2530) 评论(3) 推荐(1)

公告