会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
helloxiaotang
博客园
首页
新随笔
联系
订阅
管理
2020年3月24日
分布式爬虫的创建与配置——实操演练
摘要: scrapy_redis目前应用最多的一个分布式爬虫框架,与普通的scrapy相比,只需要在原有代码的基础上稍作修改,增加一些简单的配置文件即可实现分布式的数据抓取。本文以1905电影网为例,详细的介绍常见的分布式爬虫的创建与配置。 首先通过scrapy框架,写好爬虫的基本功能部分。然后对爬虫继承的
阅读全文
posted @ 2020-03-24 18:07 helloxiaotang
阅读(383)
评论(0)
推荐(0)
2020年3月22日
微博关键词爬虫——基于requests和aiohttp
摘要: requests库是python爬虫中最常见的库,与内置的urllib库相比,它更加简洁高效,是每一个接触爬虫者都务必要掌握的基础;但它也是有缺点的,就是不支持异步操作,虽然可以通过多线程来解决,但当需要发送大量请求时,创建大量的线程会浪费过多的资源;此时出现了一个新的库aiohttp,它是支持异步
阅读全文
posted @ 2020-03-22 11:13 helloxiaotang
阅读(1649)
评论(8)
推荐(1)
滑块验证码(腾讯)——基于selenium,pillow实现
摘要: 与网上的其他滑块验证码不同,腾讯的验证码可以直接通过url请求得到,只需要对url进一步分析,提取出验证码原图的地址,并将图片下载即可。 但据我观察,该url似乎是有两种不同类型的地址格式,需要具体分析。这里,选择其中一种进行实验,源码在文章末尾。 def get_img(self): """ 获取
阅读全文
posted @ 2020-03-22 09:57 helloxiaotang
阅读(2488)
评论(3)
推荐(1)
公告