scrapy - 随笔分类 - Caionk

request+redis 分布式爬虫

摘要：使用分布式爬取，我的思路是这样的，一台机器爬取指定的url，存到缓存，爬url比解析总是要快吧，一页都有好几十的那种，就算每台机器的速度都一样，爬一次的url够几台机器同时去解析的了接下来就是我们的解析了：因为这个网站需要的数据是动态加载的，我js比较差，也不想去找函数，我就直接使用splash 阅读全文

posted @ 2019-01-11 16:21 Caionk 阅读(705) 评论(0) 推荐(0)

scrapy-redis分布式爬虫

摘要：分布式问题： request队列集中管理去重集中管理储存管理可以上github上面找一下scrapy-redis 相关模块 redis settings相关设置运行分布式爬虫其他的也就差不多一样的了阅读全文

posted @ 2018-10-07 13:31 Caionk 阅读(285) 评论(0) 推荐(0)

scrapy的去重机制

摘要：scrapy是通过hashlib算法转成长度一致的url，然后再通过set集合去重的，有兴趣看源码去重的中间件在scrapy 的 dupefilters.py文件中： --> #去重器 -->有个函数叫这个是调度器每次执行之前都会调用到 request_seen(request) 这个方法这阅读全文

posted @ 2018-10-03 23:55 Caionk 阅读(2818) 评论(0) 推荐(0)

scrapy的暂停与重启

摘要：首先把爬虫写好后————》在同级文件夹新建一个文件夹（类似于日志）info————》接下来打开命令行cd到这个爬虫 ————》输入命令：暂停之后需要重启第一行命令：scrapy crawl spider -s JOBDIR=info/001 尽量在命令行上做阅读全文

posted @ 2018-10-03 23:22 Caionk 阅读(581) 评论(0) 推荐(0)

scrapy实现ip代理池

摘要：首先需要在ip代理的网站爬取有用的ip，保存到数据库中随机在数据库中获取一个ip的代码 Middleware动态设置ip代理阅读全文

posted @ 2018-10-02 23:59 Caionk 阅读(3688) 评论(0) 推荐(0)

使用selenium模拟登陆，手机验证码

摘要：大众点评阅读全文

posted @ 2018-10-02 16:48 Caionk 阅读(3311) 评论(0) 推荐(1)

requests模拟登陆

摘要：常见的状态码简单的模拟登陆保存cookie信息使用cookie登录阅读全文

posted @ 2018-10-02 05:56 Caionk 阅读(794) 评论(0) 推荐(0)

模拟登陆拿到cookie

摘要：模拟登陆代码阅读全文

posted @ 2018-10-01 21:14 Caionk 阅读(223) 评论(0) 推荐(0)

scrapy中间件

摘要：一、概述 1、中间件的作用在scrapy运行的整个过程中，对scrapy框架运行的某些步骤做一些适配自己项目的动作：例如：scrapy内置的httpErrorMiddleware，可以在http请求出错时做一些处理。 2.中间件的使用方法配置settings.py 二、中间件的分类 scrapy的中间件理论上又三种（Scduler Middlew... 阅读全文

posted @ 2018-09-26 19:14 Caionk 阅读(223) 评论(0) 推荐(0)

ArtisticMonk

随笔分类 - scrapy

公告