随笔分类 -  scrapy

摘要:使用分布式爬取,我的思路是这样的,一台机器爬取指定的url,存到缓存,爬url比解析总是要快吧,一页都有好几十的那种,就算每台机器的速度都一样,爬一次的url够几台机器同时去解析的了 接下来就是我们的解析了: 因为这个网站需要的数据是动态加载的,我js比较差,也不想去找函数,我就直接使用splash 阅读全文
posted @ 2019-01-11 16:21 Caionk 阅读(705) 评论(0) 推荐(0)
摘要:分布式问题: request队列集中管理 去重集中管理 储存管理 可以上github上面找一下scrapy-redis 相关模块 redis settings相关设置 运行分布式爬虫 其他的也就差不多一样的了 阅读全文
posted @ 2018-10-07 13:31 Caionk 阅读(285) 评论(0) 推荐(0)
摘要:scrapy是通过hashlib算法转成长度一致的url,然后再通过set集合去重的,有兴趣看源码 去重的中间件在scrapy 的 dupefilters.py文件中: --> #去重器 -->有个函数叫 这个是调度器 每次执行之前都会调用到 request_seen(request) 这个方法 这 阅读全文
posted @ 2018-10-03 23:55 Caionk 阅读(2818) 评论(0) 推荐(0)
摘要:首先把爬虫写好后————》在同级文件夹新建一个文件夹(类似于日志)info————》接下来打开命令行cd到这个爬虫 ————》输入命令: 暂停之后需要重启第一行命令:scrapy crawl spider -s JOBDIR=info/001 尽量在命令行上做 阅读全文
posted @ 2018-10-03 23:22 Caionk 阅读(581) 评论(0) 推荐(0)
摘要:首先需要在ip代理的网站爬取有用的ip,保存到数据库中 随机在数据库中获取一个ip的代码 Middleware动态设置ip代理 阅读全文
posted @ 2018-10-02 23:59 Caionk 阅读(3688) 评论(0) 推荐(0)
摘要:大众点评 阅读全文
posted @ 2018-10-02 16:48 Caionk 阅读(3311) 评论(0) 推荐(1)
摘要:常见的状态码 简单的模拟登陆 保存cookie信息 使用cookie登录 阅读全文
posted @ 2018-10-02 05:56 Caionk 阅读(794) 评论(0) 推荐(0)
摘要:模拟登陆代码 阅读全文
posted @ 2018-10-01 21:14 Caionk 阅读(223) 评论(0) 推荐(0)
摘要:一、概述 1、中间件的作用 在scrapy运行的整个过程中,对scrapy框架运行的某些步骤做一些适配自己项目的动作: 例如:scrapy内置的httpErrorMiddleware,可以在http请求出错时做一些处理。 2.中间件的使用方法 配置settings.py 二、中间件的分类 scrapy的中间件理论上又三种(Scduler Middlew... 阅读全文
posted @ 2018-09-26 19:14 Caionk 阅读(223) 评论(0) 推荐(0)