随笔分类 -  爬虫

摘要:redis分布式部署 scrapy框架是否可以自己实现分布式? 基于scrapy-redis组件的分布式爬虫 scrapy-redis组件中为我们封装好了可以被多台机器共享的调度器和管道,我们可以直接使用并实现分布式数据爬取。 搭建流程 实现方式: 分布式实现流程:上述两种不同方式的分布式实现流程是 阅读全文
posted @ 2019-05-09 20:44 答&案 阅读(267) 评论(0) 推荐(0)
摘要:简介: CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能外,还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是”LinkExtractors链接提取器“。Spider是所有爬虫的基类,其设计原则只是为了爬取start_url列表中网页,而从爬取到的 阅读全文
posted @ 2019-05-09 19:58 答&案 阅读(1002) 评论(0) 推荐(0)
摘要:scrapy下载中间件 下载中间件(Downloader Middlewares) 位于scrapy引擎和下载器之间的一层组件 作用: (1):引擎将请求传递给下载器过程中,下载中间件可以对请求进行一系列处理,比如设置请求的User-Agent,设置代理等 (2):在下载器完成将Response传递 阅读全文
posted @ 2019-05-08 17:52 答&案 阅读(326) 评论(0) 推荐(0)
摘要:Scrapy的日志等级 请求传参 - 在某些情况下,我们爬取的数据不在同一个页面中,例如,我们爬取一个电影网站,电影的名称,评分在一级页面,而要爬取的其他电影详情在其二级子页面中。这时我们就需要用到请求传参。 - 案例展示:爬取www.id97.com电影网,将一级页面中的电影名称,类型,评分一级二 阅读全文
posted @ 2019-05-07 17:48 答&案 阅读(178) 评论(0) 推荐(0)
摘要:实现方案:使用Request方法手动发起请求。 示例一 实例二 post请求 重写start_requests方法,让其发起post请求 阅读全文
posted @ 2019-05-07 17:42 答&案 阅读(379) 评论(0) 推荐(0)
摘要:持续化流程 爬取糗事百科首页中的段子和作者的数据爬取下来,进行持久化存储 爬虫文件:qiushibaike.py items文件: items.py 管道文件: pipelines.py 配置文件:settings.py 基于mysql的管道存储 将item数据写入mysql数据库 pipeline 阅读全文
posted @ 2019-05-07 17:06 答&案 阅读(564) 评论(0) 推荐(0)
摘要:Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板 scrapy安装 Linux安装: Windows安装: 基础使用: 创建项目: 项目结构: 创建 阅读全文
posted @ 2019-05-06 21:02 答&案 阅读(173) 评论(0) 推荐(0)
摘要:线程池(适当使用) 单线程+异步协程(推荐) event_loop:事件循环,相当于一个无限循环,我们可以把一些函数注册到这个事件循环上,当满足某些条件的时候,函数就会被循环执行。程序是按照设定的顺序从头执行到尾,运行的次数也是完全按照设定。当在编写异步程序时,必然其中有部分程序的运行耗时是比较久的 阅读全文
posted @ 2019-05-06 17:58 答&案 阅读(1193) 评论(0) 推荐(0)
摘要:selenium 谷歌浏览器驱动下载 查看驱动和浏览器版本映射关系 访问百度 滑动 PhantomJs 谷歌无头浏览器 前进和后退 动作链一 动作链二 阅读全文
posted @ 2019-05-05 21:33 答&案 阅读(2565) 评论(0) 推荐(0)
摘要:代理:代理服务器 cookie的应用和处理 如何提升requests模块爬取数据的效率 多进程或者多线程(不建议) 线程池或者进程池(适当使用) 单线程+异步协程(推荐) 云打码平台注册和使用 相关的门户网站在进行登录的时候,如果用户连续登录的次数超过3次或者5次的时候,就会在登录页中动态生成验证码 阅读全文
posted @ 2019-05-05 20:58 答&案 阅读(758) 评论(0) 推荐(0)
摘要:爬取搜狗指定词条搜索后的页面数据 爬取搜狗指定词条搜索后的页面数据 爬取百度翻译,页面中有可能会存在动态加载的数据 爬取的是豆瓣电影中的电影详情数据 注意:页面中有些情况下会包含动态加载的数据 爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据http://125.35.6.84: 阅读全文
posted @ 2019-04-29 16:42 答&案 阅读(177) 评论(0) 推荐(0)