爬虫 - 随笔分类 - 答&案

分布式爬虫

摘要：redis分布式部署 scrapy框架是否可以自己实现分布式？基于scrapy-redis组件的分布式爬虫 scrapy-redis组件中为我们封装好了可以被多台机器共享的调度器和管道，我们可以直接使用并实现分布式数据爬取。搭建流程实现方式：分布式实现流程：上述两种不同方式的分布式实现流程是阅读全文

posted @ 2019-05-09 20:44 答&案阅读(274) 评论(0) 推荐(0)

crawlSpider全站数据爬取

摘要：简介: CrawlSpider其实是Spider的一个子类，除了继承到Spider的特性和功能外，还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是”LinkExtractors链接提取器“。Spider是所有爬虫的基类，其设计原则只是为了爬取start_url列表中网页，而从爬取到的阅读全文

posted @ 2019-05-09 19:58 答&案阅读(1012) 评论(0) 推荐(0)

scrapy 中间件

摘要：scrapy下载中间件下载中间件（Downloader Middlewares）位于scrapy引擎和下载器之间的一层组件作用: (1):引擎将请求传递给下载器过程中,下载中间件可以对请求进行一系列处理,比如设置请求的User-Agent,设置代理等 (2):在下载器完成将Response传递阅读全文

posted @ 2019-05-08 17:52 答&案阅读(337) 评论(0) 推荐(0)

scrapy框架的日志等级和请求传参

摘要：Scrapy的日志等级请求传参 - 在某些情况下，我们爬取的数据不在同一个页面中，例如，我们爬取一个电影网站，电影的名称，评分在一级页面，而要爬取的其他电影详情在其二级子页面中。这时我们就需要用到请求传参。 - 案例展示：爬取www.id97.com电影网，将一级页面中的电影名称，类型，评分一级二阅读全文

posted @ 2019-05-07 17:48 答&案阅读(187) 评论(0) 推荐(0)

scrapy 递归解析和post请求

摘要：实现方案：使用Request方法手动发起请求。示例一实例二 post请求重写start_requests方法，让其发起post请求阅读全文

posted @ 2019-05-07 17:42 答&案阅读(389) 评论(0) 推荐(0)

scrapy管道持久化存储

摘要：持续化流程爬取糗事百科首页中的段子和作者的数据爬取下来,进行持久化存储爬虫文件:qiushibaike.py items文件: items.py 管道文件: pipelines.py 配置文件：settings.py 基于mysql的管道存储将item数据写入mysql数据库 pipeline 阅读全文

posted @ 2019-05-07 17:06 答&案阅读(570) 评论(0) 推荐(0)

scrapy框架简介和基础应用

摘要：Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板 scrapy安装 Linux安装: Windows安装: 基础使用: 创建项目: 项目结构: 创建阅读全文

posted @ 2019-05-06 21:02 答&案阅读(186) 评论(0) 推荐(0)

高性能的异步爬虫

摘要：线程池(适当使用) 单线程+异步协程(推荐) event_loop：事件循环，相当于一个无限循环，我们可以把一些函数注册到这个事件循环上，当满足某些条件的时候，函数就会被循环执行。程序是按照设定的顺序从头执行到尾，运行的次数也是完全按照设定。当在编写异步程序时，必然其中有部分程序的运行耗时是比较久的阅读全文

posted @ 2019-05-06 17:58 答&案阅读(1207) 评论(0) 推荐(0)

selenium处理动态加载数据

摘要：selenium 谷歌浏览器驱动下载查看驱动和浏览器版本映射关系访问百度滑动 PhantomJs 谷歌无头浏览器前进和后退动作链一动作链二阅读全文

posted @ 2019-05-05 21:33 答&案阅读(2574) 评论(0) 推荐(0)

模拟登陆/代理服务器/cookie/

摘要：代理：代理服务器 cookie的应用和处理如何提升requests模块爬取数据的效率多进程或者多线程（不建议）线程池或者进程池（适当使用）单线程+异步协程（推荐）云打码平台注册和使用相关的门户网站在进行登录的时候，如果用户连续登录的次数超过3次或者5次的时候，就会在登录页中动态生成验证码阅读全文

posted @ 2019-05-05 20:58 答&案阅读(770) 评论(0) 推荐(0)

示例

摘要：爬取搜狗指定词条搜索后的页面数据爬取搜狗指定词条搜索后的页面数据爬取百度翻译,页面中有可能会存在动态加载的数据爬取的是豆瓣电影中的电影详情数据注意：页面中有些情况下会包含动态加载的数据爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据http://125.35.6.84: 阅读全文

posted @ 2019-04-29 16:42 答&案阅读(189) 评论(0) 推荐(0)

随笔分类 - 爬虫

公告