上一页 1 2 3 4 5 6 ··· 28 下一页
摘要: Matplotlib基础知识 Matplotlib中的基本图表包括的元素 x轴和y轴 axis水平和垂直的轴线 x轴和y轴刻度 tick刻度标示坐标轴的分隔,包括最小刻度和最大刻度 x轴和y轴刻度标签 tick label表示特定坐标轴的值 绘图区域(坐标系) axes实际绘图的区域 坐标系标题 t 阅读全文
posted @ 2019-05-14 21:11 答&案 阅读(411) 评论(0) 推荐(0) 编辑
摘要: 删除重复数据 使用duplicated()函数检测重复的行,返回元素为布尔类型的Series对象,每个元素对应一行,如果该行不是第一次出现,则元素为True 创建具有重复元素行的dataframe数据 使用duplicated查看所有重复元素行 使用drop去除重复数据 使用drop_duplica 阅读全文
posted @ 2019-05-14 20:13 答&案 阅读(657) 评论(0) 推荐(1) 编辑
摘要: redis分布式部署 scrapy框架是否可以自己实现分布式? 基于scrapy-redis组件的分布式爬虫 scrapy-redis组件中为我们封装好了可以被多台机器共享的调度器和管道,我们可以直接使用并实现分布式数据爬取。 搭建流程 实现方式: 分布式实现流程:上述两种不同方式的分布式实现流程是 阅读全文
posted @ 2019-05-09 20:44 答&案 阅读(251) 评论(0) 推荐(0) 编辑
摘要: 简介: CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能外,还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是”LinkExtractors链接提取器“。Spider是所有爬虫的基类,其设计原则只是为了爬取start_url列表中网页,而从爬取到的 阅读全文
posted @ 2019-05-09 19:58 答&案 阅读(981) 评论(0) 推荐(0) 编辑
摘要: scrapy下载中间件 下载中间件(Downloader Middlewares) 位于scrapy引擎和下载器之间的一层组件 作用: (1):引擎将请求传递给下载器过程中,下载中间件可以对请求进行一系列处理,比如设置请求的User-Agent,设置代理等 (2):在下载器完成将Response传递 阅读全文
posted @ 2019-05-08 17:52 答&案 阅读(304) 评论(0) 推荐(0) 编辑
摘要: Scrapy的日志等级 请求传参 - 在某些情况下,我们爬取的数据不在同一个页面中,例如,我们爬取一个电影网站,电影的名称,评分在一级页面,而要爬取的其他电影详情在其二级子页面中。这时我们就需要用到请求传参。 - 案例展示:爬取www.id97.com电影网,将一级页面中的电影名称,类型,评分一级二 阅读全文
posted @ 2019-05-07 17:48 答&案 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 实现方案:使用Request方法手动发起请求。 示例一 实例二 post请求 重写start_requests方法,让其发起post请求 阅读全文
posted @ 2019-05-07 17:42 答&案 阅读(370) 评论(0) 推荐(0) 编辑
摘要: 持续化流程 爬取糗事百科首页中的段子和作者的数据爬取下来,进行持久化存储 爬虫文件:qiushibaike.py items文件: items.py 管道文件: pipelines.py 配置文件:settings.py 基于mysql的管道存储 将item数据写入mysql数据库 pipeline 阅读全文
posted @ 2019-05-07 17:06 答&案 阅读(545) 评论(0) 推荐(0) 编辑
摘要: Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板 scrapy安装 Linux安装: Windows安装: 基础使用: 创建项目: 项目结构: 创建 阅读全文
posted @ 2019-05-06 21:02 答&案 阅读(168) 评论(0) 推荐(0) 编辑
摘要: 线程池(适当使用) 单线程+异步协程(推荐) event_loop:事件循环,相当于一个无限循环,我们可以把一些函数注册到这个事件循环上,当满足某些条件的时候,函数就会被循环执行。程序是按照设定的顺序从头执行到尾,运行的次数也是完全按照设定。当在编写异步程序时,必然其中有部分程序的运行耗时是比较久的 阅读全文
posted @ 2019-05-06 17:58 答&案 阅读(1184) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 28 下一页