Scrapy - 随笔分类 - Rannie`

scrapy 案例

摘要：登录翻页 import scrapy class BhcSpider(scrapy.Spider): name = 'bhc' # allowed_domains = ['www.bhc.com'] start_urls = ['https://www.bhc.com/list'] login_u 阅读全文

posted @ 2021-06-08 12:18 Rannie` 阅读(82) 评论(0) 推荐(0)

Scrapy 中间件

摘要：Scrapy 中间件什么是中间件如果有学过 django 的同学，应该对这个名词不陌生了，在 django 中，中间件可以对请求做统一批量的处理那么在爬虫中，中间件的作用也是做批量处理的，比如把所有请求的请求头添加一个值等等等。由于爬虫是一个发请求，获取响应的过程，所以在 scrapy 框架阅读全文

posted @ 2021-06-06 18:47 Rannie` 阅读(126) 评论(0) 推荐(0)

Scrapy 数据格持久化

摘要：爬取到的数据想要进行保存的话，首先要对数据进行格式化话，这样数据格式统一才方便进行保存数据格式化 item.py 在我们创建的爬虫项目中 item.py 这个文件就是负责进行格式化数据的 import scrapy # 这里我们可以创建多个class,每个对象中的字段就是我们要格式化的数据 # 阅读全文

posted @ 2021-06-05 17:54 Rannie` 阅读(108) 评论(0) 推荐(0)

Scrapy 过滤器

摘要：Scrapy 过滤器当我们在爬取网页的时候可能会遇到一个调转连接会在不同页面出现，这个时候如果我们的爬虫程序不能识别出该链接是已经爬取过的话，就会造成一种重复不必要的爬取。所以我们要对我们即将要爬取的网页进行过滤，把重复的网页链接过滤掉指纹过滤器去重处理可以避免将重复性的数据保存到数据库中阅读全文

posted @ 2021-06-05 13:27 Rannie` 阅读(355) 评论(0) 推荐(0)

Scrapy 爬虫文件

摘要：Scrapy 使用 1、必须创建一个新的Scrapy项目。进入您打算存储代码的目录中，运行下列命令创建 Scrapy 项目 # 常用的三个命令 scrapy startproject mzt_crawl # 生成项目 scrapy genspider mzt example.com # 会创建一阅读全文

posted @ 2021-06-03 19:46 Rannie` 阅读(227) 评论(0) 推荐(0)

Scrapy 使用

摘要：Scrapy 使用 1、必须创建一个新的Scrapy项目。进入您打算存储代码的目录中，运行下列命令创建 Scrapy 项目 # 常用的三个命令 scrapy startproject test_spider # 生成项目 scrapy genspider mzt example.com # 会创阅读全文

posted @ 2021-06-01 18:57 Rannie` 阅读(56) 评论(0) 推荐(0)

Scrapy 架构

摘要：Scrapy 架构引擎(EGINE)（大总管）引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件调度器(SCHEDULER) 一个 URL 优先级队列，存放引擎发送过来的 requests 请求，由它来决定下一个要抓取的网址是什么，同时去除重复的网址下载器(DOWLOAD 阅读全文

posted @ 2021-06-01 14:24 Rannie` 阅读(76) 评论(0) 推荐(0)

Scrapy 安装

摘要：Scrapy 安装 Windows Scrapy的安装是基于Twisted进行安装的,下载Twisted网址按照自己的python版本进行下载，注意，cp后为python版本号，python38就是cp38；32位就是win32，64位就是win_amd64 下载完成后，cmd 进入当前路劲 pi 阅读全文

posted @ 2021-06-01 12:20 Rannie` 阅读(257) 评论(0) 推荐(0)

随笔分类 - Scrapy

公告