随笔分类 -  Scrapy

scrapy 案例
摘要:登录 翻页 import scrapy class BhcSpider(scrapy.Spider): name = 'bhc' # allowed_domains = ['www.bhc.com'] start_urls = ['https://www.bhc.com/list'] login_u 阅读全文
posted @ 2021-06-08 12:18 Rannie` 阅读(82) 评论(0) 推荐(0)
Scrapy 中间件
摘要:Scrapy 中间件 什么是中间件 如果有学过 django 的同学,应该对这个名词不陌生了,在 django 中,中间件可以对请求做统一批量的处理 那么在爬虫中,中间件的作用也是做批量处理的,比如把所有请求的请求头添加一个值等等等。 由于爬虫是一个发请求,获取响应的过程,所以在 scrapy 框架 阅读全文
posted @ 2021-06-06 18:47 Rannie` 阅读(126) 评论(0) 推荐(0)
Scrapy 数据格持久化
摘要:爬取到的数据想要进行保存的话, 首先要对数据进行格式化话,这样数据格式统一才方便进行保存 数据格式化 item.py 在我们创建的爬虫项目中 item.py 这个文件就是负责进行格式化数据的 import scrapy # 这里我们可以创建多个class,每个对象中的字段就是我们要格式化的数据 # 阅读全文
posted @ 2021-06-05 17:54 Rannie` 阅读(108) 评论(0) 推荐(0)
Scrapy 过滤器
摘要:Scrapy 过滤器 当我们在爬取网页的时候可能会遇到一个调转连接会在不同页面出现,这个时候如果我们的爬虫程序不能识别出 该链接是已经爬取过的话,就会造成一种重复不必要的爬取。所以我们要对我们即将要爬取的网页进行过滤,把重 复的网页链接过滤掉 指纹过滤器 去重处理可以避免将重复性的数据保存到数据库中 阅读全文
posted @ 2021-06-05 13:27 Rannie` 阅读(355) 评论(0) 推荐(0)
Scrapy 爬虫文件
摘要:Scrapy 使用 1、必须创建一个新的Scrapy项目。 进入您打算存储代码的目录中,运行下列命令 创建 Scrapy 项目 # 常用的三个命令 scrapy startproject mzt_crawl # 生成项目 scrapy genspider mzt example.com # 会创建一 阅读全文
posted @ 2021-06-03 19:46 Rannie` 阅读(227) 评论(0) 推荐(0)
Scrapy 使用
摘要:Scrapy 使用 1、必须创建一个新的Scrapy项目。 进入您打算存储代码的目录中,运行下列命令 创建 Scrapy 项目 # 常用的三个命令 scrapy startproject test_spider # 生成项目 scrapy genspider mzt example.com # 会创 阅读全文
posted @ 2021-06-01 18:57 Rannie` 阅读(56) 评论(0) 推荐(0)
Scrapy 架构
摘要:Scrapy 架构 引擎(EGINE)(大总管) 引擎负责 控制系统 所有 组件之间的数据流,并在某些动作发生时触发事件 调度器(SCHEDULER) 一个 URL 优先级队列,存放引擎发送过来的 requests 请求,由它来决定下一个要抓取的网址是什么,同时去除重复的网址 下载器(DOWLOAD 阅读全文
posted @ 2021-06-01 14:24 Rannie` 阅读(76) 评论(0) 推荐(0)
Scrapy 安装
摘要:Scrapy 安装 Windows Scrapy的安装是基于Twisted进行安装的,下载Twisted网址 按照自己的python版本进行下载,注意,cp后为python版本号,python38就是cp38;32位就是win32,64位就是win_amd64 下载完成后,cmd 进入当前路劲 pi 阅读全文
posted @ 2021-06-01 12:20 Rannie` 阅读(257) 评论(0) 推荐(0)

去除动画
找回动画