2020 年 7月 6 日随笔档案 - Mn猿

2020年7月6日

摘要： scrapy配置文件 1. settings.py # -*- coding: utf-8 -*- # Scrapy settings for step8_king project # # For simplicity, this file contains only settings consid 阅读全文

posted @ 2020-07-06 22:58 Mn猿阅读(257) 评论(0) 推荐(1)

7.scrapy中间件

摘要： scrapy中间件 1. 中间件 1.1 什么是中间件如果有学过django的同学，应该对这个名词不陌生了，在django中，中间件可以对请求做统一批量的处理那么在爬虫中，中间件的作用也是做批量处理的，比如把所有请求的请求头添加一个值等等等。由于爬虫是一个发请求，获取响应的过程，所以在scra 阅读全文

posted @ 2020-07-06 22:56 Mn猿阅读(303) 评论(0) 推荐(1)

6.scrapy数据持久化

摘要： scrapy数据持久化爬取到的数据想要进行保存的话，首先要对数据进行格式化话，这样数据格式统一才方便进行保存 1. 数据格式化 1.1 item.py 在我们创建的爬虫项目中item.py这个文件就是负责进行格式化数据的 # -*- coding: utf-8 -*- # Define here 阅读全文

posted @ 2020-07-06 22:42 Mn猿阅读(188) 评论(0) 推荐(1)

5.scrapy过滤器

摘要： scrapy过滤器 1. 过滤器当我们在爬取网页的时候可能会遇到一个调转连接会在不同页面出现，这个时候如果我们的爬虫程序不能识别出该链接是已经爬取过的话，就会造成一种重复不必要的爬取。所以我们要对我们即将要爬取的网页进行过滤，把重复的网页链接过滤掉。 2. 指纹过滤器去重处理可以避免将重复性阅读全文

posted @ 2020-07-06 22:41 Mn猿阅读(932) 评论(4) 推荐(0)

4.scrapy爬虫文件

摘要： scrapy.Spider 这一节我们来聊一聊爬虫文件 1. 请求发送 # -*- coding: utf-8 -*- import scrapy class BaiduSpider(scrapy.Spider): name = 'baidu' allowed_domains = ['baidu.c 阅读全文

posted @ 2020-07-06 22:38 Mn猿阅读(345) 评论(0) 推荐(0)

2.scrapy框架结构

摘要： scrapy框架结构 1. 项目结构 1.1 认识文件这里我们简单认识一下, 在一个scrapy爬虫项目中各个文件都是用来做什么的, 知道了这些文件是干嘛的, 那么我们来写我们的项目就会很得心应手了. 这次我们还以上次百度的那个项目为例 spider1 | |——spider1 | ├─spide 阅读全文

posted @ 2020-07-06 22:34 Mn猿阅读(221) 评论(0) 推荐(0)

1.scrapy介绍安装

摘要： scrapy 简介&安装初识 scrapy Scrapy是一个使用Python语言（基于Twisted（推四体的）框架，内部也就是异步非阻塞io源码）编写的开源网络爬虫框架，目前由Scrapinghub Ltd维护。Scrapy简单易用、灵活易拓展、开发社区活跃，并且是跨平台的。在Linux、 M 阅读全文

posted @ 2020-07-06 22:33 Mn猿阅读(273) 评论(1) 推荐(0)

3.第一个scrapy项目

摘要：第一个scrapy项目 1. 创建scrapy项目 1.1 创建项目三剑客这里的三剑客指的是：创建项目以及运行项目的三条命令 1.1.1 创建项目 scrapy stratproject 项目名称 (base) D:\project\爬虫高性能相关>scrapy startproject spid 阅读全文

posted @ 2020-07-06 22:31 Mn猿阅读(205) 评论(0) 推荐(0)

Mn猿

公告