Hank·Paul

2020年4月12日

摘要： Scrapy 去重源码分析 # 去重源码分析 # from scrapy.core.scheduler import Scheduler # Scheduler下：def enqueue_request(self, request)方法判断是否去重 if not request.dont_filte 阅读全文

posted @ 2020-04-12 20:17 Hank·Paul 阅读(217) 评论(0) 推荐(0) 编辑

fake-useragent插件

摘要： fake-useragent 该插件用来随机生成请求头中的user-agent https://github.com/hellysmile/fake-useragent 安装 pip3 install fake-useragent 使用 from fake_useragent import User 阅读全文

posted @ 2020-04-12 16:54 Hank·Paul 阅读(1314) 评论(0) 推荐(0) 编辑

Scrapy 框架提高爬取效率的配置

摘要： Scrapy 框架提高爬取效率的配置 - 在配置文件中进行相关的配置即可:(默认还有一套setting) #1 增加并发：默认scrapy开启的并发线程为32个，可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。阅读全文

posted @ 2020-04-12 16:48 Hank·Paul 阅读(207) 评论(0) 推荐(0) 编辑

2020年4月11日

Scrapy 中间件

摘要： Downloader Middleware 的用法 Downloader Middleware 即下载中间件，它是处于Scrapy 的Request 和Response之间的处理模块。 Downloader Middleware 在整个架构中起作用的位置是以下两个：在Scheduler 调度出队列阅读全文

posted @ 2020-04-11 13:27 Hank·Paul 阅读(274) 评论(0) 推荐(0) 编辑

爬虫项目类相关属性

摘要：一.爬虫项目类相关属性 name 。爬虫名称，是定义Spider 名字的字符串。Spider 的名字定义了Scrapy 如何定位并初始化Spider，它必须是唯一的。不过我们可以生成多个相同的Spider 实例，数量没有限制。 allowed_domains 。允许爬取的域名，是可选配置，不在此范围阅读全文

posted @ 2020-04-11 13:01 Hank·Paul 阅读(294) 评论(0) 推荐(0) 编辑

爬虫系列

摘要：爬虫基础爬虫的Robots协议请求库之requests库解析库beautifulsoup 爬取汽车之家新闻搭建免费代理池验证码破解模拟自动登录网站 xpath路径 selenium简介与安装 selenium的使用 Scrapy框架 Scrapy 架构介绍 scrapy 框架的安装与启动阅读全文

posted @ 2020-04-11 01:38 Hank·Paul 阅读(207) 评论(0) 推荐(0) 编辑

Scrapy 解析与持久化

摘要： Scrapy持久化方式一（了解）：此方式针对小型项目，利用其可以轻松将输出抓取到文件中 1 parser解析函数，return 列表，列表套字典 2 命令行持久化到文件中：scrapy crawl chouti -o aa.json (支持：('json', 'jsonlines', 'jl', 阅读全文

posted @ 2020-04-11 00:46 Hank·Paul 阅读(224) 评论(0) 推荐(0) 编辑

2020年4月10日

Scrapy中response介绍、属性以及内容提取

摘要：解析response parse()方法的参数 response 是start_urls里面的链接爬取后的结果。所以在parse()方法中，我们可以直接对response对象包含的内容进行解析，比如浏览请求结果的网页源代码，或者进一步分析源代码内容，或者找出结果中的链接而得到下一个请求一.resp 阅读全文

posted @ 2020-04-10 19:53 Hank·Paul 阅读(6118) 评论(1) 推荐(2) 编辑

爬取数据并解析

摘要：爬取数据并解析爬虫文件中parse方法中写： def parse(self, response): # 解析，请求回来，自动执行parser，在这个方法中做解析 # 解析方式一：使用bs4解析 # from bs4 import BeautifulSoup # soup=BeautifulSou 阅读全文

posted @ 2020-04-10 19:45 Hank·Paul 阅读(429) 评论(0) 推荐(0) 编辑

Scrapy 架构介绍

摘要： Scrapy 架构 Scrapy 是一个基于 Twisted 的异步处理框架，是纯 Python 实现的爬虫框架，其架构清晰，模块之间的耦合程度低，可扩展性极强，可以灵活完成各种需求。我们只需要定制开发几个模块就可以轻松实现一个爬虫。它可以分为如下的几个部分。 Engine引擎(大总管)，用来处理阅读全文

posted @ 2020-04-10 19:03 Hank·Paul 阅读(643) 评论(0) 推荐(0) 编辑

原CSDN博客已不用，转到此处

公告