上一页 1 2 3 4 5 6 7 ··· 24 下一页
摘要: Scrapy 去重源码分析 # 去重源码分析 # from scrapy.core.scheduler import Scheduler # Scheduler下:def enqueue_request(self, request)方法判断是否去重 if not request.dont_filte 阅读全文
posted @ 2020-04-12 20:17 Hank·Paul 阅读(217) 评论(0) 推荐(0) 编辑
摘要: fake-useragent 该插件用来随机生成请求头中的user-agent https://github.com/hellysmile/fake-useragent 安装 pip3 install fake-useragent 使用 from fake_useragent import User 阅读全文
posted @ 2020-04-12 16:54 Hank·Paul 阅读(1314) 评论(0) 推荐(0) 编辑
摘要: Scrapy 框架提高爬取效率的配置 - 在配置文件中进行相关的配置即可:(默认还有一套setting) #1 增加并发: 默认scrapy开启的并发线程为32个,可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。 阅读全文
posted @ 2020-04-12 16:48 Hank·Paul 阅读(207) 评论(0) 推荐(0) 编辑
摘要: Downloader Middleware 的用法 Downloader Middleware 即下载中间件,它是处于Scrapy 的Request 和Response之间的处理模块。 Downloader Middleware 在整个架构中起作用的位置是以下两个: 在Scheduler 调度出队列 阅读全文
posted @ 2020-04-11 13:27 Hank·Paul 阅读(274) 评论(0) 推荐(0) 编辑
摘要: 一.爬虫项目类相关属性 name 。爬虫名称,是定义Spider 名字的字符串。Spider 的名字定义了Scrapy 如何定位并初始化Spider,它必须是唯一的。不过我们可以生成多个相同的Spider 实例,数量没有限制。 allowed_domains 。允许爬取的域名,是可选配置,不在此范围 阅读全文
posted @ 2020-04-11 13:01 Hank·Paul 阅读(294) 评论(0) 推荐(0) 编辑
摘要: 爬虫基础 爬虫的Robots协议 请求库之requests库 解析库beautifulsoup 爬取汽车之家新闻 搭建免费代理池 验证码破解 模拟自动登录网站 xpath路径 selenium简介与安装 selenium的使用 Scrapy框架 Scrapy 架构介绍 scrapy 框架的安装与启动 阅读全文
posted @ 2020-04-11 01:38 Hank·Paul 阅读(207) 评论(0) 推荐(0) 编辑
摘要: Scrapy持久化 方式一(了解): 此方式针对小型项目,利用其可以轻松将输出抓取到文件中 1 parser解析函数,return 列表,列表套字典 2 命令行持久化到文件中:scrapy crawl chouti -o aa.json (支持:('json', 'jsonlines', 'jl', 阅读全文
posted @ 2020-04-11 00:46 Hank·Paul 阅读(224) 评论(0) 推荐(0) 编辑
摘要: 解析response parse()方法的参数 response 是start_urls里面的链接爬取后的结果。所以在parse()方法中,我们可以直接对response对象包含的内容进行解析,比如浏览请求结果的网页源代码,或者进一步分析源代码内容,或者找出结果中的链接而得到下一个请求 一.resp 阅读全文
posted @ 2020-04-10 19:53 Hank·Paul 阅读(6118) 评论(1) 推荐(2) 编辑
摘要: 爬取数据并解析 爬虫文件中parse方法中写: def parse(self, response): # 解析,请求回来,自动执行parser,在这个方法中做解析 # 解析 方式一:使用bs4解析 # from bs4 import BeautifulSoup # soup=BeautifulSou 阅读全文
posted @ 2020-04-10 19:45 Hank·Paul 阅读(429) 评论(0) 推荐(0) 编辑
摘要: Scrapy 架构 Scrapy 是一个基于 Twisted 的异步处理框架,是纯 Python 实现的爬虫框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,可以灵活完成各种需求。我们只需要定制开发几个模块就可以轻松实现一个爬虫。 它可以分为如下的几个部分。 Engine引擎(大总管),用来处理 阅读全文
posted @ 2020-04-10 19:03 Hank·Paul 阅读(643) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 24 下一页