摘要: 爬虫简介 参照千峰教育视频文档和weixin_49088841的博客,该文章仅供自己在线查阅 1、什么是爬虫 ⽹络爬⾍(⼜被称为⽹⻚蜘蛛,⽹络机器⼈)就是模拟客户端发送⽹络请求, 接收请求响应,⼀种按照⼀定的规则,⾃动地抓取互联⽹信息的程序。 只要是浏览器能做的事情,原则上,爬⾍都能够做(可见即可爬 阅读全文
posted @ 2021-03-31 07:47 昵称已经被使用 阅读(165) 评论(0) 推荐(0)
摘要: 爬虫基础 1、Http基本原理 1.1、URL和URI URI的全称为 Uniform Resource Identifier,即统一资源标志符。 URL的全称为 Universal Resource Locator,即统一资源定位符。 URN的全称为 Universal Resource Name 阅读全文
posted @ 2021-03-31 07:46 昵称已经被使用 阅读(180) 评论(0) 推荐(0)
摘要: 获取网页 1、urllib库 在 Python2 中,有 urllib 和 urllib2 两个库来实现请求的发送。 而在 Python3中,已经不存在urllib2这个库了 , 统一为urllib,其官方文档链接为: https://docs.python.org/zh-cn/3/library/ 阅读全文
posted @ 2021-03-31 07:44 昵称已经被使用 阅读(613) 评论(0) 推荐(0)
摘要: 解析库的使用 1、使用Beautiful Soup 1.1、简介 简单来说, Beautiful Soup 就是 Python 的一个 HTML 或 XML 的解析库,可以用它来方便地从网 页中提取数据。 1.2、解析器 1.3、节点选择器 直接调用节点的名称就可以选择节点元素,再调用 string 阅读全文
posted @ 2021-03-31 07:43 昵称已经被使用 阅读(190) 评论(0) 推荐(0)
摘要: js2py 1、js2py简介 http://www.porters.vip/verify/sign/ # 案例查看Python中执行JS代码,通常两个库:js2py,pyexecjs js2py是纯python实现的库,用于在python中运行js代码,本质上是将js代码翻译成python代码 j 阅读全文
posted @ 2021-03-31 07:40 昵称已经被使用 阅读(153) 评论(0) 推荐(0)
摘要: 多任务爬虫 1、进程 1.1、概念 任务: 一个任务就是一个程序; 对于软件来说, 一个功能就是一个任务 进程 操作系统中执行任务的一个单元 进程本身是 一个抽象的概念 即进程就是一个过程、一个任务 只有运行起来才叫进程 由CPU运行 后台进程: 服务 前台进程: 展示给用户, 通常来说优先级别更改 阅读全文
posted @ 2021-03-31 07:38 昵称已经被使用 阅读(86) 评论(0) 推荐(0)
摘要: 1、Tesseract安装与简介 阻碍我们爬虫的。有时候正是在登录或者请求一些数据时候的图形验证码。因此这里我们讲解一种能将图片翻译成文字的技术。将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition),简写为OCR。实现OCR的库不是很多,特别是开源的。 阅读全文
posted @ 2021-03-31 07:36 昵称已经被使用 阅读(161) 评论(0) 推荐(0)
摘要: scrapy框架 1、是什么? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 官方网站 https://doc.scrapy.org/en/latest/ 中文:http://www.scrapyd.cn/do 阅读全文
posted @ 2021-03-31 07:30 昵称已经被使用 阅读(67) 评论(0) 推荐(0)
摘要: # scrapy之综合应用 ## 1、LinkExtractors LinkExtractors:链接提取器,只负责提取链接,即a标签的内容 ### 1.1、导入 ``` from scrapy.linkextractors import LinkExtractor ``` ### 1.2、scra 阅读全文
posted @ 2021-03-31 07:27 昵称已经被使用 阅读(129) 评论(0) 推荐(0)
摘要: 数据存储 1、文件存储 1.1、TXT文本存储 1.1.1、文件方法 open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None) file: 必需,文件 阅读全文
posted @ 2021-03-31 07:26 昵称已经被使用 阅读(72) 评论(0) 推荐(0)
摘要: # scrapy+selenium ## 1、基于Selenium自定义下载中间件 ### 1.1、spider - 常规爬虫(scrapy.Spider) - 属性或函数 - name - allowed_domain - start_urls - 函数 - parse(self, respons 阅读全文
posted @ 2021-03-31 07:25 昵称已经被使用 阅读(227) 评论(0) 推荐(0)
摘要: # scrapy-redis分布式爬虫 ## 1、分布式爬虫 Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)。 ![image-20201209034956994](https: 阅读全文
posted @ 2021-03-31 07:24 昵称已经被使用 阅读(93) 评论(0) 推荐(0)