随笔档案「2021年3月31日」：a、爬虫简介 ... - 昵称已经被使用

2021年3月31日

摘要：爬虫简介参照千峰教育视频文档和weixin_49088841的博客，该文章仅供自己在线查阅 1、什么是爬虫⽹络爬⾍（⼜被称为⽹⻚蜘蛛，⽹络机器⼈）就是模拟客户端发送⽹络请求，接收请求响应，⼀种按照⼀定的规则，⾃动地抓取互联⽹信息的程序。只要是浏览器能做的事情，原则上，爬⾍都能够做(可见即可爬阅读全文

posted @ 2021-03-31 07:47 昵称已经被使用阅读(179) 评论(0) 推荐(0)

b、爬虫基础

摘要：爬虫基础 1、Http基本原理 1.1、URL和URI URI的全称为 Uniform Resource Identifier，即统一资源标志符。 URL的全称为 Universal Resource Locator，即统一资源定位符。 URN的全称为 Universal Resource Name 阅读全文

posted @ 2021-03-31 07:46 昵称已经被使用阅读(200) 评论(0) 推荐(0)

c、获取网页

摘要：获取网页 1、urllib库在 Python2 中，有 urllib 和 urllib2 两个库来实现请求的发送。而在 Python3中，已经不存在urllib2这个库了，统一为urllib，其官方文档链接为： https://docs.python.org/zh-cn/3/library/ 阅读全文

posted @ 2021-03-31 07:44 昵称已经被使用阅读(643) 评论(0) 推荐(0)

d、解析库的使用

摘要：解析库的使用 1、使用Beautiful Soup 1.1、简介简单来说， Beautiful Soup 就是 Python 的一个 HTML 或 XML 的解析库，可以用它来方便地从网页中提取数据。 1.2、解析器 1.3、节点选择器直接调用节点的名称就可以选择节点元素，再调用 string 阅读全文

posted @ 2021-03-31 07:43 昵称已经被使用阅读(206) 评论(0) 推荐(0)

e、爬取动态页面

摘要： js2py 1、js2py简介 http://www.porters.vip/verify/sign/ # 案例查看Python中执行JS代码,通常两个库:js2py,pyexecjs js2py是纯python实现的库,用于在python中运行js代码,本质上是将js代码翻译成python代码 j 阅读全文

posted @ 2021-03-31 07:40 昵称已经被使用阅读(179) 评论(0) 推荐(0)

g、多任务爬虫

摘要：多任务爬虫 1、进程 1.1、概念任务: 一个任务就是一个程序; 对于软件来说, 一个功能就是一个任务进程操作系统中执行任务的一个单元进程本身是一个抽象的概念即进程就是一个过程、一个任务只有运行起来才叫进程由CPU运行后台进程: 服务前台进程: 展示给用户, 通常来说优先级别更改阅读全文

posted @ 2021-03-31 07:38 昵称已经被使用阅读(98) 评论(0) 推荐(0)

f、识别验证码

摘要： 1、Tesseract安装与简介阻碍我们爬虫的。有时候正是在登录或者请求一些数据时候的图形验证码。因此这里我们讲解一种能将图片翻译成文字的技术。将图片翻译成文字一般被称为光学文字识别（Optical Character Recognition），简写为OCR。实现OCR的库不是很多，特别是开源的。阅读全文

posted @ 2021-03-31 07:36 昵称已经被使用阅读(175) 评论(0) 推荐(0)

i、scrapy框架

摘要： scrapy框架 1、是什么？ Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。官方网站 https://doc.scrapy.org/en/latest/ 中文：http://www.scrapyd.cn/do 阅读全文

posted @ 2021-03-31 07:30 昵称已经被使用阅读(86) 评论(0) 推荐(0)

k、scrapy之综合应用

摘要： # scrapy之综合应用 ## 1、LinkExtractors LinkExtractors：链接提取器，只负责提取链接，即a标签的内容 ### 1.1、导入 ``` from scrapy.linkextractors import LinkExtractor ``` ### 1.2、scra 阅读全文

posted @ 2021-03-31 07:27 昵称已经被使用阅读(142) 评论(0) 推荐(0)

h、数据存储

摘要：数据存储 1、文件存储 1.1、TXT文本存储 1.1.1、文件方法 open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None) file: 必需，文件阅读全文

posted @ 2021-03-31 07:26 昵称已经被使用阅读(94) 评论(0) 推荐(0)

j、scrapy+selenium

摘要： # scrapy+selenium ## 1、基于Selenium自定义下载中间件 ### 1.1、spider - 常规爬虫（scrapy.Spider） - 属性或函数 - name - allowed_domain - start_urls - 函数 - parse(self, respons 阅读全文

posted @ 2021-03-31 07:25 昵称已经被使用阅读(241) 评论(0) 推荐(0)

l、scrapy-redis分布式爬虫

摘要： # scrapy-redis分布式爬虫 ## 1、分布式爬虫 Scrapy 是一个通用的爬虫框架，但是不支持分布式，Scrapy-redis是为了更方便地实现Scrapy分布式爬取，而提供了一些以redis为基础的组件(仅有组件)。 ![image-20201209034956994](https: 阅读全文

posted @ 2021-03-31 07:24 昵称已经被使用阅读(114) 评论(0) 推荐(0)

公告