爬虫概述-（路飞学城）

1. 爬虫分类

通用爬虫：爬取系统重要组成部分。抓取的是一整张页面数据；
聚焦爬虫：建立在通用爬虫的基础上，抓取的是页面中特定的局部内容。
增量式爬虫：检测网站中数据更新情乱，只会抓取网站中最新更新出来的数据。

反爬机制：

通过制定相应的策略或技术手段，防止爬虫程序进行网站数据的爬取；

反反爬策略：

爬虫程序可以通过指定相应的策略和技术手段，破解网站中具备的反爬机制，从而获取门户网站的数据；

robots协议：君子协议
例子： https://www.bilibili.com/robots.txt

2. http协议和https协议

http协议：

服务器和客户端进行数据交互的一种形式,是一种明文的传输方式

常用的请求表信息：

user-agent: 客户端浏览器的身份标识；
connection：请求完毕后，连接断开或保持；

常用响应头消息：

content-type：服务器响应返回的数据类型。

https协议：

安全的超文本传输协议，在HTTP的基础上，进行了加密操作；
加密方式：

对称密钥加密：加密和解密使用相同的密钥；
非对称密钥加密：公钥加密，私钥解密；
证书认证加密：可信赖的第三方机构。

证书密钥加密流程：
1.服务器开发者携带公钥，向CA（数字证书认证中心）提出公钥申请，CA在审核通过之后，对开发者的公钥进行数字签名，然后分配证书；
2.客户端可以通过数字证书中数字签名来验证公钥的真伪性。确认信息无误之后，客户端就会通过公钥对请求信息和自己的公钥进行加密传送，服务器接受到以后使用私钥解密；
3.服务器端接受请求后解密，并使用客户端的公钥对数据进行加密，然后发送给客户端，客户端再通过自己的私钥进行报文的解密。

posted @ 2022-04-17 16:40 hanqi 阅读(319) 评论(0) 收藏举报

刷新页面返回顶部

hanqi