爬虫概述-(路飞学城)
1. 爬虫分类
- 通用爬虫: 爬取系统重要组成部分。抓取的是一整张页面数据;
- 聚焦爬虫: 建立在通用爬虫的基础上,抓取的是页面中特定的局部内容。
- 增量式爬虫: 检测网站中数据更新情乱,只会抓取网站中最新更新出来的数据。
反爬机制:
通过制定相应的策略或技术手段,防止爬虫程序进行网站数据的爬取;
反反爬策略:
爬虫程序可以通过指定相应的策略和技术手段,破解网站中具备的反爬机制,从而获取门户网站的数据;
robots协议:君子协议
例子: https://www.bilibili.com/robots.txt
2. http协议和https协议
http协议:
服务器和客户端进行数据交互的一种形式,是一种明文的传输方式
常用的请求表信息:
- user-agent: 客户端浏览器的身份标识;
- connection: 请求完毕后,连接断开或保持;
常用响应头消息:
- content-type:服务器响应返回的数据类型。
https协议:
安全的超文本传输协议,在HTTP的基础上,进行了加密操作;
加密方式:
- 对称密钥加密:加密和解密使用相同的密钥;
- 非对称密钥加密:公钥加密,私钥解密;
- 证书认证加密:可信赖的第三方机构。
证书密钥加密流程:
1.服务器开发者携带公钥,向CA(数字证书认证中心)提出公钥申请,CA在审核通过之后,对开发者的公钥进行数字签名,然后分配证书;
2.客户端可以通过数字证书中数字签名来验证公钥的真伪性。确认信息无误之后,客户端就会通过公钥对请求信息和自己的公钥进行加密传送,服务器接受到以后使用私钥解密;
3.服务器端接受请求后解密,并使用客户端的公钥对数据进行加密,然后发送给客户端,客户端再通过自己的私钥进行报文的解密。

浙公网安备 33010602011771号