爬虫概述 & web请求全过程剖析 & 反爬虫的一般手段 & 常见HTTP状态码

爬⾍合法么

爬⾍分为善意的爬⾍和恶意的爬虫

善意的爬⾍

不破坏被爬取的⽹站的资源(正常访问, ⼀般频率不⾼, 不窃取⽤户隐私)

恶意的爬⾍

影响⽹站的正常运营(抢票, 秒杀, 疯狂solo⽹站资源造成⽹站宕机)

综上, 为了避免进xx，我们还是要安分守⼰，时常优化⾃⼰的爬⾍程序避免⼲扰到⽹站的正常运⾏。并且在使⽤爬取到的数据时,发现涉及到⽤户隐私和商业机密等敏感内容时，⼀定要及时终⽌爬取和传播。

爬取的一定是看得见的东西，公开的东西，爬取vip的东西属于违法的。

爬⾍的⽭与盾

反爬机制

⻔户⽹站，可以通过制定相应的策略或者技术⼿段，防⽌爬⾍程序进⾏⽹站数据的爬取。

反反爬策略

爬⾍程序可以通过制定相关的策略或者技术⼿段，破解⻔户⽹站中具备的反爬机制，从⽽可以获取⻔户⽹站中相关的数据。

robots.txt协议

君⼦协议。规定了⽹站中哪些数据可以被爬⾍爬取哪些数据不可以被爬取

如B站： https://www.bilibili.com/robots.txt

第一个爬虫程序开发：

from urllib.request import urlopen
resp = urlopen("http://www.baidu.com") # 打开 百度
print(resp.read().decode("utf-8")) # 打印 抓取到的内容

我们可以把抓取到的html内容全部写到文件中, 然后和原版的百度进行对比, 看看是否一致

from urllib.request import urlopen
resp = urlopen("http://www.baidu.com") # 打开 百度
# print(resp.read().decode("utf-8")) # 打印 抓取到的内容
with open("baidu.html",mode="w", encoding="utf-8")
as f: # 创建文件
  f.write(resp.read().decode("utf-8")) # 保存在文件中

我们浏览器在输入完网址到我们看到网页的整体内容, 这个过程中究竟发生了些什么?

这里我们以百度为例，在访问百度的时候，浏览器会把这一次请求发送到百度的服务器(百度的一台电脑), 由服务器接收到这个请求,然后加载一些数据，返回给浏览器，再由浏览器进行显示。注意, 百度的服务器返回给浏览器的不直接是页面，而是页面源代码(由html, css, js组成)。由浏览器把页面源代码进行执行，然后把执行之后的结果展示给用户。

具体过程如图

接下来就是一个比较重要的事情了，所有的数据都在页面源代码里么?

非也~ 这里要介绍页面渲染数据的过程, 我们常见的页面渲染过程有两种
1. 服务器渲染
这个最容易理解, 也是最简单的. 含义呢就是我们在请求到服务器的时候，服务器直接把数据全部写入到html中, 我们浏览器就能直接拿到带有数据的html内容，比如由于数据是直接写在html中的，所以我们能看到的数据都在页面源代码中能找得到的这种页面般都相对比较容易就能抓取到页面内容