python 爬虫

1.服务器渲染：在服务器端直接把HTML骨架和数据整合在一起，统一发送给浏览器

　　在页面源代码当中能看到数据

2.客户端渲染:

　　第一次请求只要求一个HTML骨架，第二次请求拿到数据，进行数据展示

　　在页面源代码中，看不到数据

　第一次请求拿不到数据，只要找到第二次请求的url 就能拿到数据

使用浏览器的抓包工具

Http协议：传递网站代码

请求行-> 请求方式（get 一般是显示提交请求数据一般会用到获取 /post 上传数据一般修改单个数据或少量数据会用到）请求 url地址协议

请求头--> 放一些服务求要使用的附加信息（一般反爬虫的关键位置）

{1.User-Agent：请求载体的身份标识用什么发送的请求

2.Referer：防盗链一般记录这次请求从哪个页面来的？反爬取会用到

3.cookie：本地字符串数据信息（用户登录信息，反爬的token）}

请求体 --> 一般放一些请求参数

状态行 ->协议状态码（404/500/200）

响应头 -> 放一些客户端要使用的一些附加信息（一般反爬虫的关键位置）

{1.cookie：本地字符串数据信息用户登录信息，反爬的token

2.各种神奇的莫名其妙的字符串经验之谈一般都是token 字样，防止各种攻击和反爬}

响应体 -> 服务器返回的真正客户端要使用的内容（html，json）等

python利用open打开文件的方式：

w：以写方式打开，

a：以追加模式打开 (从 EOF 开始, 必要时创建新文件)

r+：以读写模式打开

w+：以读写模式打开 (参见 w )

a+：以读写模式打开 (参见 a )

rb：以二进制读模式打开

wb：以二进制写模式打开 (参见 w )

ab：以二进制追加模式打开 (参见 a )

rb+：以二进制读写模式打开 (参见 r+ )

wb+：以二进制读写模式打开 (参见 w+ )

ab+：以二进制读写模式打开 (参见 a+ )

posted @ 2022-03-01 10:08 不懂就要问！阅读(107) 评论(0) 收藏举报

刷新页面返回顶部

半暖时光丶