深入了解爬虫原理

HTTP/1.1方法

 HTTP1.0中,只有GET和POST,没有其他方法,如果是新网站是可以获取内容

head命令只能返回头部部分,类似于Ping测试网址是否连通

put只能上传最新的内容,patch局部修改

主要是get和Post

HTTPS多实现一层S,五层中,最上面是应用层,然后是多出来的安全层SSL,然后是传输层,网络层,网络接口层

 HTTPS可以加密传输,身份验证,需要去CA申请证书,要费用,需要消耗过量CPU,端口为443,HTTP端口为80

 

 

 

 状态码系列

 

 

 206:比如很多图片的,但是看起来小且模糊就是206,过一会高清了就是200

204:没有内容,成功请求

301:永久转移,302:暂时重定向,304:内容一样,缓存一样,不动

5XX:服务器崩了,与你没关系了

401:身份未验证,403:IP被封了,404:页面丢失,405:方法写错了,408:超时了

 Cache_control,cookie,host,referer,user_agent

回应字段中

 

 Cookies

 是一个小型的文本文件

第一类硬盘型,在硬盘里可以找到,有过期时间检测,过期了就会删除,手动的话清理cookies

第二类内存型,关闭浏览器自动删除

cookies缺陷,附加在http请求里,增加了流量,因为明文传输不安全,大小限制在4KB,对于复杂需求来说不够用

拿人举例子,HTML相当于骨头,CSS相当于外表,JS代码相当于动作

Ajax交互

 URL不变化不刷新,内容在刷新,就是AJAX

用get是请求不到内容的,要到XHR里找接口

posted @ 2023-07-12 20:38  墨柠C  阅读(17)  评论(0)    收藏  举报