深入了解爬虫原理

HTTP/1.1方法

HTTP1.0中，只有GET和POST，没有其他方法，如果是新网站是可以获取内容

head命令只能返回头部部分，类似于Ping测试网址是否连通

put只能上传最新的内容,patch局部修改

主要是get和Post

HTTPS多实现一层S，五层中，最上面是应用层，然后是多出来的安全层SSL，然后是传输层，网络层，网络接口层

HTTPS可以加密传输，身份验证，需要去CA申请证书，要费用，需要消耗过量CPU，端口为443，HTTP端口为80

状态码系列

206：比如很多图片的，但是看起来小且模糊就是206，过一会高清了就是200

204：没有内容，成功请求

301：永久转移，302：暂时重定向，304：内容一样，缓存一样，不动

5XX：服务器崩了，与你没关系了

401：身份未验证，403：IP被封了，404：页面丢失，405：方法写错了，408：超时了

Cache_control,cookie,host,referer,user_agent

回应字段中

是一个小型的文本文件

第一类硬盘型，在硬盘里可以找到，有过期时间检测，过期了就会删除，手动的话清理cookies

第二类内存型，关闭浏览器自动删除

cookies缺陷，附加在http请求里，增加了流量，因为明文传输不安全，大小限制在4KB，对于复杂需求来说不够用

拿人举例子，HTML相当于骨头，CSS相当于外表，JS代码相当于动作

URL不变化不刷新，内容在刷新，就是AJAX

用get是请求不到内容的，要到XHR里找接口

posted @ 2023-07-12 20:38 墨柠C 阅读(17) 评论(0) 收藏举报

刷新页面返回顶部

墨柠C