# Python爬虫(开课吧学习总结)

Python爬虫(开课吧学习总结)

1.爬虫入门

什么是爬虫:使用python代码模拟用户批量的发送网络请求,批量地获取数据

http:当用户在地址栏中输入了网址,这个发送网络请求的过程就是一个http,

get:不安全,明文传输,参数的长度是有限制的。

post:比较安全,数据整体没有长度限制,所以可以进行文件上传。

还有delete,put,head请求方法

发送网络请求(可以携带数据或者不携带数据)

GET将数据放到了参数里面。

post将数据放到了请求头里面

返回的数据

General:常规 Request URL:请求URL地址 Request Method:请求方法 Status Code:状态代码 Remote Address:远程站点地址 Referrer Policy:引用站点策略

请求头 Referer:标志这个请求是从哪里过来的,比如我们从想从A跳转到B,referer就是A,

DNS:域名解析服务商

爬虫的分类: 通用爬虫 聚焦爬虫

robots.txt:是否允许其他爬虫(通用爬虫)爬取某些内容,像百度,谷歌,微软浏览器都是采用通用爬虫,robots.txt就是用来显示通用爬虫的,

posted @ 2020-05-21 15:34  大咸鱼一条  阅读(738)  评论(0)    收藏  举报