# Python爬虫（开课吧学习总结）

Python爬虫（开课吧学习总结）

什么是爬虫：使用python代码模拟用户批量的发送网络请求，批量地获取数据

http：当用户在地址栏中输入了网址，这个发送网络请求的过程就是一个http，

get：不安全，明文传输，参数的长度是有限制的。

post：比较安全，数据整体没有长度限制，所以可以进行文件上传。

还有delete，put，head请求方法

发送网络请求（可以携带数据或者不携带数据）

GET将数据放到了参数里面。

post将数据放到了请求头里面

返回的数据

General：常规 Request URL：请求URL地址 Request Method：请求方法 Status Code：状态代码 Remote Address：远程站点地址 Referrer Policy：引用站点策略

请求头 Referer：标志这个请求是从哪里过来的，比如我们从想从A跳转到B，referer就是A，

DNS：域名解析服务商

爬虫的分类：通用爬虫聚焦爬虫

robots.txt：是否允许其他爬虫（通用爬虫）爬取某些内容，像百度，谷歌，微软浏览器都是采用通用爬虫，robots.txt就是用来显示通用爬虫的，

posted @ 2020-05-21 15:34 大咸鱼一条阅读(738) 评论(0) 收藏举报

刷新页面返回顶部