python爬虫概述

网络爬虫的概念：模拟客户端（主要指浏览器），发送网络请求，获取网络响应数据的自动化程序。　　
爬虫的应用场景：
- 数据采集 通过python爬虫爬取微博事件评论，进行舆情分析；通过爬取互联网岗位信息，进行行业分析；天气预报等数据采集
- 软件测试 使用selenium进行软件测试
- 短信轰炸、12306买票等
http协议与https协议

- http协议，超文本传输协议，默认端口号80
  - 超文本传，超越文本，不限于文本，包含视频、图片等
  - 传输协议，共同约定一种格式，进行数据传输
- https,即http+ssl(安全套接字)，默认端口443
  - ssl针对传输内容进行加密操作

　　4.http的响应格式：

- get请求
  - 请求行 请求方式+路径+协议版本
  - 请求头 请求地址、cookies等信息（各种信息较多，不详细描述）
  - 空行
- post请求
  - 请求行（同get请求）
  - 请求头（同get请求）
  - 请求体（账号、表单等信息，同时会包含一些反爬字段注意识别）
  - 空行

5.请求头字段介绍

- host(域名)：www.baidu.com
- connection(链接方式):keep-alive
- User-Agent(用户代理):浏览器的基本信息
- referer(页面跳转处)：防止盗链及增加反爬手段
- cookies(用户标识): 用户的唯一标识，用来识别唯一用户

6.常见状态码

- 200：成功
- 302：跳转
- 303：对post请求的响应进行重定向新的url
- 307：对get请求的响应进行重定向
- 403：服务端理解客户的请求，但拒绝他。没有权限
- 404：找不到该页面
- 500：服务器内部错误
- 503：服务器由于维护或负载过重未能应答，有可能是因为爬虫的频繁响应，使服务器忽视爬虫的请求

对于服务器返回的状态码，仅供爬虫时参考，不能完全相信。

posted @ 2020-06-03 20:18 芦苇了嘿阅读(290) 评论(0) 收藏举报

刷新页面返回顶部