第一天 什么是网络爬虫

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫

爬虫的基本流程

用户获取网络数据的方式:

方式1:浏览器提交请求--->下载网页代码--->解析成页面

方式2:模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中

爬虫要做的就是方式2;

   

1、发起请求

使用http库向目标站点发起请求,即发送一个Request

Request包含:请求头、请求体等

Request模块缺陷:不能执行JS 和CSS 代码

2.获取响应内容

如果服务器能正常响应,则会得到一个Response

Response包含:html,json,图片,视频等

3.解析内容

解析html数据:正则表达式(RE模块),第三方解析库如Beautifulsoup,pyquery等

解析json数据:json模块

解析二进制数据:以wb的方式写入文件

4.保存数据

数据库(MySQL,Mongdb、Redis)

文件

Request

1.什么是Request?

服务器收到浏览器发送的信息后,能够根据浏览器发送信息的内容,做出相应的处理,然后把消息回传给浏览器,这个过程就叫做 HTTP Response 。

2.Response中包含什么?

 

举例

 

运行成功后我们看到打印出来的 html 源代码200 状态码了。基本实现了爬虫的 Request 和 Response 过程。

能抓到什么样的数据?

网页文本:如 HTML 文档, Ajax加载的 Json 格式文本等;

图片,视频等:可以获取到二进制文件,保存为图片或视频的格式;

其他你只要能够请求到的,都是可以获取。

举例

 

运行成功你就可以看到打印出来的图片的二进制数据,这个就是可以打印的。之后我们打开文件夹就可以看到下载下来的东西了。

解析方式有哪些?

 

posted @ 2020-08-13 13:56  Zack6688  阅读(108)  评论(0)    收藏  举报