5.7

爬虫技术：

网络爬虫是一种程序,主要用于搜索引擎,它将一个网站的所有内容与链接进行阅读,并建立相关的全文索引到数据库中,然后跳到另一个网站.样子好像一只大蜘蛛.
当人们在网络上(如google)搜索关键字时,其实就是比对数据库中的内容,找出与用户相符合的.网络爬虫程序的质量决定了搜索引擎的能力,如google的搜索引擎明显要比百度好,就是因为它的网络爬虫程序高效,编程结构好.

一、什么是爬虫　　

　　首先简单的理解一下爬虫。即请求网站并且提取自己所需的数据的一个过程。至于怎么爬如何爬，将是后面进行学习的内容，暂且不必深究。通过我们的程序，可以代替我们向服务器发送请求，然后进行批量、大量的数据的下载。

二、爬虫的基本流程

发起请求：通过url向服务器发起request请求，请求可以包含额外的header信息。
获取响应内容：如果服务器正常响应，那我们将会收到一个response，response即为我们所请求的网页内容，或许包含HTML，Json字符串或者二进制的数据（视频、图片）等。
解析内容：如果是HTML代码，则可以使用网页解析器进行解析，如果是Json数据，则可以转换成Json对象进行解析，如果是二进制的数据，则可以保存到文件进行进一步处理。
保存数据：可以保存到本地文件，也可以保存到数据库（MySQL，Redis，Mongodb等）

　　

posted @ 2022-06-14 22:28 _Pi 阅读(241) 评论(0) 收藏举报

刷新页面返回顶部