爬虫常见的面试题1
一、我们获取数据的方式都有哪几种,分别是什么?
-
-
数据平台购买数据
-
政府机构公开数据
-
数据管理咨询公司获取数据
-
通过爬虫爬取数据
二、爬虫的简介
-
-
爬虫的分类:
-
通用爬虫:通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。
-
聚焦爬虫:聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。
三、
-
-
服务器会将该url所对应的html数据进行返回,浏览器收到返回的html,会继续请求html中css,js,images等静态资源,最终按照html的语法完整的显示到页面。

浙公网安备 33010602011771号