爬虫概述
内容概要
- 什么是爬虫
- 爬虫的分类
- 反爬机制
- 反反爬机制
内容详细
一、什么是爬虫
通过编写程序,让其模拟浏览器上网,然后在互联网中抓取数据的过程
模拟:
浏览器就是一个纯天然最原始的一个爬虫工具。
抓取:
抓取一整张的页面源码数据
抓取一整张页面中的局部数据
二、爬虫的分类
1、通用爬虫
要求我们爬取一整张页面源码数据
2、聚焦爬虫
要求爬取一张页面中的局部的数据
聚焦爬虫一定是建立在通用爬虫基础之上。
3、增量爬虫
用来监测网站数据更新的情况,以便爬取到网站最新更新出来的数据。
4、分布式爬虫
提高爬取效率的终极武器。
三、反爬机制
是作用到门户网站中。如果网站不想让爬虫轻易爬取到数据,它可以制定相关的机制或者措施阻止爬虫程序爬取其数据。
四、反反爬机制
是作用在爬虫程序中。我们爬虫可以制定相关的策略破击反爬机制从而爬取到相关的数据。
第一种反爬机制(简单)
robots协议
防君子不防小人
是一个纯文本的协议,协议中规定了该网站中哪些数据可以被哪些爬虫爬取,哪些不可以被爬取。
在相应网站域名后面添加 /robots.txt 回车即可查看
主要有 user-agent (访问载体的身份信息)

破解
自己主观性的不遵从该协议即可。

浙公网安备 33010602011771号