爬虫概述

内容概要

  • 什么是爬虫
  • 爬虫的分类
  • 反爬机制
  • 反反爬机制

内容详细

一、什么是爬虫

通过编写程序,让其模拟浏览器上网,然后在互联网中抓取数据的过程

模拟:
	浏览器就是一个纯天然最原始的一个爬虫工具。
抓取:
    抓取一整张的页面源码数据
    抓取一整张页面中的局部数据

二、爬虫的分类

1、通用爬虫

要求我们爬取一整张页面源码数据

2、聚焦爬虫

要求爬取一张页面中的局部的数据
聚焦爬虫一定是建立在通用爬虫基础之上。

3、增量爬虫

用来监测网站数据更新的情况,以便爬取到网站最新更新出来的数据。

4、分布式爬虫

提高爬取效率的终极武器。

三、反爬机制

是作用到门户网站中。如果网站不想让爬虫轻易爬取到数据,它可以制定相关的机制或者措施阻止爬虫程序爬取其数据。

四、反反爬机制

是作用在爬虫程序中。我们爬虫可以制定相关的策略破击反爬机制从而爬取到相关的数据。

第一种反爬机制(简单)

robots协议

防君子不防小人
是一个纯文本的协议,协议中规定了该网站中哪些数据可以被哪些爬虫爬取,哪些不可以被爬取。

在相应网站域名后面添加 /robots.txt 回车即可查看
主要有 user-agent (访问载体的身份信息)

image

破解

自己主观性的不遵从该协议即可。

posted @ 2022-01-01 17:11  elijah_li  阅读(151)  评论(0)    收藏  举报
//一下两个链接最好自己保存下来,再上传到自己的博客园的“文件”选项中