爬虫概述

内容概要

通过编写程序，让其模拟浏览器上网，然后在互联网中抓取数据的过程

模拟：
	浏览器就是一个纯天然最原始的一个爬虫工具。
抓取：
    抓取一整张的页面源码数据
    抓取一整张页面中的局部数据

要求我们爬取一整张页面源码数据

要求爬取一张页面中的局部的数据
聚焦爬虫一定是建立在通用爬虫基础之上。

用来监测网站数据更新的情况，以便爬取到网站最新更新出来的数据。

提高爬取效率的终极武器。

是作用到门户网站中。如果网站不想让爬虫轻易爬取到数据，它可以制定相关的机制或者措施阻止爬虫程序爬取其数据。

是作用在爬虫程序中。我们爬虫可以制定相关的策略破击反爬机制从而爬取到相关的数据。

防君子不防小人
是一个纯文本的协议，协议中规定了该网站中哪些数据可以被哪些爬虫爬取，哪些不可以被爬取。

在相应网站域名后面添加 /robots.txt 回车即可查看
主要有 user-agent （访问载体的身份信息）

自己主观性的不遵从该协议即可。

posted @ 2022-01-01 17:11 elijah_li 阅读(151) 评论(0) 收藏举报

刷新页面返回顶部