爬虫简介
1、什么是爬虫?
-就是编写程序,模拟浏览器上网,让其去互联网中抓取数据的过程
- 模拟:
- 浏览器本身就是一个纯天然的爬虫工具,爬虫相关的模块都是基于浏览器为基础开发出来的。
- 注意:日后只要是你的爬虫程序没有爬取到你想要的数据,只有一个原因:
- 就是你的爬虫程序模拟的力度不够!
- 抓取:
- 抓取网页数据分两种情况:
- 将一个页面所有的数据抓取到
- 将页面中局部的数据抓取到
- 抓取网页数据分两种情况:
2、爬虫的分类
- 通用爬虫:
- 将一个页面中所有的数据获取。
- 大部分的搜索引擎中应用比较多。
- 聚焦爬虫
- 将页面中局部的指定的数据进行提取/抓取
- 注意:聚焦爬虫一定是建立在通用爬虫的基础之上实现。
- 功能爬虫
- 通过浏览器或者app自动化的操作,实现相关的网页或者app自动化的操作。代替人工在网页或者手机软件中自动执行相关的行为动作。
- 批量点赞,批量评论,刷单,秒杀.....
- 增量式爬虫
- 用来监测网站数据更新的情况。以便爬取网站最新更新出来的数据!
- 分布式爬虫
- 可以对网站所有的资源使用分布式机群进行分布和联合的数据爬取
3、爬虫是否合法?
爬虫作为一种计算机技术就决定了它的中立性,因此爬虫本身在法律上并不被禁止,但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。所谓具体问题具体分析,正如水果刀本身在法律上并不被禁止使用,但是用来捅人,就不被法律所容忍了。
爬虫所带来风险主要体现在以下3个方面:
(1)、违反网站意愿,例如网站采取反爬措施后,强行突破其反爬措施;
(2)、爬虫干扰了被访问网站的正常运营;
(3)、爬虫抓取了受到法律保护的特定类型的数据或信息。
4、作为爬虫开发者,如何在使用爬虫时避免进局子的厄运呢?
(1)严格遵守网站设置的robots协议;
(2)在规避反爬虫措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运行;
(3)在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除。

浙公网安备 33010602011771号