爬虫_052_爬虫相关概念介绍

目录

image-20240212180039976

爬虫的定义

image-20240212180000656

image-20240212180010972

爬虫就是一个程序,程序运行完成之后,就能够拿到你想要获取的数据。

爬虫的奥义就是程序模拟浏览器

爬虫的核心

image-20240212180847451

爬虫的难点在于:解析数据。

爬虫的用途

image-20240212181012116

image-20240212181215973

社交类:陌陌一开始爬微博数据当假的用户。

电商类:电商网站互相监控,互相降价。

出行类:智行、飞猪高频次访问12306,购票软件都访问它,出行类占比很大。

政府部门:中国天气网。

爬虫的分类

image-20240212181631073

image-20240212181644758

反爬手段

image-20240212182003971

第一个反爬手段:User-Agent校验

第二个反爬手段:访问一个网站,有异与人类的行为,它会封禁你的IP。

第三个反爬手段:验证码

第四个反爬手段:返回JS数据,不是网页真实数据

第五个反爬手段:数据加密(比如字体加密)


image-20240212182337706

posted @ 2024-02-12 18:24  准提弟子  阅读(56)  评论(0)    收藏  举报