urllib-互联网爬虫

1、爬虫核心:爬取网页数据,解析数据,爬虫和反爬之间的博弈。

2、爬虫用途:数据分析/人工数据采集,社交软件冷启动,舆情监控,竞争对手监控。

 

 3、爬虫分类

  通用爬虫:抓取的数据大多是无用的,不能根据用户的需求来精准获取数据。

    搜索引擎   网站排名SEO:竞价排名

  聚焦爬虫:根据需求,实现爬虫程序,抓取需要的数据

    设计思路:确定要爬的url -->模拟浏览器通过http协议访问url,获取服务器返回返回的html代码-->解析html字符串

4、反爬手段

  1、user-agent:用户代理,它是一个特殊的字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

  2、代理IP:西次代理、快代理

    什么是高匿名,匿名,透明代理,区别

    透明代理:对方服务器可以知道你使用了代理,并且也知道你的真实IP

    匿名代理:对方服务器可以知道你使用了代理,但是不知道你的真实IP

    高匿名代理:对方服务器不知道你使用了代理,更不知道你的真实IP

  3、验证码:打码平台,云打码平台、超级

  4、动态加载网页:网站返回的是js数据并不是网页的真实数据,selenium驱动真实的浏览器发送请求。

  5、数据加密:分析js代码

 

posted @ 2022-04-11 15:26  归零19  阅读(43)  评论(0编辑  收藏  举报