urllib-互联网爬虫

1、爬虫核心：爬取网页数据，解析数据，爬虫和反爬之间的博弈。

2、爬虫用途：数据分析/人工数据采集，社交软件冷启动，舆情监控，竞争对手监控。

3、爬虫分类

　　通用爬虫：抓取的数据大多是无用的，不能根据用户的需求来精准获取数据。

　　　　搜索引擎网站排名SEO：竞价排名

　　聚焦爬虫：根据需求，实现爬虫程序，抓取需要的数据

　　　　设计思路：确定要爬的url -->模拟浏览器通过http协议访问url，获取服务器返回返回的html代码-->解析html字符串

4、反爬手段

　　1、user-agent：用户代理，它是一个特殊的字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

　　2、代理IP：西次代理、快代理

　　　　什么是高匿名，匿名，透明代理，区别

　　　　透明代理：对方服务器可以知道你使用了代理，并且也知道你的真实IP

　　　　匿名代理：对方服务器可以知道你使用了代理，但是不知道你的真实IP

　　　　高匿名代理：对方服务器不知道你使用了代理，更不知道你的真实IP

　　3、验证码：打码平台，云打码平台、超级

　　4、动态加载网页：网站返回的是js数据并不是网页的真实数据，selenium驱动真实的浏览器发送请求。

　　5、数据加密：分析js代码

posted @ 2022-04-11 15:26 归零19 阅读(67) 评论(0) 收藏举报

刷新页面返回顶部

归零19