爬虫介绍
爬虫:获取互联网信息的程序,由于程序行为像蜘蛛所以将这类程序称为爬虫。
解释1:通过一个程序根据url爬取网页,获取有用的额信息。
解释2:使用程序模拟浏览器,去向服务器发送请求,获取相应信息。
- 爬虫网页:爬取整个网页,包含了网页中所有的内容。
- 解析数据:将网页中得到的数据进行解析,获取针对性需要的内容。
- 难点:反爬虫技术。
爬虫的用途:数据分析、社交软件冷启动、竞争对手监控等。
爬虫的分类:通用爬虫和聚焦爬虫。
聚焦爬虫 根据需求获取针对性的信息的爬虫。
反爬虫手段:①User Agent ②代理IP ③验证码访问 ④动态加载页面(假数据) ⑤数据加密

浙公网安备 33010602011771号