爬虫介绍

爬虫:获取互联网信息的程序,由于程序行为像蜘蛛所以将这类程序称为爬虫。

解释1:通过一个程序根据url爬取网页,获取有用的额信息。
解释2:使用程序模拟浏览器,去向服务器发送请求,获取相应信息。

  • 爬虫网页:爬取整个网页,包含了网页中所有的内容。
  • 解析数据:将网页中得到的数据进行解析,获取针对性需要的内容。
  • 难点:反爬虫技术。

爬虫的用途:数据分析、社交软件冷启动、竞争对手监控等。

爬虫的分类:通用爬虫和聚焦爬虫。

聚焦爬虫 根据需求获取针对性的信息的爬虫。

反爬虫手段:①User Agent ②代理IP ③验证码访问 ④动态加载页面(假数据) ⑤数据加密

posted @ 2025-06-29 23:15  takenika  阅读(58)  评论(0)    收藏  举报