Python爬虫 #001基本知识

1.1-基础爬虫

(1)概念:请求网站提取数据的自动化程序

(2)步骤:发出请求 > 获取响应内容 > 解析内容 > 保存数据

​ Tip:响应状态:200成功,301跳转,404找不到页面,502服务器错误

(3)主要模块:

  • urllib
    • 一个python自带库, 执行爬虫操作代码繁杂,不推荐使用
  • requests
    • 轻巧的爬虫库,可以取代urllib的使用
  • xpath
    • 解析数据简单,且selenium和scrapy都支持xpath语法解析数据
  • jsonpath
    • 许多动态加载的页面数据都为json数据,就可用jsonpath解析
  • BeautifulSoup
    • 解析数据相对简单,适于网页标签比较固定的情况
  • 正则案例
    • 提取数据困难,但正则应用的范围广


1.2-爬虫获取数据异常分析

获得数据为 [ ] 或 None

(1)标签有误

  • 严格根据子父级关系找标签
  • 在网页中,标签的某个属性有重复(如很多class=“news-list”的标签)

(2)实际获取的数据和浏览器所看的不一样

  • 网页显示标签为src,可在response.text中为src2或其他
  • 可在response.text中ctrl+f 查找src,观察标签是否被改动

(3)Ajax动态加载数据

  • 寻找‘真网址’,分析网址变化规律,替换真网址的请求头,不稳定,但效率高
  • 1585068122301
  • 使用selenium解决,稳定但效率低
posted @ 2023-06-28 22:53  枫_Null  阅读(12)  评论(0)    收藏  举报