Python爬虫 #001基本知识
1.1-基础爬虫
(1)概念:请求网站提取数据的自动化程序
(2)步骤:发出请求 > 获取响应内容 > 解析内容 > 保存数据
Tip:响应状态:200成功,301跳转,404找不到页面,502服务器错误
(3)主要模块:
- urllib
- 一个python自带库, 执行爬虫操作代码繁杂,不推荐使用
- requests
- 轻巧的爬虫库,可以取代urllib的使用
- xpath
- 解析数据简单,且selenium和scrapy都支持xpath语法解析数据
- jsonpath
- 许多动态加载的页面数据都为json数据,就可用jsonpath解析
- BeautifulSoup
- 解析数据相对简单,适于网页标签比较固定的情况
- 正则案例
- 提取数据困难,但正则应用的范围广
1.2-爬虫获取数据异常分析
获得数据为 [ ] 或 None
(1)标签有误
- 严格根据子父级关系找标签
- 在网页中,标签的某个属性有重复(如很多class=“news-list”的标签)
(2)实际获取的数据和浏览器所看的不一样
- 网页显示标签为src,可在response.text中为src2或其他
- 可在response.text中ctrl+f 查找src,观察标签是否被改动
(3)Ajax动态加载数据
- 寻找‘真网址’,分析网址变化规律,替换真网址的请求头,不稳定,但效率高

- 使用selenium解决,稳定但效率低
本文来自博客园,作者:{枫_Null},转载请注明原文链接:https://www.cnblogs.com/fengNull/articles/15488737.html

浙公网安备 33010602011771号