Python爬虫 #001基本知识

1.1-基础爬虫
1.2-爬虫获取数据异常分析

1.1-基础爬虫

（1）概念：请求网站提取数据的自动化程序

（2）步骤：发出请求 > 获取响应内容 > 解析内容 > 保存数据

Tip:响应状态：200成功，301跳转，404找不到页面，502服务器错误

（3）主要模块：

urllib
- 一个python自带库，执行爬虫操作代码繁杂，不推荐使用
requests
- 轻巧的爬虫库，可以取代urllib的使用
xpath
- 解析数据简单，且selenium和scrapy都支持xpath语法解析数据
jsonpath
- 许多动态加载的页面数据都为json数据，就可用jsonpath解析
BeautifulSoup
- 解析数据相对简单，适于网页标签比较固定的情况
正则案例
- 提取数据困难，但正则应用的范围广

1.2-爬虫获取数据异常分析

获得数据为 [ ] 或 None

（1）标签有误

严格根据子父级关系找标签
在网页中，标签的某个属性有重复（如很多class=“news-list”的标签）

（2）实际获取的数据和浏览器所看的不一样

网页显示标签为src，可在response.text中为src2或其他
可在response.text中ctrl+f 查找src，观察标签是否被改动

（3）Ajax动态加载数据

寻找‘真网址’，分析网址变化规律，替换真网址的请求头，不稳定，但效率高
使用selenium解决，稳定但效率低

posted @ 2023-06-28 22:53 枫_Null 阅读(12) 评论(0) 收藏举报

刷新页面返回顶部