Python.爬虫练习
网上了解到,存在如下2个地址,用以练习 Python 爬虫代码 在此先记录一下,免得以后忘了
1. http://www.glidedsky.com/
>> 这个地址需要邮箱验证,但邮箱验证业务,好像有问题,发不了邮件;
2. https://cuiqingcai.com/9522.html
------------------------------
在 http://www.glidedsky.com/ 上初始跟进代码时,自己陷入了一个误区,后期需特别注意
习惯于 前后端分离业务的开发,在 Debug 时,总是习惯性只跟踪 XHR 调用;完全没意识到,需要跟踪的是前端数据;而不是 后端接口调用数据;
关于 HTML 源码解析处理
安装 lxml 包,
from lxml import etree 来进行解析处理
lxml 加载HTML文本后,会解析成 树型结构;之后可使用 XPath 进行节点匹配及数据处理
XPath 语法规则:

更多XPath 应用方法,可参考:https://blog.csdn.net/m0_73978383/article/details/146946257

浙公网安备 33010602011771号