Python.爬虫练习

网上了解到,存在如下2个地址,用以练习 Python 爬虫代码  在此先记录一下,免得以后忘了

1. http://www.glidedsky.com/
>> 这个地址需要邮箱验证,但邮箱验证业务,好像有问题,发不了邮件;

2. https://cuiqingcai.com/9522.html

------------------------------

在 http://www.glidedsky.com/ 上初始跟进代码时,自己陷入了一个误区,后期需特别注意

习惯于 前后端分离业务的开发,在 Debug 时,总是习惯性只跟踪 XHR 调用;完全没意识到,需要跟踪的是前端数据;而不是 后端接口调用数据;

 

关于 HTML 源码解析处理

安装 lxml 包,

from lxml import etree 来进行解析处理

lxml 加载HTML文本后,会解析成 树型结构;之后可使用 XPath 进行节点匹配及数据处理

XPath 语法规则:

image

 

更多XPath  应用方法,可参考:https://blog.csdn.net/m0_73978383/article/details/146946257

 

posted @ 2025-10-16 11:29  耗喜天涯  阅读(5)  评论(0)    收藏  举报