Python.爬虫练习

网上了解到，存在如下2个地址，用以练习 Python 爬虫代码在此先记录一下，免得以后忘了

1. http://www.glidedsky.com/
>> 这个地址需要邮箱验证，但邮箱验证业务，好像有问题，发不了邮件；

2. https://cuiqingcai.com/9522.html

------------------------------

在 http://www.glidedsky.com/ 上初始跟进代码时，自己陷入了一个误区，后期需特别注意

习惯于前后端分离业务的开发，在 Debug 时，总是习惯性只跟踪 XHR 调用；完全没意识到，需要跟踪的是前端数据；而不是后端接口调用数据；

关于 HTML 源码解析处理

安装 lxml 包，

from lxml import etree 来进行解析处理

lxml 加载HTML文本后，会解析成树型结构；之后可使用 XPath 进行节点匹配及数据处理

XPath 语法规则：

更多XPath 应用方法，可参考：https://blog.csdn.net/m0_73978383/article/details/146946257

posted @ 2025-10-16 11:29 耗喜天涯阅读(23) 评论(0) 收藏举报

刷新页面返回顶部

耗喜天涯