abloger

2024年6月11日

摘要： lxml 库是用来解析XML和HTML网页内容的 Xpath 库则是用来查询数据（XPath表达式是一种在XML文档中查找信息的语言，它同样适用于HTML文档）注意xpath中索引是从1开始而不是0 简单示例： # 先pip install lxml import requests from lx 阅读全文

posted @ 2024-06-11 17:04 abloger 阅读(138) 评论(0) 推荐(0)

2024年6月5日

爬虫 | 基本步骤和解析网页的几种方法

摘要：爬虫的步骤可以简单的概括为：获取网页并拿到HttpResponse对象，一般都是urllib库或者requests库 # 设置要爬取的网页，以及headers伪装浏览器（最基本防反扒手段） url = 'https://example.com' headers = { "User-Agent":" 阅读全文

posted @ 2024-06-05 18:31 abloger 阅读(340) 评论(0) 推荐(0)

爬虫 | 关于SSL证书的处理（requests库）

摘要： SSL证书是方法一：暴力 verify = False response = requests.get('https://example.com', verify=False) # 强烈建议不要在生产环境中使用 verify=False， # 因为它会使你的请求容易受到中间人攻击（Man-in-t 阅读全文

posted @ 2024-06-05 17:56 abloger 阅读(1729) 评论(0) 推荐(0)

公告