会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
abloger
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
2024年6月11日
爬虫 | xpath + lxml 库 解析爬取网页
摘要: lxml 库是用来解析XML和HTML网页内容的 Xpath 库则是用来查询数据(XPath表达式是一种在XML文档中查找信息的语言,它同样适用于HTML文档) 注意xpath中索引是从1开始而不是0 简单示例: # 先pip install lxml import requests from lx
阅读全文
posted @ 2024-06-11 17:04 abloger
阅读(100)
评论(0)
推荐(0)
2024年6月5日
爬虫 | 基本步骤和解析网页的几种方法
摘要: 爬虫的步骤可以简单的概括为: 获取网页并拿到HttpResponse对象,一般都是urllib库或者requests库 # 设置要爬取的网页,以及headers伪装浏览器(最基本防反扒手段) url = 'https://example.com' headers = { "User-Agent":"
阅读全文
posted @ 2024-06-05 18:31 abloger
阅读(280)
评论(0)
推荐(0)
爬虫 | 关于SSL证书的处理(requests库)
摘要: SSL证书是 方法一:暴力 verify = False response = requests.get('https://example.com', verify=False) # 强烈建议不要在生产环境中使用 verify=False, # 因为它会使你的请求容易受到中间人攻击(Man-in-t
阅读全文
posted @ 2024-06-05 17:56 abloger
阅读(1598)
评论(0)
推荐(0)
上一页
1
2
公告