摘要: 安装lxml库 pip install lxml 具体使用方法 from lxml import etree #1. 将本地的html文档中的源码数据加载到etree对象。 etree.parse('file_path') #2. 将从互联网上获取的源码数据加载到etree对象中 etree.HTM 阅读全文
posted @ 2025-03-11 23:27 CodeCraftsMan 阅读(37) 评论(0) 推荐(0)
摘要: 目录正则表达式常用的元字符常用的函数分组操作:()命名组贪婪模式和非贪婪模式 正则表达式 正则表达式(Regular Expressions,简称 regex)是一种强大的工具,用于匹配和处理文本。Python 通过 re 模块提供了对正则表达式的支持。下面是一些基本的使用方法: 常用的元字符 .: 阅读全文
posted @ 2025-03-11 22:56 CodeCraftsMan 阅读(126) 评论(0) 推荐(0)
摘要: 目录1. get最简单的爬虫2. 带上身份和参数的爬虫3. 使用post进行对json进行爬取 1. get最简单的爬虫 使用requests包请求网址,并爬取网址,并获取其中html文件内容 import requests as r url='http://www.baidu.com/' #发起请 阅读全文
posted @ 2025-03-11 15:16 CodeCraftsMan 阅读(72) 评论(0) 推荐(0)