Python模块之parsel 网页内容数据解析模块

模块作用简介：

parsel 数据解析模块.Parsel库，由Scrapy团队开发，提供高效HTML/XML解析方案，支持CSS选择器、XPath及正则表达式，实现数据快速抓取。

官方英文帮助：https://docs.python.org/3/library/
官方简体中文帮助：https://docs.python.org/zh-cn/3/library
parsel 官网： https://parsel.readthedocs.io/

崔庆才，安装方法： http://setup.scrape.center/parsel

必要操作：

>>> import parsel

安装：

>>> pip install parsel

导入包：

>>> import parsel

帮助查看：

>>> help(parsel)

或单独查看某个子方法（函数）

>>> help(parsel.css())
>>> help(parsel.xpath())
>>> help(parsel.re())

方法（函数）:

功能：parsel是一个库，支持三大功能

.css()
.xpath()
.re()

参数

返回值

返回True，否则返回False。

使用示例:

示例:

先创建一个parsel.Selector对象

from parsel import Selector

# html 可以是请求某个网页的源码，也可以是html，xml格式的字符串
selector = Selector(html)
tags = selector.css('.content')

示例: 标签选择器

p_tags = selector.css('p')

print(p_tags.get())
## 返回值：<p class="content">早上祝您端午节快乐！</p>

print(p_tags.getall())
## 返回值：['<p class="content">早上祝您端午节快乐！</p>', '<p class="content">晚上祝您端午节快乐！</p>']

get() 是将css() 查询到的第一个结果，以str类型返回
getall() 是将css() 查询所有p标签，将所有查询到内容，以列表返回

示例: 选取id为text的所有标签

# 选取id为text的所有标签
text = selector.css('#text')

print(text.get())
# <span id="text">你好，我是一行文字</span>

示例: 属性提取器

# 分别提取a标签中的href和title属性值
href_value = selector.css('a::attr(href)').get()
print(href_value)
# https://www.baidu.com

title_value = selector.css('a::attr(title)').get()
print(title_value)
# 百度搜索

示例: 属性选择器

属性选择器就是提取出标签中的文字

# 提取文字
string = selector.css('#text::text').get()

print(string)
# 你好，我是一行文字

示例2:

>>>

相关文章：
Python安装包下载：https://www.cnblogs.com/wutou/p/17709685.html
Pip 源设置：https://www.cnblogs.com/wutou/p/17531296.html
pip 安装指定版本模块：https://www.cnblogs.com/wutou/p/17716203.html
【汇总】Python模块 - 总目录 https://www.cnblogs.com/wutou/p/15610071.html

参考、来源：
https://blog.csdn.net/zxctime/article/details/106962727

posted @ 2025-09-01 17:35 悟透阅读(63) 评论(0) 收藏举报

刷新页面返回顶部

Python模块之parsel 网页内容数据解析模块

模块作用简介：

必要操作：

安装：

导入包：

帮助查看：

方法（函数）:

参数

返回值

使用示例:

示例:

示例: 标签选择器

示例: 选取id为text的所有标签

示例: 属性提取器

示例: 属性选择器

示例2:

公告