Python模块之parsel 网页内容数据解析模块

模块作用简介:

parsel 数据解析模块.Parsel库,由Scrapy团队开发,提供高效HTML/XML解析方案,支持CSS选择器、XPath及正则表达式,实现数据快速抓取。


官方 英文 帮助:https://docs.python.org/3/library/
官方 简体中文 帮助:https://docs.python.org/zh-cn/3/library
parsel 官网: https://parsel.readthedocs.io/

崔庆才,安装方法: http://setup.scrape.center/parsel



必要操作:

>>> import parsel 


安装:

>>> pip install parsel 


导入包:

>>> import parsel


帮助查看:

>>> help(parsel)

或 单独查看某个子方法(函数)

>>> help(parsel.css())
>>> help(parsel.xpath())
>>> help(parsel.re())


方法(函数):

功能:parsel是一个库,支持三大功能

.css()
.xpath()
.re()


参数



返回值

返回True,否则返回False。



使用示例:

示例:

先创建一个parsel.Selector对象

from parsel import Selector

# html 可以是请求某个网页的源码,也可以是html,xml格式的字符串
selector = Selector(html)
tags = selector.css('.content')


示例: 标签选择器

p_tags = selector.css('p')
print(p_tags.get())
## 返回值:<p class="content">早上祝您端午节快乐!</p>
print(p_tags.getall())
## 返回值:['<p class="content">早上祝您端午节快乐!</p>', '<p class="content">晚上祝您端午节快乐!</p>']

get() 是将css() 查询到的第一个结果,以str类型返回
getall() 是将css() 查询所有p标签,将所有查询到内容,以列表返回



示例: 选取id为text的所有标签

# 选取id为text的所有标签
text = selector.css('#text')

print(text.get())
# <span id="text">你好,我是一行文字</span>


示例: 属性提取器

# 分别提取a标签中的href和title属性值
href_value = selector.css('a::attr(href)').get()
print(href_value)
# https://www.baidu.com

title_value = selector.css('a::attr(title)').get()
print(title_value)
# 百度搜索



示例: 属性选择器

属性选择器就是提取出标签中的文字

# 提取文字
string = selector.css('#text::text').get()

print(string)
# 你好,我是一行文字


示例2:

>>> 







相关文章:
Python安装包下载:https://www.cnblogs.com/wutou/p/17709685.html
Pip 源设置:https://www.cnblogs.com/wutou/p/17531296.html
pip 安装指定版本模块:https://www.cnblogs.com/wutou/p/17716203.html


参考、来源:
https://blog.csdn.net/zxctime/article/details/106962727







posted @ 2025-09-01 17:35  悟透  阅读(0)  评论(0)    收藏  举报