Python模块之parsel 网页内容数据解析模块
模块作用简介:
parsel 数据解析模块.Parsel库,由Scrapy团队开发,提供高效HTML/XML解析方案,支持CSS选择器、XPath及正则表达式,实现数据快速抓取。
官方 英文 帮助:https://docs.python.org/3/library/
官方 简体中文 帮助:https://docs.python.org/zh-cn/3/library
parsel 官网: https://parsel.readthedocs.io/
崔庆才,安装方法: http://setup.scrape.center/parsel
必要操作:
>>> import parsel
安装:
>>> pip install parsel
导入包:
>>> import parsel
帮助查看:
>>> help(parsel)
或 单独查看某个子方法(函数)
>>> help(parsel.css())
>>> help(parsel.xpath())
>>> help(parsel.re())
方法(函数):
功能:parsel是一个库,支持三大功能
.css()
.xpath()
.re()
参数
返回值
返回True,否则返回False。
使用示例:
示例:
先创建一个parsel.Selector对象
from parsel import Selector
# html 可以是请求某个网页的源码,也可以是html,xml格式的字符串
selector = Selector(html)
tags = selector.css('.content')
示例: 标签选择器
p_tags = selector.css('p')
print(p_tags.get())
## 返回值:<p class="content">早上祝您端午节快乐!</p>
print(p_tags.getall())
## 返回值:['<p class="content">早上祝您端午节快乐!</p>', '<p class="content">晚上祝您端午节快乐!</p>']
get() 是将css() 查询到的第一个结果,以str类型返回
getall() 是将css() 查询所有p标签,将所有查询到内容,以列表返回
示例: 选取id为text的所有标签
# 选取id为text的所有标签
text = selector.css('#text')
print(text.get())
# <span id="text">你好,我是一行文字</span>
示例: 属性提取器
# 分别提取a标签中的href和title属性值
href_value = selector.css('a::attr(href)').get()
print(href_value)
# https://www.baidu.com
title_value = selector.css('a::attr(title)').get()
print(title_value)
# 百度搜索
示例: 属性选择器
属性选择器就是提取出标签中的文字
# 提取文字
string = selector.css('#text::text').get()
print(string)
# 你好,我是一行文字
示例2:
>>>
相关文章:
Python安装包下载:https://www.cnblogs.com/wutou/p/17709685.html
Pip 源设置:https://www.cnblogs.com/wutou/p/17531296.html
pip 安装指定版本模块:https://www.cnblogs.com/wutou/p/17716203.html
参考、来源:
https://blog.csdn.net/zxctime/article/details/106962727