数据解析

常用数据解析的方法

lxml模块

简介

lxml模块可以利用XPath规则语法，来快速的定位HTML\XML 文档中特定元素以及获取节点信息（文本内容、属性值）
XPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言，可用来在 HTML\XML 文档中对元素和属性进行遍历。
提取xml、html中的数据需要lxml模块和xpath语法配合使用

谷歌浏览器插件

xpath helper插件可以帮助我们提高效率

xpath基础结点选择语法

lxml模块的安装与使用

# 安装
pip3 install lxml

# lxml模块的使用
from lxml import etree

html = etree.HTML(text) 
ret_list = html.xpath("xpath语法规则字符串")
print(ret_list)  # 返回的是符合条件的列表

pyquery模块

# 功能类似于jQuery 选择器的语法

from pyquery import PyQuery as pq

"""
====> 下列方法括号内可以有参数，该参数可以是任何 jQuery 选择器的语法，
find():找出指定子元素 
filter():对结果进行过滤，找出指定元素 
children():获取所有子元素
parent():获取父元素
parents():获取祖先元素
siblings():获取兄弟元素
"""

# 初始化
textParse = pq(一段HTML代码)

# 获取
result = textParse('CSS标签').text()
print(result)


"""
add_class():增加class
remove_class():移除class
remove():删除指定元素
"""
result2=textParse("a").attr("href")
print(result2)

re模块

见链接：https://www.yuque.com/shaoshuaiye/zbit9s/dnerky

posted @ 2022-02-14 16:25 程序员少帅阅读(63) 评论(0) 收藏举报

刷新页面返回顶部

程序员少帅

即使再小的帆也能远航！

数据解析

常用数据解析的方法

lxml模块

简介

谷歌浏览器插件

xpath基础结点选择语法

lxml模块的安装与使用

pyquery模块

re模块

公告