数据解析

常用数据解析的方法

lxml模块

简介

  • lxml模块可以利用XPath规则语法,来快速的定位HTML\XML 文档中特定元素以及获取节点信息(文本内容、属性值)
  • XPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言,可用来在 HTML\XML 文档中对元素和属性进行遍历。
  • 提取xml、html中的数据需要lxml模块和xpath语法配合使用

谷歌浏览器插件

xpath helper插件可以帮助我们提高效率

xpath基础结点选择语法

lxml模块的安装与使用

# 安装
pip3 install lxml

# lxml模块的使用
from lxml import etree

html = etree.HTML(text) 
ret_list = html.xpath("xpath语法规则字符串")
print(ret_list)  # 返回的是符合条件的列表

pyquery模块

# 功能类似于jQuery 选择器的语法

from pyquery import PyQuery as pq

"""
====> 下列方法括号内可以有参数,该参数可以是任何 jQuery 选择器的语法,
find():找出指定子元素 
filter():对结果进行过滤,找出指定元素 
children():获取所有子元素
parent():获取父元素
parents():获取祖先元素
siblings():获取兄弟元素
"""

# 初始化
textParse = pq(一段HTML代码)

# 获取
result = textParse('CSS标签').text()
print(result)


"""
add_class():增加class
remove_class():移除class
remove():删除指定元素
"""
result2=textParse("a").attr("href")
print(result2)

re模块

见链接:https://www.yuque.com/shaoshuaiye/zbit9s/dnerky

posted @ 2022-02-14 16:25  程序员少帅  阅读(47)  评论(0)    收藏  举报