管理

节点文本相关操作

对于许多xml文件，一个根节点向下会有很多层级的子节点，通常会把文本放置到最最底层的节点
因此要想访问文本，就必须要访问最底层的那个节点
但也有一些xml文件，text会放置到中间层级的节点中，比如html

创建带文本节点

root = etree.Element("root")
root.text = "TEXT"
print(root.text)  #输出：TEXT
etree.tostring(root)  #b'<root>TEXT</root>'

节点文本相关操作

html = etree.Element("html")
body = etree.SubElement(html, "body")
body.text = "TEXT"
etree.tostring(html) # b'<html><body>TEXT</body></html>'

br = etree.SubElement(body, "br")
etree.tostring(html)  #b'<html><body>TEXT<br/></body></html>'
br.tail = "TAIL"
etree.tostring(html)  #b'<html><body>TEXT<br/>TAIL</body></html>'

etree.tostring(br)  #b'<br/>TAIL'
etree.tostring(br, with_tail=False)  #b'<br/>'
etree.tostring(html, method="text")  #b'TEXTTAIL'


#-----------------------使用xpath提取文本-----------------------------
print(html.xpath("string()")) #输出：TEXTTAIL
print(html.xpath("//text()")) #输出：['TEXT', 'TAIL']

build_text_list = etree.XPath("//text()")
print(build_text_list(html)) #输出：['TEXT', 'TAIL']，事先写好Xpath，并将xpath套用到html节点上

texts = build_text_list(html)
print(texts[0]) #输出：TEXT

parent = texts[0].getparent()
print(parent.tag) #输出：body

print(texts[1]) #输出：TAIL
print(texts[1].getparent().tag) #输出：br

stringify = etree.XPath("string()")
print(stringify(html)) #输出：TEXTTAIL
print(stringify(html).getparent()) #输出：NONE,由于通过string()获取是各个节点拼接的文本，因此无法获得其父节点


#----------------------判断是否为普通文本，或者是tail文本-----------------------------
print(texts[0].is_text) #输出：True
print(texts[1].is_text) #输出：False
print(texts[1].is_tail) #输出：True

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

posted @ 2019-10-28 16:35 立业的博客阅读(349) 评论(0) 收藏举报

刷新页面返回顶部