摘要:
BS把HTML看做一个树形,以标签和文本为基本类型,一个标签包含其他标签,被解析为一个标签是另一个标签的子树。那么,最终整个HTML文档被解析为一棵树的形式。 BS包括四种基本类型: Soup(树),Tag(标签节点),String(字符节点),Comment... 阅读全文
posted @ 2020-06-02 23:16
BruceLan
阅读(412)
评论(0)
推荐(0)
摘要:
1、用tag获取相应代码块的剖析树: contents属性是一个列表,里面保存了该剖析树的直接儿子。 如:1 html = soup.contents[0] # ... 2 head = html.contents[0] # ... 3 body = h... 阅读全文
posted @ 2020-06-02 10:21
BruceLan
阅读(79)
评论(0)
推荐(0)
浙公网安备 33010602011771号