BeautifulSoup简介

简介

BeautifulSoup是一个高效的网页解析库，可以从 HTML 或 XML 文件中提取数据。

beautifulsoup支持不同的解析器，比如，对HTML解析，对XML解析，对HTML5解析。一般情况下，我们用的比较多的是 lxml 解析器。

当前最新的 Beautiful Soup 版本为4.4.0，Beautiful Soup 3 当前已停止维护。

安装

pip install beautifulsoup4

使用时导入：

from bs4 import BeautifulSoup

使用

编写一个test.html

<!DOCTYPE html>
<html>
<head>
    <title>BeautifulSoup入门</title>
</head>
<body>
<p>你好</p>
<a href="www.baidu.com">百度一下</a>
<p id='content'>BeautifulSoup是一个高效的网页解析库，可以从 HTML 或 XML 文件中提取数据。</p>
</body>
</html>

接着将 html 的源代码传给 BeautifulSoup:

from bs4 import BeautifulSoup
soup = BeautifulSoup(open('test.html', encoding='utf-8'),'lxml')

后面都是从soup这个对象获取我们要的内容。

获取标题的内容

>>> print(soup.title.string)
BeautifulSoup入门

获取 p 标签里面的内容

>>> print(soup.p.string)
你好

获取 title 的父级标签

>>> print(soup.title.parent.name)
head

获取超链接

>>> print(soup.a)
<a href="www.baidu.com">百度一下</a>

获取所有超链接

>>> print(soup.find_all('a'))
[<a href="www.baidu.com">百度一下</a>]

获取 id 为 content 的标签

>>> print(soup.find(id="content"))
<p id="content">BeautifulSoup是一个高效的网页解析库，可以从 HTML 或 XML 文件中提取数据。</p>

获取网页中所有的内容

>>> print(soup.get_text())


BeautifulSoup入门


你好
百度一下
BeautifulSoup是一个高效的网页解析库，可以从 HTML 或 XML 文件中提取数据。

除了find方法之外，如果你对css比较熟悉，也可以使用 select 方法

print(soup.select("title"))
print(soup.select("body p"))
print(soup.select("body >  #content"))

参考链接：

1. https://zhuanlan.zhihu.com/p/56108228

2. https://zhuanlan.zhihu.com/p/59822990

posted @ 2020-01-16 16:56 Rogn 阅读(1625) 评论(0) 收藏举报

刷新页面返回顶部

Rogn

BeautifulSoup简介

简介

安装

使用

公告