第二周 网络爬虫之提取之BeautifulSoup

 

 

学习网站:中国大学MOOC

网址:https://www.icourse163.org/

首先安装BeautifulSoup, 这个不多说了。。。

安装小测:

demo是老师提供的一个测试网址。

 

 

BeautifulSoup对应一个HTML/XML文档的全部内容

BeautifulSoup可以通过标签名访问其内容如:

每个标签都有一个名字,可通过name属性访问,也可以通过parent.name访问其父标签名:

 

标签(Tag)的属性:attrs

标签树的下行遍历:

标签树的上行遍历:

标签树的平行遍历:

bs4库的prettify()方法:
  prettify可以让输出的文本更加整洁(加上了换行符)。

posted @ 2018-06-24 23:18  cherro  阅读(152)  评论(0)    收藏  举报