Fork me on GitHub

Python爬虫-利用BeautifulSoup

可以通过下面链接,到官方文档学习相关信息。

https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

 

 

使用BeautifulSoup实现爬虫大体有三个步骤。

1、使用BeautifulSoup构造函数,创建一个解析网页的BeautifulSoup对象。

2、获取网页中的相关信息,并进行保存。

3、循环爬取网站中的网页。(构建一个url管理器)

 

使用lxml可以非常好的解析大多数的网页内容。

 

posted on 2016-06-23 11:21  地精的贪婪  阅读(229)  评论(0编辑  收藏  举报