第二次作业 两人版 李昂 焦猛

代码仓库地址:https://gitee.com/liangruanjian/ruanjiancouple

 

本次任务主要是对一个给定的网页进行爬取。具体的操作就是爬取网页上的文本,保存下来,然后输入先前的wordcount中。

 

解题思路:主要使用了urllib库函数读入网页,还有BeautifulSoup库。BeautifulSoup中的findAll函数读取网页文本非常方便。

 

学习体会:python的爬虫技术相对已经非常成熟。可用的丰富的库函数也大大方便了爬虫的使用。接下来还要对聚焦式爬虫,增量式网络爬虫等进行进一步的了解与体会。

posted @ 2019-01-17 14:21  李昂软件  阅读(103)  评论(0)    收藏  举报