爬虫的过程

1.获取网页

可以通过urllib(标准库)、requests(第三方库)来获取网页源代码。

 

2.提取信息

通过Beautiful Soup、lxml等库来分析网页源代码,从中提取我们想要的数据。

 

3.保存数据

可以保存为txt或json格式,也可以保存到数据库。

posted @ 2019-10-20 15:09  Like-66  阅读(121)  评论(0)    收藏  举报