爬虫的过程

1.获取网页

可以通过urllib(标准库)、requests(第三方库)来获取网页源代码。

2.提取信息

通过Beautiful Soup、lxml等库来分析网页源代码，从中提取我们想要的数据。

3.保存数据

可以保存为txt或json格式，也可以保存到数据库。

posted @ 2019-10-20 15:09 Like-66 阅读(125) 评论(0) 收藏举报

刷新页面返回顶部