1.获取网页
可以通过urllib(标准库)、requests(第三方库)来获取网页源代码。
2.提取信息
通过Beautiful Soup、lxml等库来分析网页源代码,从中提取我们想要的数据。
3.保存数据
可以保存为txt或json格式,也可以保存到数据库。