网络爬虫

 

爬取信息的流程

不管是通用的网络爬虫还是聚焦性爬虫,其实爬取网页并且获取信息大概按顺序分为以下一些步骤:

(1)选择你想要爬取的网站的网址,和想要的信息(例如图片或者文字或者音频等)

(2)获取User-Agent,它的作用是将爬虫伪装成浏览器发送信息,让被爬取的网站认为我们是用户的主观点击,而不是一个程序运行的结果。

(3)通过request获取url,从而得到网页源码,然后在源码中查找数据。

(4)获取网页响应,这里很重要,也要注意反爬。

(5)通过url获取网页源代码,然后通过正则表达式获取所需要的信息

(6)保存获取的信息



posted @ 2021-11-08 13:52  lujin1999  阅读(69)  评论(0)    收藏  举报