网络爬虫
爬取信息的流程
不管是通用的网络爬虫还是聚焦性爬虫,其实爬取网页并且获取信息大概按顺序分为以下一些步骤:
(1)选择你想要爬取的网站的网址,和想要的信息(例如图片或者文字或者音频等)
(2)获取User-Agent,它的作用是将爬虫伪装成浏览器发送信息,让被爬取的网站认为我们是用户的主观点击,而不是一个程序运行的结果。
(3)通过request获取url,从而得到网页源码,然后在源码中查找数据。
(4)获取网页响应,这里很重要,也要注意反爬。
(5)通过url获取网页源代码,然后通过正则表达式获取所需要的信息
(6)保存获取的信息
浙公网安备 33010602011771号