网络爬虫

爬取信息的流程

不管是通用的网络爬虫还是聚焦性爬虫，其实爬取网页并且获取信息大概按顺序分为以下一些步骤：

（1）选择你想要爬取的网站的网址，和想要的信息（例如图片或者文字或者音频等）

（2）获取User-Agent，它的作用是将爬虫伪装成浏览器发送信息，让被爬取的网站认为我们是用户的主观点击，而不是一个程序运行的结果。

（3）通过request获取url，从而得到网页源码，然后在源码中查找数据。

（4）获取网页响应，这里很重要，也要注意反爬。

（5）通过url获取网页源代码，然后通过正则表达式获取所需要的信息

（6）保存获取的信息

posted @ 2021-11-08 13:52 lujin1999 阅读(69) 评论(0) 收藏举报

刷新页面返回顶部