Python爬虫入门

前言

爬虫,从本质上来说,就是利用程序在网上拿到对我们有价值的数据。

一般来说,传统的拿数据的做法是:通过浏览器上网,手动下载所需要的数据。其实在这背后,浏览器做了很多我们看不见的工作,而只有了解浏览器的工作原理后,才能真正理解爬虫在帮我们做什么。

而爬虫可以模拟浏览器去向服务器发出请求;其次,等服务器响应后,爬虫程序还可以代替浏览器帮我们解析数据;接着,爬虫可以根据我们设定的规则批量提取相关数据,而不需要我们去手动提取;最后,爬虫可以批量地把数据存储到本地。

爬虫的工作分为四步:

1)获取数据:爬虫程序会根据我们提供的网址,向服务器发起请求,然后返回数据

2)解析数据:爬虫程序会把服务器返回的数据解析成我们能读懂的格式

3)提取数据:爬虫程序再从中提取出我们需要的数据

4)存储数据:爬虫程序把这些有用的数据保存起来,便于你日后的使用和分析

robots协议

robots协议是互联网爬虫的一项公认的道德规范,它的全称是“网络爬虫排除标准”(robots exclusion protocol),这个协议用来告诉爬虫,哪些页面是可以抓取的,哪些不可以。

我们使用robots协议的场景通常是:看到想获取的内容后,检查一下网站是否允许爬取。因此我们只需要能找到、简单读懂robots协议就足够了。

posted @ 2020-01-04 17:43  KeenLeung  阅读(302)  评论(0编辑  收藏  举报