爬虫学习一_对爬虫的初步认识

在互联网上许许多多的网站它们都是托管在服务器上的这些服务器 24 小时运行着时时刻刻，兢兢业业的等待着别人的请求所以我们的爬虫，首先会模拟请求就好像你在浏览器输入网址，然后回车那样爬虫可以用到一些 Http 库向指定的服务器偷偷摸摸的发起请求，这个时候爬虫可以假装自己是浏览器（添加一些header信息）大多数的服务器呢，傻不拉的以为是浏览器发送请求就直接返回数据给爬虫了当然了，有一些网站比较精明所以他们会建立一些反爬虫机制但是，对于我们来说，不在话下反正这个时候呢，服务器把数据返回给我们了那么我们就可以对这些数据进行操作了。不同的情况下，服务器返回给我们的数据格式不一样有HTML,JSON,二进制的数据啦根据不同的情况，我们可以使用不同的方式对他们进行处理。处理完之后我们就可以对他们进行保存啦保存的方式也有几种数据库,硬盘,等等..以上就是爬虫的具体爬取流程