爬虫开坑之路(一)

什么是爬虫

  网络爬虫(web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网网络机器人(bots)。爬虫是通过网页的链接地址来寻找网页,从网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到按照某种条件把互联网上所有的网页都抓取完为止的技术。

 由Vector version by dnet based on image by User:ChaTo - self-made, based on image from PhD. Thesis of Carlos Castillo, image released to public domain by the original author.

                      某爬虫的结构  

爬虫的工作原理

  简单来说就是从给定的入口进入然后按逻辑获取需要的信息资源。原理主要是通过http或者其他协议,发送请求到目标接口,然后解析返回的内容成结构化数据存储到本地。

URL(爬虫的开始)

  URL(A Uniform Resource Locator),即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。

  而爬虫就是根据预先设定的一个或若干初始种子URL开始,以此获得初始网页上的URL列表,在爬行过程中不断从URL队列中获一个的URL,进而访问并下载该页面。页面下载后页面解析器去掉页面上的HTML标记后得到页面内容,将摘要、URL等信息保存到Web数据库中,同时抽取当前页面上新的URL,保存到URL队列,直到满足所设定停止条件。

 

  URL 的格式由三部分组成:

     •第一部分是协议(或称为服务方式)。(如http)

    •第二部分是存有该资源的主机IP地址(有时也包括端口号)。(如www.example.com)

    •第三部分是主机资源的具体地址,如目录和文件名等。(如index.html)

  这样就是一个基本的URL:http://www.example.com/index.html

 

环境配置

  本鶸的爬虫开坑之路都是基于Ubuntu 18.04 LTS + Python3.6.5 + Pycharm的,在Linux下还是Jetbrains的IDE比较好用。代码编辑器可以选择Sublime Text 3,VS code或者notepad++。这些都看自己的喜好来选择,下部分正式开坑...

 


 

Reference:WiKiPedia

posted @ 2018-05-26 16:52  RiverVan  阅读(96)  评论(0编辑  收藏  举报