《自己动手写网络爬虫》读书笔记——网页基本知识

URI:

  Web上每种可用的资源,如HTML文档、图像、视频片段、程序等都是由一个通用资源标志符(Universal Ressource Identifier,URI)进行定位。

  URI通常由三部分组成:1)访问资源的命名机制;2)存放资源的主机名;3)资源本身的名称,由路径表示。

URL:

  URL是URI的一个子集,它是Uniform Resource Locator的缩写,译为“统一资源定位符”。通俗的说,URL是Internt上描述信息资源的字符串,主要用在

各种WWW客户程序和服务器程序上。采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。URL的格式由三部分组成:

  1)协议(或称为服务方式);

  2)存有该资源的主机IP地址(有时也包括端口号);

  3)主机资源的具体地址,如目录和文件名等。

  第一部分和第二部分用“:\\”符号隔开,第二部分和第三部分用“/”符号隔开。第一部分和第二部分是必不可少的,第三部分有时可以省略。

 

  爬虫最主要的处理对象就是URL,它根据URL地址取得所需要的文件内容,然后对它进行进一步的处理。

posted @ 2015-05-15 20:50  边军一小兵  阅读(147)  评论(0)    收藏  举报