第一次爬虫之旅

1.首先是明白cookie和 Session

cookie:给客户端们颁发一个通行证吧,每人一个,无论谁访问都必须携带自己通行证。这样服务器就能从通行证上确认客户身份了。这就是Cookie的工作原理

 客户端浏览器访问服务器的时候,服务器把客户端信息以某种形式记录在服务器上。这就是Session。

2.什么是URI?

Web上每种可用的资源,如 HTML文档、图像、视频片段、程序等都由一个通用资源标志符(Universal Resource Identifier, URI)进行定位。 

URI通常由三部分组成:

①访问资源的命名机制;②存放资源的主机名;③资源自身 的名称,由路径表示。

如下面的URI:
http://www.why.com.cn/myhtml/html1223/

我们可以这样解释它:

①这是一个可以通过HTTP协议访问的资源,②位于主机 www.webmonkey.com.cn上,③通过路径“/html/html40”访问。 

URL是URI的一个子集。它是Uniform Resource Locator的缩写,译为“统一资源定位 符”

URL的格式由三部分组成: 

①第一部分是协议(或称为服务方式)。②第二部分是存有该资源的主机IP地址(有时也包括端口号)。③第三部分是主机资源的具体地址,如目录和文件名等。

第一部分和第二部分用“://”符号隔开,第二部分和第三部分用“/”符号隔开。第一部分和第二部分是不可缺少的,第三部分有时可以省略。 

posted @ 2016-02-26 15:25  cutd  阅读(193)  评论(0编辑  收藏  举报