漫谈计算机网络：应用层 ----- 从DNS域名解析到WWW万维网再到P2P应用

2022-12-04 18:31:01 纪念一下博主的《漫谈计算机网络》连载博客浏览量破500了!

今天更新完结篇!

面试答不上？计网很枯燥? 听说你学习计网每次记了都会忘？不妨抽时间和我一起多学学它👇 深入浅出，用你的空闲时间来探索计算机网络的硬核知识！

👇博主的上篇连载博客《初识图像处理技术》

图像处理技术：数字图像分割 ------ 图像分割、边界分割（边缘检测）、区域分割 - slowlydance2me - 博客园 (cnblogs.com)

漫谈计算机网络连载的其他章节👇：

1.漫谈计算机网络：概述 ------ 从起源开始到分层协议结构，初识究竟什么是计算机网络？ - slowlydance2me - 博客园 (cnblogs.com)

2.漫谈计算机网络：物理层 ----- 双绞线&光纤？，从最底层开始了解计算机网络 - slowlydance2me - 博客园 (cnblogs.com)

3.漫谈计算机网络：数据链路层 ----- 数据链路路在何方? --从点对点数据传输到 "广泛撒网,重点捕获"的局域网 - slowlydance2me - 博客园 (cnblogs.com)

4.漫谈计算机网络：网络层 ------ 重点：IP协议与互联网路由选择协议 - slowlydance2me - 博客园 (cnblogs.com)

5.漫谈计算机网络: 运输层 ------ 从UDP ->TCP , 从面向通信->面向用户，三次握手/四次挥手? - slowlydance2me - 博客园 (cnblogs.com)

漫谈计算机网络：番外篇 ------网络安全相关知识——>公钥与私钥、防火墙与入侵检测 - slowlydance2me - 博客园 (cnblogs.com)

前言：

2022/11/27

　　众所周知，计算机网络在程序员的学习以及面试中占据十分重要的位置，同时它也是我们开启互联网世界的钥匙🔑。

　　因此，从今天（11/27）开始更新《漫谈计算机网络》一文，读者们可以跟着博主一起深入浅出，了解计算机网络知识，学习计算机网络的应用。

　　博主仍在不断学习进步中，在本文中对于计算机网络的理解与认识尚浅，如有错误之处烦请批评指正。

　　如有疑问欢迎评论区留言。

正文分割线：

今天更新！12/4

《漫谈计算机网络》第六章：应用层

终于，我们来到了《漫谈计算机网络》的最后一章，也是所有层次体系结构的最后一层————应用层

我们先来宏观地看看什么是应用层协议？

　　精确定义不同主机中的多个应用进程之间的通信规则。

　　包括：

　　　　应用进程交换的报文类型，如请求报文和响应报文。

　　　　各种报文类型的语法，如报文中的各个字段及其详细描述。

　　　　字段的语义，即包含在字段中的信息的含义。

　　　　进程何时、如何发送报文，以及对报文进行响应的规则。

重点在这里👇

互联网上用户与主机通信必须要知道对方的IP地址。IP地址太难记忆，怎么办？

来看看下面叭👇

6.1 域名系统 DNS

6.1.1 域名系统概述

　　互联网使用的命名系统。

　　用来把人们使用的机器名字（域名）转换为 IP 地址。

　　为互联网的各种网络应用提供了核心服务。

如图：

　　域名采用层次树状结构的命名方法：www.myschool.edu。

　　DNS 是一个联机分布式数据库系统，采用客户服务器方式。

　　域名到 IP 地址的解析是由若干个域名服务器程序共同完成。

　　域名服务器程序在专设的结点上运行，运行该程序的机器称为域名服务器。

DNS 使用 UDP 通信

6.1.2 互联网的域名结构

　　命名方法：层次树状结构方法。

　　　　任何一个连接在互联网上的主机或路由器，都有一个唯一的层次结构的名字，即域名 (domain name)。

　　域 (domain)：

　　　　名字空间中一个可被管理的划分。

　　　　可以划分为子域，而子域还可继续划分为子域的子域，这样就形成了顶级域、二级域、三级域，等等。

　　域名结构：层次结构。由标号 (label) 序列组成，各标号之间用点（.）隔开，各标号分别代表不同级别的域名。

全球顶级域名 TLD (Top Level Domain)

在国家顶级域名下注册的二级域名均由该国家自行确定。

我国把二级域名划分为“类别域名”和“行政区域名”两大类。

互联网的域名空间结构

域名树的树叶就是计算机的名字，它不能再继续往下划分子域了。

注意：互联网的名字空间是按照机构的组织来划分的，与物理的网络无关，与 IP 地址中的“子网”也没有关系。

6.1.3 域名服务器

　　实现域名系统使用分布在各地的域名服务器（DNS 服务器）。

　　一个服务器所负责管辖的（或有权限的）范围叫做区 (zone)。

　　各单位根据具体情况来划分自己管辖范围的区。但在一个区中的所有节点必须是能够连通的。

　　每一个区设置相应的权限域名服务器，用来保存该区中的所有主机的域名到 IP 地址的映射

DNS 服务器的管辖范围不是以“域”为单位，而是以“区”为单位。

区的不同划分方法举例

树状结构的 DNS 域名服务器

每个域名服务器都只对域名体系中的一部分进行管辖。

域名服务器类型

　　根据所起的作用，分为四种类型：

　　　　1. 根域名服务器

　　最高层次，最为重要。

　　所有根域名服务器都知道所有的顶级域名服务器的域名和 IP 地址。

　　不管是哪一个本地域名服务器，若要对互联网上任何一个域名进行解析，只要自己无法解析，就首先求助于根域名服务器。

　　若所有的根域名服务器都瘫痪了，整个互联网中的 DNS 系统就无法

工作了。

　　根域名服务器共有 13 套装置

　　　　根域名服务器共有 13 套装置，构成 13 组根域名服务器。

　　　　根域名服务器总共只有 13 个不同 IP 地址的域名，但并非仅由13台机器所组成。

根域名服务器分布在全世界。

为了提供更可靠的服务，在每一个地点的根域名服务器往往由多台机器组成。

根域名服务器采用任播 (anycast) 技术，当DNS 客户向某个根域名服务器发出查询报文时，路由器能找到离这个 DNS 客户最近的一个根域名服务器。

注意：

根域名服务器并不直接把域名转换成 IP 地址（根域名服务器也没有存放这种信息），而是告诉本地域名服务器下一步应当找哪一个顶级域名服务器进行查询。

　　　　2. 顶级域名服务器

　　顶级域名服务器（即 TLD 服务器）负责管理在该顶级域名服务器注册的所有二级域名。

　　当收到 DNS 查询请求时，就给出相应的回答（可能是最后的结果，也可能是下一步应当找的域名服务器的 IP 地址）。

　　　　3. 权限域名服务器

　　负责一个区（zone）的域名服务器。

　　当一个权限域名服务器还不能给出最后的查询回答时，就会告诉发出查询请求的 DNS 客户，下一步应当找哪一个权限域名服务器。

　　　　4. 本地域名服务器

　　非常重要。

　　当一个主机发出 DNS 查询请求时，该查询请求报文就发送给本地域名服务器。

　　每一个互联网服务提供者 ISP 或一个大学，都可以拥有一个本地域名服务器。

　　当所要查询的主机也属于同一个本地 ISP 时，该本地域名服务器立即就能将所查询的主机名转换为它的 IP 地址，而不需要再去询问其他的域名服务器。

　　本地域名服务器有时也称为默认域名服务器。

提高域名服务器的可靠性

　　DNS 域名服务器都把数据复制到几个域名服务器来保存，其中的一个是主域名服务器，其他的是辅助域名服务器。

　　当主域名服务器出故障时，辅助域名服务器可以保证 DNS 的查询工作不会中断。

　　主域名服务器定期把数据复制到辅助域名服务器中，而更改数据只

能在主域名服务器中进行，保证了数据的一致性。

域名的解析过程

迭代查询

递归查询（比较少用）

　　DNS查询都需要向根域名服务器发送请求进行查询，那么根域名服务器的负荷必然太大，而且查询效率低下。那应该怎么解决这个问题？

提高查询效率的方法

高速缓存

　　也称为高速缓存域名服务器。

　　存放最近用过的名字以及从何处获得名字映射信息的记录。

　　作用：大大减轻根域名服务器的负荷，使 DNS 查询请求和回答报文的数量大为减少。

　　域名服务器应为每项内容设置计时器，并处理超过合理时间的项。

　　当权限域名服务器回答一个查询请求时，在响应中指明绑定有效存在的时间值。增加此时间值可减少网络开销，而减少此时间值可提高域名转换的准确性。

重点在这👆

6.2 文件传送协议

6.2.1 FTP 概述

　　文件传送协议 FTP (File Transfer Protocol) 是互联网上使用得最广泛的文件传送协议。

　　提供交互式的访问，允许客户指明文件的类型与格式，并允许文件具有存取权限。

　　屏蔽了各计算机系统的细节，因而适合于在异构网络中任意计算机之间传送文件。

　　是文件共享协议的一个大类。

文件共享协议

　　文件传送协议：FTP， TFTP 等。

　　　　复制整个文件。对文件副本进行访问。

　　　　　　若要存取一个文件，就必须先获得一个本地文件副本。

　　　　　　若要修改文件，只能对文件副本进行修改，然后再将修改后的文件副本传回到原节　　　　　　　　　　　　　　　点。

　　联机访问 (on-line access) 协议：NFS 等。

　　　　允许同时对一个文件进行存取。

　　　　远地共享文件访问，如同对本地文件的访问一样。

　　　　透明存取，不需要对该应用程序作明显的改动。

　　　　由操作系统负责。

6.2.2 FTP 的基本工作原理

网络环境下复制文件的复杂性：

　　计算机存储数据的格式不同。

　　文件的目录结构和文件命名的规定不同。

　　对于相同的文件存取功能，操作系统使用的命令不同。

　　访问控制方法不同。

FTP 特点

　　只提供文件传送的一些基本服务，它使用 TCP 可靠的运输服务。

　　主要功能：减少或消除在不同操作系统下处理文件的不兼容性。

　　使用客户服务器方式。

　　　　一个 FTP 服务器进程可同时为多个客户进程提供服务。

　　　　 FTP 的服务器进程由两大部分组成：

　　　　　　一个主进程，负责接受新的请求；

　　　　　　若干个从属进程，负责处理单个请求。

FTP 主进程的工作步骤

1. 打开熟知端口（端口号为 21），使客户进程能够连接上。

2. 等待客户进程发出连接请求。

3. 启动从属进程来处理客户进程发来的请求。从属进程对客户进程的请求处理完毕后即终止，但从属进程在运行期间根据需要还可能创建其他一些子进程。

4. 回到等待状态，继续接受其他客户进程发来的请求。主进程与从属进程的处理是并发地进行。

FTP 客户和服务器之间的两个从属进程和两个 TCP 连接

联机访问 (on-line access) 协议 NFS 采用的思路

　　FTP 并非对所有的数据传输都是最佳的：仅能访问副本。

　　NFS 允许应用进程打开一个远地文件，并能在该文件的某一个特定的位置上开始读写数据。

　　NFS 可使用户只复制一个大文件中的一个很小的片段，而不需要复制整个大文件。

　　NFS 在网络上传送的只是少量的修改数据

6.2.3 简单文件传送协议 TFTP

　　TFTP (Trivial File Transfer Protocol) 是一个很小且易于实现的文件传送协议。

　　使用客户服务器方式和使用 UDP 数据报，因此 TFTP 需要有自己的差错改正措施。

　　只支持文件传输，不支持交互。

　　没有庞大的命令集，没有列目录的功能，也不能对用户进行身份鉴别。

　　优点：（1）可用于 UDP 环境；（2）代码所占的内存较小。

TFTP 的主要特点

　　每次传送的数据报文中有 512 字节的数据，但最后一次可不足 512字节。

　　数据报文按序编号，从 1 开始。

　　支持 ASCII 码或二进制传送。

　　可对文件进行读或写。

　　使用很简单的首部。

TFTP 的工作很像停止等待协议

　　发送完一个文件块后就等待对方的确认，确认时应指明所确认的块编号。

　　发完数据后在规定时间内收不到确认就要重发数据 PDU。

　　发送确认 PDU 的一方若在规定时间内未收到下一个文件块，需重发确认 PDU，保证文件的传送不致因某一个数据报的丢失而告失败。

TFTP 的工作过程

　　开始工作时，TFTP 客户进程发送一个读请求或写请求报文给 TFTP服务器进程，其 UDP 熟知端口号码为 69。

　　TFTP 服务器进程选择一个新的端口和 TFTP 客户进程进行通信。

　　若文件长度恰好为 512 字节的整数倍，则在文件传送完毕后，还必须在最后发送一个只含首部而无数据的数据报文。

　　若文件长度不是 512 字节的整数倍，则最后传送数据报文的数据字段一定不满 512 字节，作为文件结束的标志。

6.3 远程终端协议 TELNET

　　是一个简单的远程终端协议，是互联网的正式标准。

　　允许用户在其所在地通过 TCP 连接注册（即登录）到远地的另一个主机上（使用主机名或 IP 地址）。

　　能将用户的击键传到远地主机，同时也能将远地主机的输出通过TCP 连接返回到用户屏幕。

　　服务是透明的。

　　又称为终端仿真协议。

TELNET 使用客户 - 服务器方式

　　在本地系统运行 TELNET 客户进程，而在远地主机则运行 TELNET服务器进程。

　　服务器中的主进程等待新的请求，产生从属进程来处理每一个连接。

TELNET 使用网络虚拟终端 NVT 格式

TELNET 的选项协商 (Option Negotiation) 使客户和服务器可商定使用更多的终端功能，协商的双方是平等的。

NVT （Network Virtual Terminal ）格式

重点👇

6.4 万维网 WWW

6.4.1 万维网概述

　　万维网 WWW (World Wide Web) 并非某种特殊的计算机网络。

　　万维网是一个大规模的、联机式的信息储藏所。

　　万维网用链接的方法能非常方便地从互联网上的一个站点访问另一个站点，从而主动地按需获取丰富的信息。

　　这种访问方式称为“链接” 。

万维网是分布式超媒体 (hypermedia) 系统

　　是超文本 (hypertext) 系统的扩充。

　　超文本：由多个信息源链接成。是万维网的基础。

　　超媒体与超文本的区别：文档内容不同。

　　　　超文本文档仅包含文本信息。

　　　　超媒体文档还包含其他信息，如图形、图像、声音、动画，甚至活动视频图像等。

　　分布式系统

　　　　信息分布在整个互联网上。每台主机上的文档都独立进行管理。

万维网的工作方式

　　以客户服务器方式工作。

　　客户程序：浏览器。

　　服务器程序：在万维网文档所驻留的主机上运行。这个计算机也称为万维网服务器。

　　客户程序向服务器程序发出请求，服务器程序向客户程序送回客户所要的万维网文档。

　　在一个客户程序主窗口上显示出的万维网文档称为页面 (page)。

万维网必须解决的问题

(1) 怎样标志分布在整个互联网上的万维网文档？

　　使用统一资源定位符 URL (Uniform Resource Locator) 。

　　使每一个文档在整个互联网的范围内具有唯一的标识符 URL。

(2) 用什么协议来实现万维网上的各种链接？

　　使用超文本传送协议 HTTP (HyperText Transfer Protocol)。

　　HTTP 是一个应用层协议，使用 TCP 连接进行可靠的传送。

(3) 怎样使不同作者创作的不同风格的万维网文档都能在互联网上的各种主机上显示出来，同时使用户清楚地知道在什么地方存在着链接？

　　使用超文本标记语言 HTML (HyperText Markup Language) 。

(4) 怎样使用户能够很方便地找到所需的信息？

　　使用各种的搜索工具（即搜索引擎）。

6.4.2 统一资源定位符 URL

　　是对互联网上资源的位置和访问方法的一种简洁表示。

　　给资源的位置提供一种抽象的识别方法，并用这种方法给资源定位。

　　实际上就是在互联网上的资源的地址。

　　显然，互联网上的所有资源，都有一个唯一确定的URL。

　　资源：指在互联网上可以被访问的任何对象，包括文件目录、文件、文档、图像、声音等，以及与互联网相连的任何形式的数据。

URL 相当于一个文件名在网络范围的扩展。因此，URL 是与互联网相连的机器上的任何可访问对象的一个指针。

1. URL 的格式

l 由以冒号（:）隔开的两大部分组成，对字符大写或小写没有要求。

l 一般形式：

2. 使用 HTTP 的 URL

6.4.3 超文本传送协议 HTTP

　　HTTP 是面向事务的 (transaction-oriented) 应用层协议。

　　使用 TCP 连接进行可靠的传送。

　　定义了浏览器与万维网服务器通信的格式和规则。

　　是万维网上能够可靠地交换文件（包括文本、声音、图像等各种多媒体文件）的重要基础。

HTTP 不仅传送完成超文本跳转所必需的信息，而且也传送任何可从互联网上得到的信息，如文本、超文本、声音和图像等。

1. HTTP 的操作过程

用户浏览页面的两种方法

1. 在浏览器的地址窗口中键入所要找的页面的 URL。

2. 在某一个页面中用鼠标点击一个可选部分，这时浏览器会自动在互联网上找到所要链接的页面。

HTTP 的主要特点

　　HTTP 使用了面向连接的 TCP 作为运输层协议，保证了数据的可靠传输。

　　HTTP 协议本身也是无连接的。

　　HTTP 是无状态的 (stateless)，简化了服务器的设计，使服务器更容易支持大量并发的 HTTP 请求。

请求一个万维网文档所需的时间

协议 HTTP/1.0 的主要缺点

l 每请求一个文档就要有两倍 RTT 的开销。

l 客户和服务器每一次建立新的 TCP 连接都要分配缓存和变量。

l 这种非持续连接使服务器的负担很重。

改进: 协议 HTTP/1.1 使用持续连接

　　持续连接（persistent connection）：服务器在发送响应后仍然在一段时间内保持这条连接（不释放），使同一个客户（浏览器）和该服务器可以继续在这条连接上传送后续的 HTTP 请求报文和响应报文。

　　只要文档都在同一个服务器上，就可以继续使用该 TCP 连接。

　　两种工作方式：

　　　　非流水线方式 (without pipelining)

　　　　流水线方式 (with pipelining)。

改进: 协议 HTTP/2

　　是协议 HTTP/1.1 的升级版本。

1. 服务器可以并行发回响应（使用同一个 TCP 连接）。

2. 允许客户复用 TCP 连接进行多个请求。

3. 把所有的报文都划分为许多较小的二进制编码的帧，并采用了新的压缩算法，不发送重复的首部字段，大大减小了首部的开销，提高了传输效率。

4. 向后兼容。

代理服务器

　　代理服务器 (proxy server) 又称为万维网高速缓存 (Web cache)，它代表浏览器发出 HTTP 请求。

　　使用高速缓存可减少访问互联网服务器的时延。

不使用高速缓存的情况

使用高速缓存的情况

HTTP 的报文结构

两类报文：

　　请求报文：从客户向服务器的请求。

　　响应报文：从服务器到客户的回答。

　　由于 HTTP 是面向正文的 (text-oriented)，因此报文中每一个字段的值都是一些 ASCII 码串，每个字段的长度都是不确定的。

三个组成部分：

　　开始行：用于区分是请求报文还是响应报文。

　　首部行：说明浏览器、服务器或报文主体的一些信息。可以有多行，也可以不使用。

　　实体主体：请求报文中一般不用，响应报文中也可能没有该字段。

HTTP 的报文结构（请求报文）

HTTP 请求报文的一些方法

HTTP 请求报文举例

HTTP 的报文结构（响应报文）

状态码

在服务器上存放用户的信息

万维网使用 Cookie 跟踪在 HTTP 服务器和客户之间传递的状态信息。

6.4.4 万维网的文档

　　在一个客户程序主窗口上显示出的万维网文档称为页面 (page)。

　　页面制作的标准语言：HTML。

　　分为：

　　　　静态万维网文档。内容不会改变。简单。

　　　　动态万维网文档。文档的内容由应用程序动态创建。

　　　　活动万维网文档。由浏览器端改变文档的内容。

超文本标记语言 HTML

　　超文本标记语言 HTML (HyperText Markup Language) 是一种制作万维网页面的标准语言，它消除了不同计算机之间信息交流的障碍，是万维网的重要基础 [RFC 2854]。

　　最新 HTML 5.0 增加了<audio>和<video>两个标签，实现对多媒体中的音频、视频使用的支持，增加了能够在移动设备上支持多媒体功能

注意：HTML 不是应用层的协议，它只是万维网浏览器使用的一种语言。

　　HTML 定义了许多用于排版的命令（即标签）。

　　HTML 把各种标签嵌入到万维网的页面中，构成了所谓的 HTML文档。

　　HTML 文档是一种可以用任何文本编辑器创建的 ASCII 码文件。

　　HTML 文档的后缀：.html 或 .htm。

HTML 文档中标签的用法

XML

　　可扩展标记语言 XML (Extensible Markup Language) 和HTML 很相似。

　　设计宗旨是：传输数据，而不是显示数据。

　　特点和优点：

　　　　可用来标记数据、定义数据类型；

　　　　允许用户对自己的标记语言进行自定义，并且是无限制的；

　　　　简单，与平台无关；

　　　　将用户界面与结构化数据分隔开来；

XHTML

　　可扩展超文本标记语言 XHTML (Extensible HTML) 与 HTML4.01 几乎相同，是更严格的 HTML 版本。

　　作为一种 XML 应用被重新定义的 HTML，将逐渐取代 HTML。

CSS

　　层叠样式表 CSS (Cascading Style Sheets) 是一种样式表语言，用于为 HTML 文档定义布局。

　　CSS 与 HTML 的区别：HTML 用于结构化内容，而 CSS 则用于格式化结构化的内容。

　　例如：精确规定在浏览器上显示的字体、颜色、边距、高度、宽度、背景图像等。

动态万维网文档

　　静态文档：该文档创作完毕后就存放在万维网服务器中，在被用户浏览的过程中，内容不会改变。

　　动态文档：文档的内容是在浏览器访问万维网服务器时才由应用程序动态创建。

　　动态文档和静态文档之间的主要差别体现在服务器端：文档内容的生成方法不同。从浏览器的角度看，这两种文档并没有区别。

万维网服务器功能的扩充

　　(1) 增加一个应用程序：处理浏览器发来的数据，并创建动态文档。

　　(2) 增加一个机制：使万维网服务器把浏览器发来的数据传送给这个应用程序，然后万维网服务器能够解释这个应用程序的输出，并向浏览器返回 HTML 文档。

CGI

　　通用网关接口 CGI (Common Gateway Interface) ：定义动态文档应如何创建，输入数据应如何提供给应用程序，以及输出结果应如何使用的一种标准。

　　通用：CGI 标准所定义的规则对其他任何语言都是通用的。

　　网关：CGI 程序的作用像网关。

　　接口：有一些已定义好的变量和调用等可供其他 CGI 程序使用。

CGI 网关程序

　　正式名字：CGI 脚本 (script)。

　　脚本：指的是一个程序，它被另一个程序（解释程序）而不是计算机的处理机来解释或执行。

　　脚本语言 (script language)：如 Perl, JavaScript，Tcl/Tk 等。也可用一些常用的编程语言写出，如 C，C++等。

　　脚本运行起来要比一般的编译程序要慢。

　　脚本不一定是一个独立的程序，可以是一个动态装入的库，甚至是服务器的一个子程序。

活动万维网文档

　　活动文档 (active document) 技术：把屏幕连续更新的工作转移给浏览器端。

　　每当浏览器请求一个活动文档时，服务器就返回一段程序副本在浏览器端运行。

　　活动文档程序可与用户直接交互，并可连续地改变屏幕的显示。

　　由于活动文档技术不需要服务器的连续更新传送，对网络带宽的要求也不会太高。

用 Java 语言创建活动文档

　　Java 语言是一项用于创建和运行活动文档的技术。

　　在 Java 技术中使用小应用程序 (applet) 来描述活动文档程序。

　　用户从万维网服务器下载嵌入了 applet 的 HTML 文档后，可在浏览器的屏幕上点击某个图像，就可看到动画效果，或在下拉式菜单中点击某个项目，就可看到计算结果。

　　ava 技术是活动文档技术的一部分。

6.4.5 万维网的信息检索系统

　　使用户能够很方便地找到所需的信息。

　　在万维网中用来进行搜索的程序叫做搜索引擎 (search engine)。

全文检索搜索和分类目录搜索

一些著名的搜索引擎

垂直搜索引擎

　　垂直搜索引擎 (Vertical Search Engine) ：

　　　　针对某一特定领域、特定人群或某一特定需求提供搜索服务。

　　　　也是提供关键字来进行搜索，但被放到一个行业知识的上下文中，返回的结果更倾向于信息、消息、条目等。

　　　　目前热门的垂直搜索行业有：购物、旅游、汽车、求职、房产、交友等。

元搜索引擎

　　元搜索引擎 (Meta Search Engine) ：

　　　　把用户提交的检索请求发送到多个独立的搜索引擎上去搜索，并把检索结果集中统一处理，以统一的格式提供给用户，因此是搜索引擎之上的搜索引擎。

　　　　主要精力放在提高搜索速度、智能化处理搜索结果、个性化搜索功能的设置和用户检索界面的友好性上。

　　　　其查全率和查准率都比较高。

Google 搜索技术的特点

　　核心技术：网页排名（PageRank）

　　　　对搜索结果按重要性排序。

　　　　对链接的数目进行加权统计。来自重要网站的链接，其权重较大。

　　　　进行超文本匹配分析，确定哪些网页与正在执行的特定搜索相关。

　　　　在综合考虑整体重要性以及与特定查询的相关性之后，Google就把最相关、最可靠的搜索结果放在首位。

6.4.6 博客和微博

6.4.7 社交网站

6.5 电子邮件

6.5.1 电子邮件概述

　　电子邮件 (e-mail)：指使用电子设备交换的邮件及其方法。

　　优点：使用方便，传递迅速，费用低廉，可以传送多种类型的信息（包括：文字信息，声音和图像等）。

　　重要标准：

　　　　简单邮件发送协议：SMTP

　　　　互联网文本报文格式

　　　　通用互联网邮件扩充 MIME

　　　　邮件读取协议：POP3 和 IMAP

电子邮件系统的组成：三个主要构件

用户代理 UA (User Agent)

邮件服务器 (Mail Server)

邮件发送和读取协议

发送和接收电子邮件的重要步骤

电子邮件的组成

　　电子邮件由信封 (envelope) 和内容 (content) 两部分组成。

　　电子邮件的传输程序根据邮件信封上的信息来传送邮件。

　　用户在从自己的邮箱中读取邮件时才能见到邮件的内容。

电子邮件地址的格式

6.5.2 简单邮件传送协议 SMTP

SMTP 通信的三个阶段

1. 连接建立：

连接是在发送主机的 SMTP 客户和接收主机的 SMTP服务器之间建立的。SMTP 不使用中间的邮件服务器。

2. 邮件传送

3. 连接释放：

邮件发送完毕后，SMTP 应释放 TCP 连接。

6.5.3 电子邮件的信息格式

6.5.4 邮件读取协议 POP3 和 IMAP

两个常用的邮件读取协议：

1. POP3：邮局协议 (Post Office Protocol) 第3个版本

2. IMAP：网际报文存取协议 (Internet Message Access Protocol)

IMAP 的特点

　　连接后只下载邮件首部（部分下载）。

　　用户直接在 IMAP 服务器上创建和管理文件夹。

　　用户可以搜索邮件内容。

　　用户可以在不同的地方使用不同的计算机随时上网阅读和处理自己的邮件。

　　允许收信人只读取邮件中的某一个部分。

　　缺点：要想查阅邮件，必须先联网。

IMAP 与 POP3 比较

6.5.5 基于万维网的电子邮件

用户代理 (UA) 的缺点：

　　必须在计算机中安装用户代理软件。

　　收发邮件不方便。

万维网电子邮件优点：

　　不需要在计算机中再安装用户代理软件。

　　计算机能联网，就能非常方便地收发电子邮件。

　　界面非常友好。

6.5.6 通用互联网邮件扩充 MIME

SMTP 缺点：

　　不能传送可执行文件或其他的二进制对象。

　　限于传送 7 位的 ASCII 码，无法传送非 ASCII 编码的信息。

　　服务器会拒绝超过一定长度的邮件。

　　某些 SMTP 的实现并没有完全按照 [RFC 821] 的 SMTP 标准。

　　通用互联网邮件扩充 MIME 并没有改动 SMTP 或取代它。

　　意图：继续使用目前的 [RFC 822] 格式，但增加了邮件主体的结构，并定义了传送非 ASCII 码的编码规则

MIME 和 SMTP 的关系

MIME 主要包括三个部分

　　 5 个新的邮件首部字段。

　　定义了许多邮件内容的格式，对多媒体电子邮件的表示方法进行了标准化。

　　定义了传送编码，可对任何内容格式进行转换，而不会被邮件系统改变。

MIME内容类型

Multipart 很有用，使邮件增加了相当大的灵活性

MIME 举例

重点👆

6.6 动态主机配置协议 DHCP

　　在协议软件中，给协议参数赋值的动作叫做协议配置。

　　一个协议软件在使用之前必须是已正确配置的。

　　具体的配置信息取决于协议栈。

　　连接到互联网的计算机的协议软件需要正确配置的参数包括：

1. IP 地址

2. 子网掩码

3. 默认路由器的 IP 地址

4. 域名服务器的 IP 地址

　　动态主机配置协议 DHCP (Dynamic Host Configuration Protocol) 提供了即插即用连网 (plug-and-play networking) 的机制，允许一台计算机加入网络和获取 IP 地址，而不用手工配置。

　　DHCP 给运行服务器软件、且位置固定的计算机指派一个永久地址，给运行客户端软件的计算机分配一个临时地址。

　　需要 IP 地址的主机在启动时就向 DHCP 服务器广播发送发现报文（DHCPDISCOVER），这时该主机就成为 DHCP 客户。

　　本地网络上所有主机都能收到此广播报文，但只有 DHCP 服务器才回答此广播报文。

　　DHCP 服务器先在其数据库中查找该计算机的配置信息。若找到，则返回找到的信息。若找不到，则从服务器的 IP 地址池 (addresspool) 中取一个地址分配给该计算机。DHCP服务器的回答报文叫做提供报文（DHCPOFFER）

DHCP 工作方式

DHCP 中继代理 (relay agent)

　　问题：每个网络上都需要有 DHCP 服务器吗？

　　答案：不需要，因为会使 DHCP 服务器的数量太多。

　　问题：若没有 DHCP 服务器，如何自动获得地址？

　　解决：每一个网络至少有一个 DHCP 中继代理，它配置了 DHCP服务器的 IP 地址信息。

租用期 (lease period)

　　DHCP 服务器分配给 DHCP 客户的 IP 地址的临时的，因此 DHCP客户只能在一段有限的时间内使用这个分配到的 IP 地址。DHCP 协议称这段时间为租用期。

　　租用期的数值应由 DHCP 服务器自己决定。

　　 DHCP 客户也可在自己发送的报文中（例如，发现报文）提出对租用期的要求。

DHCP 协议的工作过程

6.7 简单网络管理协议 SNMP

6.7.1 网络管理的基本概念

　　网络管理包括对硬件、软件和人力的使用、综合与协调，以便对网络资源进行监视、测试、配置、分析、评价和控制，这样就能以合理的价格满足网络的一些需求，如实时运行性能，服务质量等。

　　网络管理常简称为网管。

网络管理的五大功能

　　故障管理：故障检测、隔离和纠正。

　　配置管理：初始化网络、并配置网络。

　　计费管理：记录网络资源的使用。

　　性能管理：估价系统资源的运行状况及通信效率等。

　　网络安全管理：对授权机制、访问控制、加密和加密关键字的管理。

网络管理的一般模型

网络管理模型中的主要构件

　　管理站也常称为网络运行中心 NOC (Network Operations Center)，是网络管理系统的核心。

　　管理程序是管理站中的关键构件，在运行时就成为管理进程。

　　管理站（硬件）或管理程序（软件）都可称为管理者(manager)。Manager 不是指人，而是指机器或软件。

　　网络管理员 (administrator) 指的是负责网络管理的人员。

　　大型网络往往实行多级管理，因而有多个管理者，而一个管理者一般只管理本地网络的设备。

被管对象 (Managed Object)

　　网络的每一个被管设备（包括设备中的软件）中可能有多个被管对象。

　　被管设备有时可称为网络元素或网元。

　　在被管设备中也会有一些不能被管的对象。

代理 (agent)

　　在每一个被管设备中都要运行一个程序，以便和管理站中的管理程序进行通信。

　　这些运行着的程序叫做网络管理代理程序，或简称为代理。

　　代理程序在管理程序的命令和控制下在被管设备上采取本地的行动。

网络管理协议

　　网络管理协议简称为网管协议。

　　网络管理协议是管理程序和代理程序之间进行通信的规则。

　　网络管理员利用网络管理协议，通过管理站对网络中的被管设备进行管理。

　　注意：网管协议本身不管理网络。

简单网络管理协议 SNMP

　　简单网络管理协议 SNMP (Simple Network Management Protocol) 中的管理程序和代理程序按客户服务器方式工作。

　　管理程序运行 SNMP 客户程序，向某个代理程序发出请求 (或命令)。

　　代理程序运行 SNMP 服务器程序，返回响应 (或执行某个动作)。

　　在网管系统中，往往是一个（或少数几个）客户程序与很多的服务器程序进行交互

网络管理的基本原理

若要管理某个对象，就必然会给该对象添加一些软件或硬件，但这种“添加”必须对原有对象的影响尽量小些。

SNMP 的基本功能

　　最重要的指导思想：尽可能简单。

　　基本功能：

1. 监视网络性能

2. 检测分析网络差错

3. 配置网络设备等。

SNMP 的管理站和委托代理

　　整个系统必须有一个管理站。

　　若网络元素使用的不是 SNMP 而是另一种网络管理协议，SNMP 协议就无法控制该网络元素。这时可使用委托代理 (proxy agent)。

　　委托代理能提供协议转换和过滤操作等功能，对被管对象进行管理

SNMP 网络管理组成

　　SNMP 的网络管理由三个部分组成：

1. SNMP 本身

　　SNMP 定义了管理站和代理之间所交换的分组格式。

　　所交换的分组包含各代理中的对象（变量）名及其状态（值）。

　　SNMP 负责读取和改变这些数值。

2. 管理信息结构 SMI (Structure of Management Information)

　　SMI 定义了命名对象和定义对象类型（包括范围和长度）的通用规则，以及把对象和对象的值进行编码的规则，以确保网络管理数据的语法和语义的无二义性。

　　但从 SMI 的名称并不能看出它的功能。

　　SMI 并不定义一个实体应管理的对象数目，也不定义被管对象名以及对象名及其值之间的关联。

3. 管理信息库 MIB (Management Information Base)。

　　MIB 在被管理的实体中创建了命名对象，并规定了其类型。

　　管理程序使用 MIB 中的信息，对网络进行管理。

6.7.2 管理信息结构 SMI

SMI 的功能：

1. 被管对象应怎样命名；

2. 用来存储被管对象的数据类型有哪些种；

3. 在网络上传送的管理数据应如何编码。

SMI 规定：所有被管对象必须在命名树上

SMI 使用 ASN.1

　　SMI 标准指明：所有的 MIB 变量必须使用抽象语法记法 1 (ASN.1) 来定义。

　　SMI 既是 ASN.1 的子集，又是 ASN.1 的超集。

　　ASN.1 的记法很严格，使得数据的含义不存在任何可能的二义性

SMI 数据类型

ASN.1 部分数据类型

基本编码规则 BER

　　 ISO 在制订 ASN.1 语言的同时也为它定义了一种标准的编码方案，即基本编码规则 BER (Basic Encoding Rule)。

　　BER 指明了每种数据类型中每个数据的值的表示。

　　SMI 使用 ASN.1 制定的 BER 进行数据的编码。

　　发送端用 BER 编码，可将用 ASN.1 所表述的报文转换成唯一的比特序列。

　　接收端用 BER 进行解码，得到该比特序列所表示的 ASN.1 报文。

用 TLV 方法进行编码

TLV 中的 T 字段定义数据的类型

TLV 中的 L 字段定义 V 字段的长度

举例：

6.7.3 管理信息库 MIB

　　被管对象必须维持可供管理程序读写的若干控制和状态信息。这些信息总称为管理信息库 MIB (Management Information Base) 。

　　管理程序使用 MIB 中这些信息的值对网络进行管理（如读取或重新设置这些值）。

　　只有在 MIB 中的对象才是 SNMP 所能够管理的。

6.7.4 SNMP 的协议数据单元和报文

　　SNMP 的操作只有两种基本的管理功能：

　　　　1. “读”操作，用 get 报文来检测各被管对象的状况；

　　　　2. “写”操作，用 set 报文来改变各被管对象的状况。

　　SNMP 的这些功能通过探询操作来实现。

SNMP 的探询操作

　　SNMP 管理进程定时向被管理设备周期性地发送探询信息。

　　好处：

　　　　1. 可使系统相对简单。

　　　　2. 能限制通过网络所产生的管理信息的通信量。

　　缺点：

　　　　1. 不够灵活，而且所能管理的设备数目不能太多。

　　　　2. 开销也较大。

陷阱 (trap)

　　SNMP 允许不经过询问就能发送某些信息。这种信息称为陷阱，表示它能够捕捉“事件” 。

　　当被管对象的代理检测到有事件发生时，就检查其门限值。代理只向管理进程报告达到某些门限值的事件（即过滤）。

　　过滤的好处：

　　　　1. 仅在严重事件发生时才发送陷阱；

　　　　2. 陷阱信息很简单且所需字节数很少。

　　使用探询（至少是周期性地）以维持对网络资源的实时监视。

　　同时也采用陷阱机制报告特殊事件，使得 SNMP 成为一种有效的网络管理协议。

SNMP 使用无连接的 UDP

　　运行代理程序的服务器端用 UDP 熟知端口 161 接收 get 或 set 报文，发送响应报文。与熟知端口通信的客户端使用临时端口。

　　运行管理程序的客户端则使用 UDP 熟知端口 162 来接收来自各代理的 trap 报文。

前面我们讨论了互联网使用的多种应用层协议，但是很多应用程序又不能直接使用标准化的应用协议，那我们如何使用这些应用层协议从而连接互联网？？？

6.8 应用进程跨越网络的通信

6.8.1 系统调用和应用编程接口

　　大多数操作系统使用系统调用 (system call ) 的机制在应用程序和操作系统之间传递控制权。

　　对程序员来说，每一个系统调用和一般程序设计中的函数调用非常相似，只是系统调用是将控制权传递给了操作系统。

应用编程接口 API

　　系统调用接口实际上就是应用进程的控制权和操作系统的控制权进行转换的一个接口。

　　使用系统调用之前要编写一些程序，特别是需要设置系统调用中的许多参数，因此这种系统调用接口又称为应用编程接口 API(Application Programming Interface)

几种应用编程接口 API

　　Berkeley UNIX 操作系统定义了一种 API，它又称为套接字接口 (socket interface)。

　　微软公司在其操作系统中采用了套接字接口 API，形成了一个稍有不同的 API，并称之为 Windows Socket。

　　AT&T 为其 UNIX 系统 V 定义了一种 API，简写为 TLI (Transport Layer Interface)。

套接字的作用

　　当应用进程需要使用网络进行通信时就发出系统调用，请求操作系统为其创建套接字，以便把网络通信所需要的系统资源分配给该应用进程。

　　操作系统为这些资源的总和用一个套接字描述符的号码来表示。

　　应用进程所进行的网络操作都必须使用这个套接字描述符。

　　通信完毕后，应用进程通过一个关闭套接字的系统调用通知操作系统回收与该套接字描述符相关的所有资源。

调用 socket 创建套接字

6.8.2 几种常用的系统调用

　　当应用进程需要使用网络进行通信时，就发出系统调用。

　　使用 TCP/IP 应用编程接口 API，就可以编写基于互联网的网络应用程序了。

　　调用 API 时，用户可以使用 TCP 服务，也可以使用 UDP 等其他服务。

　　TCP 提供面向连接的服务。

　　使用 TCP 服务需要经历 3 个阶段：

1. 连接建立阶段

并发方式工作的服务器

2. 数据传送阶段

3. 连接释放阶段

6.9 P2P 应用

6.9.1 具有集中目录服务器的 P2P 工作方式

　　 Napster 最早使用 P2P 技术，提供免费下载 MP3 音乐。

　　Napster 将所有音乐文件的索引信息都集中存放在 Napster 目录服务器中。

　　使用者只要查找目录服务器，就可知道应从何处下载所要的 MP3文件。

　　用户要及时向 Napster 的目录服务器报告自己存有的音乐文件。

　　Napster 的文件传输是分散的，文件的定位则是集中的。

Napster 的工作过程

集中式目录服务器的缺点

6.9.2 具有全分布式结构的 P2P 文件共享程序

　　Gnutella 是第二代 P2P 文件共享程序，采用全分布方法定位内容的 P2P 文件共享应用程序。

　　 Gnutella 与 Napster 最大的区别：不使用集中式的目录服务器，而是使用洪泛法在大量 Gnutella 用户之间进行查询。

　　为了不使查询的通信量过大，Gnutella 设计了一种有限范围的洪泛查询，减少了倾注到互联网的查询流量，但也影响到查询定位的准确性。

　　第三代 P2P 文件共享程序采用分散定位和分散传输技术。例如KaZaA，电骡 eMule，比特洪流 BT (Bit Torrent) 等。

BT 协议

　　问题：哪些文件块是首先需要向其相邻对等方请求的？

　　方法：A 使用最稀有的优先 (rarest first) 的技术，首先向其相邻对等方请求对应的文件块。

　　稀有：如果 A 所缺少的文件块在相邻对等方中的副本很少，那就是“很稀有的” 。

　　问题：在很多向 A 请求文件块的相邻对等方中，A 应当向哪些相邻对等方发送所请求的文件块？

　　方法：凡当前以最高数据率向 A 传送文件块的某相邻对等方，A 就优先把所请求的文件块传送给该相邻对等方。

6.9.3 P2P 文件分发的分析

一些概念：

　　从互联网传送数据到主机，叫做下载 (download)，

　　从主机向互联网传送，则称为上传 (upload) 或上载。

6.9.4 在 P2P 对等方中搜索对象

　　Napster 在一个集中式目录服务器中构建查找数据库，简单，但性能上有瓶颈。

　　Gnutella 是一种采用全分布方法定位内容的 P2P 文件共享应用程序，它解决了集中式目录服务器所造成的瓶颈问题。但 Gnutella 是在非结构化的覆盖网络中采用查询洪泛的方法进行查找，因此查找

的效率较低

　　现在广泛使用的索引和查找技术叫做分布式散列表 DHT(Distributed Hash Table)。

　　DHT 也可译为分布式哈希表，由大量对等方共同维护。

　　广泛使用的 Chord 算法是美国麻省理工大学于 2001 年提出的

基于 DHT 的 Chord 环

　　分布式散列表 DHT 利用散列函数，把资源名 K 及其存放的结点

　 IP 地址 N 都分别映射为资源名标识符 KID 和结点标识符 NID。

　　Chord 把结点按标识符数值从小到大沿顺时针排列成一个环形覆盖网络。

　　每个资源由 Chord 环上与其标识符值最接近的下一个结点提供服务。

posted @ 2022-12-04 18:32 slowlydance2me 阅读(607) 评论(0) 收藏举报

刷新页面返回顶部