TCP/IP和网络编程

本章论述了TCP/IP和网络编程,分为两个部分。第一部分论述了TCP/IP协议及其应用,具体包括TCP/IP栈、IP地址、主机名、DNS、IP数据包和路由器;介绍了TCP/P网络中的UDP和TCP协议、端口号和数据流;阐述了服务器-客户机计算模型和套接字编程接口;通过使用UDP和TCP套接字的示例演示了网络编程。第一个编程项目可实现一对通过互联网执行文件操作的TCP服务器–客户机,可让用户定义其他通信协议来可靠地传输文件内容。第二部分介绍了Web和CGI编程,解释了HTTP编程模型、Web页面和Web浏览器;展示了如何配置Linux HTTPD服务器来支持用户Web页面、PHP和CGI编程;阐释了客户机和服务器端动态Web页面;演示了如何使用PHP和CGI创建服务器端动态Web页面。

TCP/IP协议

TCP/IP (Comer 1988, 2001; RFC1180 1991)是互联网的基础。TCP代表传输控制协议。IP代表互联网协议。目前有两个 版本的IP, 即IPv4和IPv6。IPv4使用32位地址,1Pv6则使用128位地址。本节围绕IPv4进行讨论,它仍然是目前使用最多的IP版本。TCP/IP的组织结构分为几个层级,通常称为TCP/IP堆栈。

IP主机和IP地址
主机是支持TCP/IP 协议的计算机或设备。
每个主机由一个32位的IP地址来标识。为了方便起见,32位的P地址号通常用点记法表示,例如:134.121.64.1,其中各个字节用点号分开。
主机也可以用主机名来表示,如dns1.eec.wsu.edu。
IP地址分为两部分,即 NetworkID字段和HostID字段。根据划分,IP地址分为A~E类。例如,一个B类IP地址被划分为一个16位NetworkID,其中前2位是10,然后是一个16位的HostID字段。发往IP地址的数据包首先被发送到具有相同networkID 的路由器。路由器将通过HostID将数据包转发到网络中的特定主机。每个主机都有一个本地主机名localhost,默认IP地址为127.0.0.1。本地主机的链路层是一个回送虚拟设备,它将每个数据包路由回同一个localhost。这个特性可以让我们在同一台计算机上运行TCP/IP 应用程序,而不需要实际连接到互联网。

IP协议
IP协议用于在IP 主机之间发送/接收数据包。IP尽最大努力运行。IP 主机只向接收主机发送数据包,但它不能保证数据包会被发送到它们的目的地,也不能保证按顺序发送。这意味着 IP并非可靠的协议。必要时,必须在IP 层的上面实现可靠性。

IP数据包
IP数据包由IP头、发送方IP 地址和接收方IP 地址以及数据组成。每个IP数据包的大小最大为64KB。IP 头包含有关数据包的更多信息,例如数据包的总长度、数据包使用 TCP 还是 UDP、生存时间(TTL)计数、错误检测的校验和等。

路由器
路由器可作为接受和转发数据包的特殊IP主机传输相隔很远的IP主机间的数据包

UDP
UDP(用户数据报协议)在IP上运行,用于发送/接收数据报。与IP类似,UDP不能保证可靠性,但是快速高效。它可用于可靠性不重要的情况。

TCP
TCP(传输控制协议)是一种面向连接的协议,用于发送/接收数据流。TCP也可在IP 上运行,但它保证了可靠的数据传输。通常,UDP类似于发送邮件的USPS,而TCP类似于电话连接。

端口编号
端口号是分配给应用程序的唯一无符号短整数。要想使用UDP或TCP,应用程序(进程)必须先选择或获取一个端口号。前1024个端口号已被预留。其他端口号可供一般使用。应用程序可以选择一个可用端口号,也可以让操作系统内核分配端口号。

网络和主机节序
计算机可以使用大端字节序,也可以使用小端字节序。在互联网上,数据始终按网络序排列,这是大端。在小端机器上,例如基于Intel x86的PC,htons()、htonl()、ntohs()、ntohl()等库函数,可在主机序和网络序之间转换数据。例如,PC中的端口号1234按主机字节序(小端)是无符号短整数。必须先通过htons(1234)把它转换成网络序,才能使用。相反,从互联网收到的端口号必须先通过ntohs(port)转换为主机序。

网络编程

网络编程平台,用户可选择使用服务器上的用户账号进行编程或者直接使用PC设备

  • 服务器-客户机计算模型
    大多数网络编程任务都基于服务器-客户机计算模型。在服务器-客户机计算模型中,我们首先在服务器主机上运行服务器进程。然后,我们从客户机主机运行客户机。在 UDP 中,服务器等待来自客户机的数据报,处理数据报并生成对客户机的响应。在TCP 中、服务器等待客户机连接。客户机首先连接到服务器,在客户机和服务器之间建立一个虚拟电路。建立连接后,服务器和客户机可以交换连续的数据流。

      int socket(int domain, int type, int protocol);       
      // domain:采取的协议族,一般为 PF_INET;type:数据传输方式,一般为 SOCK_STREAM;protocol:使用的协议,一般设为 0 即可。
      //成功时返回文件描述符,失败时返回 -1
    

创建套接字的函数 socket 的三个参数的含义:
domain:使用的协议族。一般只会用到 PF_INET,即 IPv4 协议族。
type:套接字类型,即套接字的数据传输方式。主要是两种:SOCK_STREAM(即 TCP)和 SOCK_(即 UDP)。
protocol:选择的协议。一般情况前两个参数确定后,protocol 也就确定了,所以设为 0 即可。

套接字类型

同一个协议族可能有多种数据传输方式,因此在指定了 socket 的第一个参数后,还要指定第二个参数 type。
SOCK_STREAM 代表的是 TCP 协议,会创建面向连接的套接字,有如下特点:

  1. 可靠传输,传输的数据不会消失。
  2. 按序传输
    3.传输的数据没有边界:从面向连接的字节流角度理解。接收方收到数据后放到接收缓存中,用户使用 read 函数像读取字节流一样从中读取数据,因此发送方 write 的次数和接收方 read 的次数可以不一样。
    int tcp_socket = socket(PF_INET, SOCK_STREAM, 0);
    SOCK_DGRAM 代表的是 UDP 协议,会创建面向消息的套接字,有如下特点:
    1.快速传输。
    2.传输的数据可能丢失、损坏。
    3.传输的数据有数据边界:这意味着接收数据的次数要和传输次数相同,一方调用了多少次 write(send),另一方就应该调用多少次 read(recv)。
    4.限制每次传输的数据大小。
    int udp_socket = socket(PF_INET, SOCK_DGRAM, 0);

IPv4套接字结构

IPv4套接字地址结构通常称为“网际套接字地址结构”,它以sockaddr_in命名,定义在<netinnet/in.h>头文件中。

以下是网际(IPv4)套接字地址结构:sockaddr_in

    struct in_addr;
    {
    int_addr_t s_addr; /*32位IPv4的地址*/
                        /*网络字节命令*/
    };
    
    struct sockaddr_in 
    {
    uint8_t     sin_len;
    sa_family_t sin_family;
    in_port_t   sin_port;
    
    struct in_addr sin_addr;
    char           sin_zero[8];
    };

POIX规范只需要这个结构中的3个字段:sin_family、sin_add、sin_port。对于符合POIX的实现来说,定义额外的结构字段是可以接收的,这对于网际套接字地址结构来说也是正常的。几乎所有的实现都增加了sin_zero字段,所以所有的套接字地址结构大小都至少是16字节。

数据类型 说明 头文件
int8_t 带符号的8位整数 <sys/typcs.h>
uint8_t 无符号的8位整数 <sys/typcs.h>
int16_t 带符号的16位整数 <sys/typcs.h>
uint16_t 无符号的16位整数 <sys/typcs.h>
int32_t 带符号的32位整数 <sys/typcs.h>
uint32_t 无符号的32位整数 <sys/typcs.h>
sa_family_t 套接字地址结构的地址族 <sys/socket.h>
socklen_t 套接字地址结构的长度,一般为uint32_t <sys/socket.h>
in_addr_t IPv4地址,一般为unit32_t<netine/in.h>
in_port_t TCP或UDP端口,一般为uint16_t <netine/in.h>

通用套接字地址结构

通用套接字地址结构:sockaddr

    struct sockaddr
    {
    uint8_t           sa_len;
    sa_family_t       sa_family;
    char              sa_data[14];
    };

套接字地址

    struct sockaddr_in{
        sa_family_t sin_family;
        in_port_t sin_port;
        struct in_addr sin_addr;
    };
    struct in_addr{
        uint32_t s_addr;
    };
  • TCP/IP 网络的 sin_family 始终设置为AF_INET。
  • sin_port 包含按网络字节顺序排列的端口号。
  • sin addr是按网络字节顺序排列的主机 IP地址。

套接字API

服务器必须创建一个套接字,并将其与包含服务器IP地址和端口号的套接字地址绑定。它可以使用一个固定端口号,或者让操作系统内核选择一个端口号(如果 sin port为0)。为了与服务器通信,客户机必须创建一个套接字。对于UPD 套接字,可以将套接字绑定到服务器地址。如果套接字没有绑定到任何特定的服务器,那么它必须在后续的 sendto()/recvfrom()调用中提供一个包含服务器IP和端口号的套接字地址。

UDP套接字

    ssize_t sendto(int soCkfd,const void *buf,size_t len,int flags,
    const struct sockaddr *dest_addr,socklen_t addrlen);
    ssize_t recvfrom(int sockfd,void *buf,size_t len,int flags,
    struct sockaddr *src_addr,socklen_t *addrlen);

UDP套接字在创建套接字并将其绑定到服务器地址之后,TCP服务器使用listen()和 accept()来接收来自客户机的连接

int listen(int sockfd, int backlog);
listen()将sockfd引用的套接字标记为将用于接收连人连接的套接字。backlog 参数定义了等待连接的最大队列长度。

int accept(int sockfd, struct sockaddr *addr, socklen t *addrlen)
accept()系统调用与基于连接的套接字一起使用。它提取等待连接队列上的第一个连接请求用于监听套接字sockfd,创建一个新的连接套接字,并返回一个引用该套接字的新文件描述符,与客户机主机连接。在执行accept()系统调用时,TCP服务器阻塞,直到客户机通过 connect()建立连接。

int connect(int sockfd, const struct sockaddr *addr, socklen_t addrlen);
connect()系统调用将文件描述符sockfd引用的套接字连接到addr指定的地址,addrlen 参数指定 addr的大小。addr中的地址格式由套接字sockfd的地址空间决定。
如果套接字 sockfd是SOCK_DGRAM类型,即UDP套接字,addr是发送数据报的默认地址,也是接收数据报的唯一地址。这会限制UDP套接字与特定UDP主机的通信,但实际上很少使用。所以对于UDP套接字来说,连接是可选的或不必要的。如果套接字是 SOCK_STREAM类型,即TCP套接字,connect()调用尝试连接到绑定到addr指定地址的套接字。

IPv6套接字地址结构

    struct in6_addr
    {
    unit8_t s6_add[16];
    };
    #define SIN6_LEN
    struct sockaddr_in6
    { 
    uint8_t           sin6_len;
    sa_family_t       sin6_family;
    in_port_t         sin6_port;
    uint32_t          sin6_flowinfo;
    struct in6_addr   sin6_addr;
    uint32_t          sin6_scope_id;
    };

新的struct sockaddr_storage足以容纳系统所支持的任何套接字地址结构。sockaddr_storage结构在<netinet/in.h>头文件中定义

    struct sockaddr_storage
    {
    uint8_t       ss_len;
    sa_family_t   ss_family;
    };