3.SIGPIPE问题

  人怕牺牲,我们写的程序也一样,人有死不瞑目,程序又何尝不是?程序跑着跑着,突然就崩掉了。好一点的牺牲前告诉你些打印,差点的也能用core文件等一些手段查出死在哪了,最惨不忍睹的就是程序没了,core也没了,这真是死得莫名其妙。我们在写socket程序时,也会有这种困扰。

  下面我又要开始极尽构造之能事了,客户端代码如下:

 1 #include <stdio.h>
 2 #include <stdlib.h>
 3 #include <unistd.h>
 4 #include <string.h>
 5 #include <sys/types.h>
 6 #include <sys/socket.h>
 7 #include <netinet/in.h>
 8 #include <netdb.h>
 9 
10 #define  PORT        1234
11 #define  MAXDATASIZE 1000
12 
13 int main(int argc, char *argv[])
14 {
15     int  sockfd, num;
16     char  szbuf[MAXDATASIZE] = {0};
17     struct sockaddr_in server;
18     
19     if (argc != 2) 
20     {
21         printf("Usage:%s <IP Address>\n", argv[0]);
22         exit(1);
23     }
24     
25     if ((sockfd=socket(AF_INET, SOCK_STREAM, 0)) == -1)
26     {
27         printf("socket()error\n");
28         exit(1);
29     }
30     bzero(&server, sizeof(server));
31     server.sin_family = AF_INET;
32     server.sin_port = htons(PORT);
33     server.sin_addr.s_addr = inet_addr(argv[1]);
34     if (connect(sockfd, (struct sockaddr *)&server, sizeof(server)) == -1)
35     {
36         printf("connect()error\n");
37         exit(1);
38     }
39 
40     memset(szbuf, 'a', sizeof(szbuf));
41     while (1)
42     {
43         printf("a send\n");
44         send(sockfd, szbuf, sizeof(szbuf), 0);
45         sleep(10);
46     }
47     
48     close(sockfd);
49     
50     return 0;
51 }
client

  然后是服务器代码:

 1 #include <stdio.h>
 2 #include <stdlib.h>
 3 #include <string.h>
 4 #include <unistd.h>
 5 #include <sys/types.h>
 6 #include <sys/socket.h>
 7 #include <netinet/in.h>
 8 #include <arpa/inet.h>
 9 
10 #define  PORT         1234
11 #define  BACKLOG      5
12 #define  MAXDATASIZE  1000
13 
14 int main()
15 {
16     int  listenfd, connectfd;
17     struct  sockaddr_in server;
18     struct  sockaddr_in client;
19     socklen_t  addrlen;
20     char    szbuf[MAXDATASIZE + 1] = {0};
21     int     num = 0;
22     
23     if ((listenfd = socket(AF_INET, SOCK_STREAM, 0)) == -1)
24     {
25         perror("Creating  socket failed.");
26         exit(1);
27     }
28     
29     int opt = SO_REUSEADDR;
30     setsockopt(listenfd, SOL_SOCKET, SO_REUSEADDR, &opt, sizeof(opt));
31     
32     bzero(&server, sizeof(server));
33     server.sin_family = AF_INET;
34     server.sin_port = htons(PORT);
35     server.sin_addr.s_addr = htonl(INADDR_ANY);
36     if (bind(listenfd, (struct sockaddr *)&server, sizeof(server)) == -1) 
37     {
38         perror("Bind()error.");
39         exit(1);
40     }   
41     if (listen(listenfd, BACKLOG) == -1)
42     {
43         perror("listen()error\n");
44         exit(1);
45     }
46     
47     addrlen = sizeof(client);
48     if ((connectfd = accept(listenfd, (struct sockaddr*)&client, &addrlen)) == -1) 
49     {
50         perror("accept()error\n");
51         exit(1);
52     }
53     printf("You got a connection from cient's ip is %s, prot is %d\n", inet_ntoa(client.sin_addr), htons(client.sin_port));
54 
55     while (1)
56     {
57         memset(szbuf, 0, sizeof(szbuf));
58         if ((num = recv(connectfd, szbuf, MAXDATASIZE,0)) == -1)
59         {
60             printf("recv() error\n");
61             exit(1);
62         }
63         szbuf[num - 1] = '\0';
64         printf("num = %d, Client Message: %s\n", num, szbuf);
65     }
66     
67     close(connectfd);
68     close(listenfd);
69     
70     return 0;
71 }
server

  对于客户端来说,任劳任怨地每隔10s给你服务器喂一次数据,够意思了吧。可服务器不是这么想的,“兄弟,我本来是不想拉你的,可如果你实在不行,就跟我一起去吧”!果然,这两个测试程序最后都挂了,具体该怎么操作呢?

  首先,服务器在收到一条数据后,果断Ctrl+C掉,客户端在打印三个“a send”之后,也莫名地一命呜呼了,没有任何信息。奇哉!(这种情况还是很常见的,一个进程如果因为别的进程的异常而导致崩溃,这也是不合理的)

  啊哈,这就是因为SIGPIPE了,就是这个信号最终导致我们客户端程序无端牺牲的。不信我们接着看。

  SIGPIPE产生的原因也是很明显的,网上一搜一大堆。我们自己也可以抓包看一下(这里就不贴出来了)。服务器挂掉后,客户端的数据再次到达服务器(第二次send),这时服务器会产生一个RST应答,如果客户端再次向服务器发送数据时(第三次send),内核会向客户端进程发送一个SIGPIPE。再看一下系统对该信号的默认处理方式,“终止进程”!所以客户端不崩溃才是奇怪的。

  回过头来看,在客户端程序中发生这种异常是不被允许的,怎么办呢?我们对客户端进行修改,代码如下:

 1 #include <stdio.h>
 2 #include <stdlib.h>
 3 #include <unistd.h>
 4 #include <string.h>
 5 #include <sys/types.h>
 6 #include <sys/socket.h>
 7 #include <netinet/in.h>
 8 #include <netdb.h>
 9 #include <signal.h>
10 
11 #define  PORT        1234
12 #define  MAXDATASIZE 1000
13 
14 int main(int argc, char *argv[])
15 {
16     int  sockfd, num;
17     char  szbuf[MAXDATASIZE] = {0};
18     struct sockaddr_in server;
19     
20     if (argc != 2) 
21     {
22         printf("Usage:%s <IP Address>\n", argv[0]);
23         exit(1);
24     }
25 
26     signal(SIGPIPE, SIG_IGN);
27     
28     if ((sockfd=socket(AF_INET, SOCK_STREAM, 0)) == -1)
29     {
30         printf("socket()error\n");
31         exit(1);
32     }
33     bzero(&server, sizeof(server));
34     server.sin_family = AF_INET;
35     server.sin_port = htons(PORT);
36     server.sin_addr.s_addr = inet_addr(argv[1]);
37     if (connect(sockfd, (struct sockaddr *)&server, sizeof(server)) == -1)
38     {
39         printf("connect()error\n");
40         exit(1);
41     }
42 
43     memset(szbuf, 'a', sizeof(szbuf));
44     while (1)
45     {
46         printf("a send\n");
47         send(sockfd, szbuf, sizeof(szbuf), 0);
48         sleep(10);
49     }
50     
51     close(sockfd);
52     
53     return 0;
54 }
修改后client

  没错,就加一句话signal(SIGPIPE, SIG_IGN)就可以了。

  最后测试一下,同样的操作,客户端程序没有终止,而是一直傻不啦叽地在那“苦苦相守”啊!

  TCP链路是全双工的,我们不能保证谁向谁发数据。所以,在编写TCP程序时,不管是客户端还是服务器进程,都需要加入对SIGPIPE的处理,这也是必不可少的。

 

4.recv和recvfrom返回值要注意(这一点没有详细关注过,记录一下,有问题请指出来)

  如果拿3中的代码进行测试,很容易发现,服务器和客户端运行正常时,将客户端Ctrl+C掉,这时服务器就陷入了死循环之中。很显然,recv没有返回-1。

  纵观所有的套接字函数,一般来说,返回值为-1表示异常或者链路已经断开,像accept或者send等。我们也喜欢使用这些函数的返回值来作为应用层断开链接或者重新初始化的重要依据。为何recv不是呢?另外,对比之前的readn函数和writen函数,readn中有这样一句:

33         else if (nread == 0)

34         {

35             break;

36         }

Recv返回0有什么特殊的含义呢?

  只能通过man的方式查看函数的说明:

  These calls return the number of bytes received, or -1 if an error occurred. The return value will be 0 when the peer has performed an orderly shutdown.网络断开时,返回0,应该是表示对端已经关闭。

  为什么Recv需要返回0这种特殊的状态呢?想到一个解释,只能做参考。希望知道确定答案的人能分享一下。

  对于send来说,只需要区分网络正常和异常两种状态,正常就发送,异常就关闭,无需过多地处理。但recv不一样,收到的数据,得保证它们的完整性。一般来说,对端正常关闭的,本地收到的数据是完整的,之前收到的数据可以正常取用。可是对于网络异常终结的,之前收到的数据很有可能是不完整的,所以需要丢弃。这两种都表示对端的关闭,可对于本地接收任务来说是截然不同的。正常结束的,返回0,表示结尾,认为正常;异常结束的,返回-1,认为异常。

  通过到这里的学习,我们可以推断,当调用readn返回值与期望值不等时,我们就可以认定对端已经“优雅”地关闭了,我们也不用再跑下去了,释放资源重新开始吧!

  不管结论怎样,这个细节上的差异,需要引起我们的注意。稍有不慎,就像3中的代码一样,永远进入了一个死循环。