伪分布式系统的运行结束返回码

在进行分布式开发的过程中,不可避免的会遇到程序异常结束,一般而言,结束的同时分布式框架会返回一个返回码,有时候通过返回码就可以大致知道是因为什么原因程序异常退出了。

由于分布式系统一般运行在linux上,所以有些分布式框架的返回码的设计就与linux本身的signal有关。

相关分布式框架返回码更具体的意义需要看手册,只是说在不知道官方意义的前提下,通过和linux的signal的比较,可以大致知道什么原因,当然更大的前提是分布式框架的返回码是和linux的signal相关的,如果框架在设计的时候压根没考虑到linux的signal,那就不能去联想。

我们假定分布式框架的返回码和Linux的signal是有关联的。

 

1.分布式框架的返回码和linux的signal的关联

关联公式:128 + signal = exit code,举例,比如返回码是134,那么可以认为相应的signal是6,即SIGABRT,意味着进程内发生了非预期的异常导致进程被终止,再比如137,可以认为相应的返回码是9,我们都知道kill -9 pid是杀死进程,137也是一样的,或许是因为内存超限被杀掉,具体还需要分析,但是能大概给你一个感受。

 

2.linux的signal

上图展示了常见的64个signal,也可以用man 7 signal来查看具体的信号的意义。编号为1 ~ 31的信号为传统UNIX支持的信号,是不可靠信号(非实时的),编号为32 ~ 63的信号是后来扩充的,称做可靠信号(实时信号)。不可靠信号和可靠信号的区别在于前者不支持排队,可能会造成信号丢失,而后者不会。

对于这些信号,一般Linux存在三种处理方式,忽略、捕捉和默认动作:

  • 忽略信号,大多数信号可以使用这个方式来处理,但是有两种信号不能被忽略(分别是 SIGKILLSIGSTOP)。因为他们向内核和超级用户提供了进程终止和停止的可靠方法,如果忽略了,那么这个进程就变成了没人能管理的的进程,显然是内核设计者不希望看到的场景
  • 捕捉信号,需要告诉内核,用户希望如何处理某一种信号,说白了就是写一个信号处理函数,然后将这个函数告诉内核。当该信号产生时,由内核来调用用户自定义的函数,以此来实现某种信号的处理。
  • 系统默认动作,对于每个信号来说,系统都对应由默认的处理动作,当发生了该信号,系统会自动执行。不过,对系统来说,大部分的处理方式都比较粗暴,就是直接杀死该进程。
 
3.常见linux signal的释义

1) SIGHUP 
本信号在用户终端连接(正常或非正常)结束时发出, 通常是在终端的控制进程结束时, 通知同一session内的各个作业, 这时它们与控制终端不再关联。

登录Linux时,系统会分配给登录用户一个终端(Session)。在这个终端运行的所有程序,包括前台进程组和后台进程组,一般都 属于这个 Session。当用户退出Linux登录时,前台进程组和后台有对终端输出的进程将会收到SIGHUP信号。这个信号的默认操作为终止进程,因此前台进 程组和后台有终端输出的进程就会中止。不过可以捕获这个信号,比如wget能捕获SIGHUP信号,并忽略它,这样就算退出了Linux登录,wget也 能继续下载。

此外,对于与终端脱离关系的守护进程,这个信号用于通知它重新读取配置文件。

2) SIGINT 
程序终止(interrupt)信号, 在用户键入INTR字符(通常是Ctrl-C)时发出,用于通知前台进程组终止进程。

3) SIGQUIT 
和SIGINT类似, 但由QUIT字符(通常是Ctrl-\)来控制. 进程在因收到SIGQUIT退出时会产生core文件, 在这个意义上类似于一个程序错误信号。

4) SIGILL 
执行了非法指令. 通常是因为可执行文件本身出现错误, 或者试图执行数据段. 堆栈溢出时也有可能产生这个信号。

5) SIGTRAP 
由断点指令或其它trap指令产生. 由debugger使用。

6) SIGABRT 
调用abort函数生成的信号。

7) SIGBUS 
非法地址, 包括内存地址对齐(alignment)出错。比如访问一个四个字长的整数, 但其地址不是4的倍数。它与SIGSEGV的区别在于后者是由于对合法存储地址的非法访问触发的(如访问不属于自己存储空间或只读存储空间)。

8) SIGFPE 
在发生致命的算术运算错误时发出. 不仅包括浮点运算错误, 还包括溢出及除数为0等其它所有的算术的错误。

9) SIGKILL 
用来立即结束程序的运行. 本信号不能被阻塞、处理和忽略。如果管理员发现某个进程终止不了,可尝试发送这个信号。

10) SIGUSR1 
留给用户使用

11) SIGSEGV 
试图访问未分配给自己的内存, 或试图往没有写权限的内存地址写数据. 

 信号 11,即表示程序中可能存在特定条件下的非法内存访问。

12) SIGUSR2 
留给用户使用

13) SIGPIPE 
管道破裂。这个信号通常在进程间通信产生,比如采用FIFO(管道)通信的两个进程,读管道没打开或者意外终止就往管道写,写进程会收到SIGPIPE信号。此外用Socket通信的两个进程,写进程在写Socket的时候,读进程已经终止。

14) SIGALRM 
时钟定时信号, 计算的是实际的时间或时钟时间. alarm函数使用该信号.

15) SIGTERM 
程序结束(terminate)信号, 与SIGKILL不同的是该信号可以被阻塞和处理。通常用来要求程序自己正常退出,shell命令kill缺省产生这个信号。如果进程终止不了,我们才会尝试SIGKILL。

17) SIGCHLD 
子进程结束时, 父进程会收到这个信号。

如果父进程没有处理这个信号,也没有等待(wait)子进程,子进程虽然终止,但是还会在内核进程表中占有表项,这时的子进程称为僵尸 进程。这种情 况我们应该避免(父进程或者忽略SIGCHILD信号,或者捕捉它,或者wait它派生的子进程,或者父进程先终止,这时子进程的终止自动由init进程 来接管)。

18) SIGCONT 
让一个停止(stopped)的进程继续执行. 本信号不能被阻塞. 可以用一个handler来让程序在由stopped状态变为继续执行时完成特定的工作. 例如, 重新显示提示符

19) SIGSTOP 
停止(stopped)进程的执行. 注意它和terminate以及interrupt的区别:该进程还未结束, 只是暂停执行. 本信号不能被阻塞, 处理或忽略.

20) SIGTSTP 
停止进程的运行, 但该信号可以被处理和忽略. 用户键入SUSP字符时(通常是Ctrl-Z)发出这个信号

21) SIGTTIN 
当后台作业要从用户终端读数据时, 该作业中的所有进程会收到SIGTTIN信号. 缺省时这些进程会停止执行.

22) SIGTTOU 
类似于SIGTTIN, 但在写终端(或修改终端模式)时收到.

23) SIGURG 
有"紧急"数据或out-of-band数据到达socket时产生.

24) SIGXCPU 
超过CPU时间资源限制. 这个限制可以由getrlimit/setrlimit来读取/改变。

25) SIGXFSZ 
当进程企图扩大文件以至于超过文件大小资源限制。

26) SIGVTALRM 
虚拟时钟信号. 类似于SIGALRM, 但是计算的是该进程占用的CPU时间.

27) SIGPROF 
类似于SIGALRM/SIGVTALRM, 但包括该进程用的CPU时间以及系统调用的时间.

28) SIGWINCH 
窗口大小改变时发出.

29) SIGIO 
文件描述符准备就绪, 可以开始进行输入/输出操作.

30) SIGPWR 
Power failure

31) SIGSYS 
非法的系统调用。

 
参考以下文章
https://blog.csdn.net/dxpqxb/article/details/78251489
https://www.jianshu.com/p/f445bfeea40a
posted @ 2019-09-05 08:37  boiledwater  阅读(377)  评论(0编辑  收藏  举报