linux下生成core dump文件方法及设置
源自:http://andyniu.iteye.com/blog/1965571
core dump的概念:
A core dump is the recorded state of the working memory of a computer program at a specific time, generally when the program has terminated abnormally (crashed). In practice, other key pieces of program state are usually dumped at the same time, including the processor registers, which may include the program counter and stack pointer, memory management information, and other processor and operating system flags and information. The name comes from the once-standard memory technology core memory. Core dumps are often used to diagnose or debug errors in computer programs.
On many operating systems, a fatal error in a program automatically triggers a core dump, and by extension the phrase "to dump core" has come to mean, in many cases, any fatal error, regardless of whether a record of the program memory is created.
在linux平台下,设置core dump文件生成的方法:
如何产生Core Dump
发生doredump一般都是在进程收到某个信号的时候,Linux上现在大概有60多个信号,可以使用 kill -l 命令全部列出来。
sagi@sagi-laptop:~$ kill -l 1) SIGHUP 2) SIGINT 3) SIGQUIT 4) SIGILL 5) SIGTRAP 6) SIGABRT 7) SIGBUS 8) SIGFPE 9) SIGKILL 10) SIGUSR1 11) SIGSEGV 12) SIGUSR2 13) SIGPIPE 14) SIGALRM 15) SIGTERM 16) SIGSTKFLT 17) SIGCHLD 18) SIGCONT 19) SIGSTOP 20) SIGTSTP 21) SIGTTIN 22) SIGTTOU 23) SIGURG 24) SIGXCPU 25) SIGXFSZ 26) SIGVTALRM 27) SIGPROF 28) SIGWINCH 29) SIGIO 30) SIGPWR 31) SIGSYS 34) SIGRTMIN 35) SIGRTMIN+1 36) SIGRTMIN+2 37) SIGRTMIN+3 38) SIGRTMIN+4 39) SIGRTMIN+5 40) SIGRTMIN+6 41) SIGRTMIN+7 42) SIGRTMIN+8 43) SIGRTMIN+9 44) SIGRTMIN+10 45) SIGRTMIN+11 46) SIGRTMIN+12 47) SIGRTMIN+13 48) SIGRTMIN+14 49) SIGRTMIN+15 50) SIGRTMAX-14 51) SIGRTMAX-13 52) SIGRTMAX-12 53) SIGRTMAX-11 54) SIGRTMAX-10 55) SIGRTMAX-9 56) SIGRTMAX-8 57) SIGRTMAX-7 58) SIGRTMAX-6 59) SIGRTMAX-5 60) SIGRTMAX-4 61) SIGRTMAX-3 62) SIGRTMAX-2 63) SIGRTMAX-1 64) SIGRTMAX
针对特定的信号,应用程序可以写对应的信号处理函数。如果不指定,则采取默认的处理方式, 默认处理是coredump的信号如下:
3)SIGQUIT 4)SIGILL 6)SIGABRT 8)SIGFPE 11)SIGSEGV 7)SIGBUS 31)SIGSYS 5)SIGTRAP 24)SIGXCPU 25)SIGXFSZ 29)SIGIOT
我们看到SIGSEGV在其中,一般数组越界或是访问空指针都会产生这个信号。另外虽然默认是这样的,但是你也可以写自己的信号处理函数改变默认行为,更多信号相关可以看参考链接33。
上述内容只是产生coredump的必要条件,而非充分条件。要产生core文件还依赖于程序运行的shell,可以通过ulimit -a命令查看,输出内容大致如下:
sagi@sagi-laptop:~$ ulimit -a core file size (blocks, -c) 0 data seg size (kbytes, -d) unlimited scheduling priority (-e) 20 file size (blocks, -f) unlimited pending signals (-i) 16382 max locked memory (kbytes, -l) 64 max memory size (kbytes, -m) unlimited open files (-n) 1024 pipe size (512 bytes, -p) 8 POSIX message queues (bytes, -q) 819200 real-time priority (-r) 0 stack size (kbytes, -s) 8192 cpu time (seconds, -t) unlimited max user processes (-u) unlimited virtual memory (kbytes, -v) unlimited file locks (-x) unlimited
看到第一行了吧,core file size,这个值用来限制产生的core文件大小,超过这个值就不会保存了。我这里输出是0,也就是不会保存core文件,即使产生了,也保存不下来==! 要改变这个设置,可以使用ulimit -c unlimited。
OK, 现在万事具备,只缺一个能产生Core的程序了,介个对C程序员来说太容易了。
- <span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(51,153,51); vertical-align:baseline; background-color:transparent">#include <stdio.h>;</span>
- <span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(51,153,51); vertical-align:baseline; background-color:transparent">#include <stdlib.h>;</span>
- <span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(153,51,51); vertical-align:baseline; background-color:transparent">int</span> crash<span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(0,153,0); vertical-align:baseline; background-color:transparent">(</span><span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(0,153,0); vertical-align:baseline; background-color:transparent">)</span>
- <span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(0,153,0); vertical-align:baseline; background-color:transparent">{</span>
- <span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(153,51,51); vertical-align:baseline; background-color:transparent">char</span> <span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(51,153,51); vertical-align:baseline; background-color:transparent">*</span>xxx <span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(51,153,51); vertical-align:baseline; background-color:transparent">=</span> <span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(255,0,0); vertical-align:baseline; background-color:transparent">"crash!!"</span><span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(51,153,51); vertical-align:baseline; background-color:transparent">;</span>
- xxx<span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(0,153,0); vertical-align:baseline; background-color:transparent">[</span><span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(0,0,221); vertical-align:baseline; background-color:transparent">1</span><span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(0,153,0); vertical-align:baseline; background-color:transparent">]</span> <span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(51,153,51); vertical-align:baseline; background-color:transparent">=</span> <span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(255,0,0); vertical-align:baseline; background-color:transparent">'D'</span><span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(51,153,51); vertical-align:baseline; background-color:transparent">;</span> <span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(102,102,102); font-style:italic; vertical-align:baseline; background-color:transparent">// 写只读存储区!</span>
- <span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(177,177,0); vertical-align:baseline; background-color:transparent">return</span> <span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(0,0,221); vertical-align:baseline; background-color:transparent">2</span><span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(51,153,51); vertical-align:baseline; background-color:transparent">;</span>
- <span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(0,153,0); vertical-align:baseline; background-color:transparent">}</span>
- <span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(153,51,51); vertical-align:baseline; background-color:transparent">int</span> foo<span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(0,153,0); vertical-align:baseline; background-color:transparent">(</span><span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(0,153,0); vertical-align:baseline; background-color:transparent">)</span>
- <span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(0,153,0); vertical-align:baseline; background-color:transparent">{</span>
- <span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(177,177,0); vertical-align:baseline; background-color:transparent">return</span> crash<span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(0,153,0); vertical-align:baseline; background-color:transparent">(</span><span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(0,153,0); vertical-align:baseline; background-color:transparent">)</span><span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(51,153,51); vertical-align:baseline; background-color:transparent">;</span>
- <span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(0,153,0); vertical-align:baseline; background-color:transparent">}</span>
- <span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(153,51,51); vertical-align:baseline; background-color:transparent">int</span> main<span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(0,153,0); vertical-align:baseline; background-color:transparent">(</span><span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(0,153,0); vertical-align:baseline; background-color:transparent">)</span>
- <span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(0,153,0); vertical-align:baseline; background-color:transparent">{</span>
- <span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(177,177,0); vertical-align:baseline; background-color:transparent">return</span> foo<span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(0,153,0); vertical-align:baseline; background-color:transparent">(</span><span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(0,153,0); vertical-align:baseline; background-color:transparent">)</span><span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(51,153,51); vertical-align:baseline; background-color:transparent">;</span>
- <span style="margin:0px; padding:0px; border:0px currentColor; color:rgb(0,153,0); vertical-align:baseline; background-color:transparent">}</span>
上手调试
1
2
3
4
5
6
7
8
9
10
11
12
|
#include <stdio.h> int func( int
*p) { *p = 0; } int main() { func(NULL); return
0; } |
Segmentation fault (core dumped)
#0 0x080483ba in func ()
如何定位到行?
#0 0x080483ba in func (p=0x0) at a.c:5
5 *p = 0;
上边的程序编译的时候有一点需要注意,需要带上参数-g, 这样生成的可执行程序中会带上足够的调试信息。编译运行之后你就应该能看见期待已久的“Segment Fault(core dumped)”或是“段错误 (核心已转储)”之类的字眼了。看看当前目录下是不是有个core或是core.xxx的文件。祭出linux下经典的调试器GDB,首先带着core文件载入程序:gdb exefile core,这里需要注意的这个core文件必须是exefile产生的,否则符号表会对不上。载入之后大概是这个样子的:
sagi@sagi-laptop:~$ gdb coredump core Core was generated by ./coredump'. Program terminated with signal 11, Segmentation fault. #0 0x080483a7 in crash () at coredump.c:8 8 xxx[1] = 'D'; (gdb)
我们看到已经能直接定位到出core的地方了,在第8行写了一个只读的内存区域导致触发Segment Fault信号。在载入core的时候有个小技巧,如果你事先不知道这个core文件是由哪个程序产生的,你可以先随便找个代替一下,比如/usr/bin/w就是不错的选择。比如我们采用这种方法载入上边产生的core,gdb会有类似的输出:
sagi@sagi-laptop:~$ gdb /usr/bin/w core Core was generated by ./coredump'. Program terminated with signal 11, Segmentation fault. #0 0x080483a7 in ?? () (gdb)
可以看到GDB已经提示你了,这个core是由哪个程序产生的。
GDB 常用操作
上边的程序比较简单,不需要另外的操作就能直接找到问题所在。现实却不是这样的,常常需要进行单步跟踪,设置断点之类的操作才能顺利定位问题。下边列出了GDB一些常用的操作。
- 启动程序:run
- 设置断点:b 行号|函数名
- 删除断点:delete 断点编号
- 禁用断点:disable 断点编号
- 启用断点:enable 断点编号
- 单步跟踪:next 也可以简写 n
- 单步跟踪:step 也可以简写 s
- 打印变量:print 变量名字
- 设置变量:set var=value
- 查看变量类型:ptype var
- 顺序执行到结束:cont
- 顺序执行到某一行: util lineno
- 打印堆栈信息:bt
$ kill -l
1) SIGHUP 2) SIGINT 3) SIGQUIT 4) SIGILL
5) SIGTRAP 6) SIGABRT 7) SIGBUS 8) SIGFPE
9) SIGKILL 10) SIGUSR1 11) SIGSEGV 12) SIGUSR2
13) SIGPIPE 14) SIGALRM 15) SIGTERM 16) SIGSTKFLT 17) SIGCHLD
18) SIGCONT 19) SIGSTOP 20) SIGTSTP 21) SIGTTIN
22) SIGTTOU 23) SIGURG 24) SIGXCPU 25) SIGXFSZ
26) SIGVTALRM 27) SIGPROF 28) SIGWINCH 29) SIGIO
30) SIGPWR 31) SIGSYS 34) SIGRTMIN 35) SIGRTMIN+1
36) SIGRTMIN+2 37) SIGRTMIN+3 38) SIGRTMIN+4 39) SIGRTMIN+5
40) SIGRTMIN+6 41) SIGRTMIN+7 42) SIGRTMIN+8 43) SIGRTMIN+9
44) SIGRTMIN+10 45) SIGRTMIN+11 46) SIGRTMIN+12 47) SIGRTMIN+13
48) SIGRTMIN+14 49) SIGRTMIN+15 50) SIGRTMAX-14 51) SIGRTMAX-13
52) SIGRTMAX-12 53) SIGRTMAX-11 54) SIGRTMAX-10 55) SIGRTMAX-9
56) SIGRTMAX-8 57) SIGRTMAX-7 58) SIGRTMAX-6 59) SIGRTMAX-5
60) SIGRTMAX-4 61) SIGRTMAX-3 62) SIGRTMAX-2 63) SIGRTMAX-1
64) SIGRTMAX
列表中,编号为1 ~ 31的信号为传统UNIX支持的信号,是不可靠信号(非实时的),编号为32 ~ 63的信号是后来扩充的,称做可靠信号(实时信号)。不可靠信号和可靠信号的区别在于前者不支持排队,可能会造成信号丢失,而后者不会。
下面我们对编号小于SIGRTMIN的信号进行讨论。
1) SIGHUP
本信号在用户终端连接(正常或非正常)结束时发出, 通常是在终端的控制进程结束时, 通知同一session内的各个作业, 这时它们与控制终端不再关联。
登录Linux时,系统会分配给登录用户一个终端(Session)。在这个终端运行的所有程序,包括前台进程组和后台进程组,一般都属于这个 Session。当用户退出Linux登录时,前台进程组和后台有对终端输出的进程将会收到SIGHUP信号。这个信号的默认操作为终止进程,因此前台进 程组和后台有终端输出的进程就会中止。不过可以捕获这个信号,比如wget能捕获SIGHUP信号,并忽略它,这样就算退出了Linux登录,wget也 能继续下载。
此外,对于与终端脱离关系的守护进程,这个信号用于通知它重新读取配置文件。
2) SIGINT
程序终止(interrupt)信号, 在用户键入INTR字符(通常是Ctrl-C)时发出,用于通知前台进程组终止进程。
3) SIGQUIT
和SIGINT类似, 但由QUIT字符(通常是Ctrl-\)来控制. 进程在因收到SIGQUIT退出时会产生core文件, 在这个意义上类似于一个程序错误信号。
4) SIGILL
执行了非法指令. 通常是因为可执行文件本身出现错误, 或者试图执行数据段. 堆栈溢出时也有可能产生这个信号。
5) SIGTRAP
由断点指令或其它trap指令产生. 由debugger使用。
6) SIGABRT
调用abort函数生成的信号。
7) SIGBUS
非法地址, 包括内存地址对齐(alignment)出错。比如访问一个四个字长的整数, 但其地址不是4的倍数。它与SIGSEGV的区别在于后者是由于对合法存储地址的非法访问触发的(如访问不属于自己存储空间或只读存储空间)。
8) SIGFPE
在发生致命的算术运算错误时发出. 不仅包括浮点运算错误, 还包括溢出及除数为0等其它所有的算术的错误。
9) SIGKILL
用来立即结束程序的运行. 本信号不能被阻塞、处理和忽略。如果管理员发现某个进程终止不了,可尝试发送这个信号。
10) SIGUSR1
留给用户使用
11) SIGSEGV
试图访问未分配给自己的内存, 或试图往没有写权限的内存地址写数据.
12) SIGUSR2
留给用户使用
13) SIGPIPE
管道破裂。这个信号通常在进程间通信产生,比如采用FIFO(管道)通信的两个进程,读管道没打开或者意外终止就往管道写,写进程会收到SIGPIPE信号。此外用Socket通信的两个进程,写进程在写Socket的时候,读进程已经终止。
14) SIGALRM
时钟定时信号, 计算的是实际的时间或时钟时间. alarm函数使用该信号.
15) SIGTERM
程序结束(terminate)信号, 与SIGKILL不同的是该信号可以被阻塞和处理。通常用来要求程序自己正常退出,shell命令kill缺省产生这个信号。如果进程终止不了,我们才会尝试SIGKILL。
17) SIGCHLD
子进程结束时, 父进程会收到这个信号。
如果父进程没有处理这个信号,也没有等待(wait)子进程,子进程虽然终止,但是还会在内核进程表中占有表项,这时的子进程称为僵尸进程。这种情 况我们应该避免(父进程或者忽略SIGCHILD信号,或者捕捉它,或者wait它派生的子进程,或者父进程先终止,这时子进程的终止自动由init进程来接管)。
18) SIGCONT
让一个停止(stopped)的进程继续执行. 本信号不能被阻塞. 可以用一个handler来让程序在由stopped状态变为继续执行时完成特定的工作. 例如, 重新显示提示符...
19) SIGSTOP
停止(stopped)进程的执行. 注意它和terminate以及interrupt的区别:该进程还未结束, 只是暂停执行. 本信号不能被阻塞, 处理或忽略.
20) SIGTSTP
停止进程的运行, 但该信号可以被处理和忽略. 用户键入SUSP字符时(通常是Ctrl-Z)发出这个信号
21) SIGTTIN
当后台作业要从用户终端读数据时, 该作业中的所有进程会收到SIGTTIN信号. 缺省时这些进程会停止执行.
22) SIGTTOU
类似于SIGTTIN, 但在写终端(或修改终端模式)时收到.
23) SIGURG
有"紧急"数据或out-of-band数据到达socket时产生.
24) SIGXCPU
超过CPU时间资源限制. 这个限制可以由getrlimit/setrlimit来读取/改变。
25) SIGXFSZ
当进程企图扩大文件以至于超过文件大小资源限制。
26) SIGVTALRM
虚拟时钟信号. 类似于SIGALRM, 但是计算的是该进程占用的CPU时间.
27) SIGPROF
类似于SIGALRM/SIGVTALRM, 但包括该进程用的CPU时间以及系统调用的时间.
28) SIGWINCH
窗口大小改变时发出.
29) SIGIO
文件描述符准备就绪, 可以开始进行输入/输出操作.
30) SIGPWR
Power failure
31) SIGSYS
非法的系统调用。
在以上列出的信号中,程序不可捕获、阻塞或忽略的信号有:SIGKILL,SIGSTOP
不能恢复至默认动作的信号有:SIGILL,SIGTRAP
默认会导致进程流产的信号有:SIGABRT,SIGBUS,SIGFPE,SIGILL,SIGIOT,SIGQUIT,SIGSEGV,SIGTRAP,SIGXCPU,SIGXFSZ
默认会导致进程退出的信号有:SIGALRM,SIGHUP,SIGINT,SIGKILL,SIGPIPE,SIGPOLL,SIGPROF,SIGSYS,SIGTERM,SIGUSR1,SIGUSR2,SIGVTALRM
默认会导致进程停止的信号有:SIGSTOP,SIGTSTP,SIGTTIN,SIGTTOU
默认进程忽略的信号有:SIGCHLD,SIGPWR,SIGURG,SIGWINCH
此外,SIGIO在SVR4是退出,在4.3BSD中是忽略;SIGCONT在进程挂起时是继续,否则是忽略,不能被阻塞