Use core dump and map file to debug in Linux

1.概念
1). 什么是core dump
core dump即是内存dump(现在通常是写在一个叫core的file 里面),core也许来自远古时候,那时候人们使用线圈制作内存,而线圈就叫做core。
2). 什么是map文件
MAP 文件是程序的全局符号、源文件和代码行号信息的唯一的文本表示方法,是整个程序工程信息的静态文本,通常由linker生成。
注:map文件在各种编译器中都可以使用,不限于gcc.


2.使用
1). core dump
如果用的是bash的话, 在/etc/profile里加上(或者修改)一条: 
ulimit -c 0
则禁止core dump.使用core dump -c 尺寸  限制core dump的文件大小。

gcc -g xxxxx.c -o xxxx
-g是必须的,否则找不到符号,只能显示栈调用信息。(-g则可以显示到哪一行出错)
gdb execute-file core-file
where
bt
print ...
detail see gdb.

2). map文件的生成
在linker阶段生成,是程序链接的内存映像,表示了某个符号(函数和全局变量等)的地址。
ld -Map map-file
or
gcc -Wl,-Map,map-file


3). 配合使用
如果没有-g选项,在栈调用信息中,不能打印出具体到某一行的源码,但是,根据栈调用
时的地址,可以根据map文件来找到相应的函数。
 
 
 
gcc/g++中生成map文件

在通过gcc/g++间接调用链接程序ld时,所有的ld选项前必须加上“-Wl,”,因为-Map是ld的选项。所以,要让g++生成mapfile,需要增加编译参数“ -Wl,-Map,mapfile”。

例:gcc -o helloworld helloworld.c -Wl,-Map,helloworld.map
 
 
在使用半导体作为内存的材料前,人类是利用线圈当作内存的材料(发明者为王安),线圈就叫作core ,用线圈做的内存就叫作“core memory”。(线圈的单词应该是coil,呵呵)如今,半导体工业澎勃发展,已经没有人用线圈当内存了,不过,在许多情况下,人们还是把内存叫作“core”。所以注意了:这里的core不是核心,而是内存。不过结合实际来看,好像也有点“内核所占内存”的意思。
      core dump又是什么东东? 我们在开发(或使用)一个程序时,最怕的就是程序莫明其妙地挂掉。虽然系统没事,但我们下次仍可能遇到相同的问题。于是,这时操作系统就会把程序挂掉时的内存内容写入一个叫做core的文件里(这个写入的动作就叫dump,dump的英语意思是垃圾、倾倒。从这里来看,这些内存的内容是程序错误运行的结果,所以算是垃圾,把他弄出来就好比从大的内存池里“倾倒”。),以便于我们调试。这个过程,因此叫做core dump。

1. 在嵌入式系统中,有时core dump直接从串口打印出来,结合objdump查找ra和epa地址,运用栈回溯,可以找到程序出错的地方。

2. 在一般Linux系统中,默认是不会产生core dump文件的,通过ulimit -c来查看core dump文件的大小,一般开始是0,可以设置core文件大小,ulimit -c 1024(kbytes单位)或者ulimit -c unlimited。

3. core dump文件输出设置,一般默认是当前目录,可以在/proc/sys/kernel中找到core-user-pid,通过

echo "1" > /proc/sys/kernel/core-user-pid使core文件名加上pid号,还可以用

mkdir -p /root/corefile

echo "/root/corefile/core-%e-%p-%t" > /proc/sys/kernel/core-pattern控制core文件保存位置和文件名格式。

以下是参数列表:
    %p - insert pid into filename 添加pid
    %u - insert current uid into filename 添加当前uid
    %g - insert current gid into filename 添加当前gid
    %s - insert signal that caused the coredump into the filename 添加导致产生core的信号
    %t - insert UNIX time that the coredump occurred into filename 添加core文件生成时的unix时间
    %h - insert hostname where the coredump happened into filename 添加主机名
    %e - insert coredumping executable name into filename 添加命令名

4. 用gdb查看core文件:
下面我们可以在发生运行时信号引起的错误时发生core dump了.编译时加上-g
发生core dump之后, 用gdb进行查看core文件的内容, 以定位文件中引发core dump的行.
gdb [exec file] [core file]
如:
gdb ./test test.core
在进入gdb后, 用bt命令查看backtrace以检查发生程序运行到哪里, 来定位core dump的文件行.

5. 给个例子

test.c

void a()

{

   char *p = NULL;

   printf("%d/n", *p);

}

int main()

{

    a();

    return 0;

}

编译 gcc -g -o test test.c

运行 ./test

报segmentation fault(core dump)

gdb ./test test.core如果生成的是test.core.

 

 
 

当我们的程序崩溃时,内核有可能把该程序当前内存映射到core文件里,方便程序员找到程序出现问题的地方。最常出现的,几乎所有C程序员都出现过的错误就是“段错误”了。也是最难查出问题原因的一个错误。下面我们就针对“段错误”来分析core文件的产生、以及我们如何利用core文件找到出现崩溃的地方。

何谓core文件

    当一个程序崩溃时,在进程当前工作目录的core文件中复制了该进程的存储图像。core文件仅仅是一个内存映象(同时加上调试信息),主要是用来调试的。

当程序接收到以下UNIX信号会产生core文件:

名字 说明 ANSI C POSIX.1 4.3+BSD 缺省动作

SIGABRT

异常终止(abort)

..

..

终止

SIGBUS 硬件故障 . .. 终止 w/core
SIGEMT 硬件故障 .. 终止 w/core
SIGFPE 算术异常 .. .. 终止 w/core
SIGILL 非法硬件指令 .. .. 终止 w/core
SIGIOT 硬件故障 .. 终止 w/core
SIGQUIT 终端退出符 . .. 终止 w/core
SIGSEGV 无效存储访问 .. .. 终止 w/core
SIGSYS 无效系统调用 . 终止 w/core
SIGTRAP 硬件故障 . 终止 w/core
SIGXCPU 超过CPU限制(setrlimit) .. 终止 w/core
SIGXFSZ 超过文件长度限制(setrlimit) .. 终止 w/core

在系统默认动作列,“终止w/core”表示在进程当前工作目录的core文件中复制了该进程的存储图像(该文件名为core,由此可以看出这种功能很久之前就是UNIX功能的一部分)。大多数UNIX调试程序都使用core文件以检查进程在终止时的状态。

core文件的产生不是POSIX.1所属部分,而是很多UNIX版本的实现特征。UNIX第6版没有检查条件(a)和(b),并且其源代码中包含如下说明:“如果你正在找寻保护信号,那么当设置-用户-ID命令执行时,将可能产生大量的这种信号”。4.3 + BSD产生名为core.prog的文件,其中prog是被执行的程序名的前16个字符。它对core文件给予了某种标识,所以是一种改进特征。

表中“硬件故障”对应于实现定义的硬件故障。这些名字中有很多取自UNIX早先在DP-11上的实现。请查看你所使用的系统的手册,以确切地确定这些信号对应于哪些错误类型。

下面比较详细地说明这些信号。

SIGABRT 调用abort函数时产生此信号。进程异常终止。

SIGBUS 指示一个实现定义的硬件故障。

SIGEMT 指示一个实现定义的硬件故障。

EMT这一名字来自PDP-11的emulator trap 指令。

SIGFPE 此信号表示一个算术运算异常,例如除以0,浮点溢出等。

SIGILL 此信号指示进程已执行一条非法硬件指令。

4.3BSD由abort函数产生此信号。SIGABRT现在被用于此。

SIGIOT这指示一个实现定义的硬件故障。

IOT这个名字来自于PDP-11对于输入/输出TRAP(input/output TRAP)指令的缩写。系统V的早期版本,由abort函数产生此信号。SIGABRT现在被用于此。

SIGQUIT当用户在终端上按退出键(一般采用Ctrl-\)时,产生此信号,并送至前台进、程组中的所有进程。此信号不仅终止前台进程组(如SIGINT所做的那样),同时产生一个core文件。

SIGSEGV指示进程进行了一次无效的存储访问。名字SEGV表示“段违例(segmentation violation)”。

SIGSYS 指示一个无效的系统调用。由于某种未知原因,进程执行了一条系统调用指令,但其指示系统调用类型的参数却是无效的。

SIGTRAP 指示一个实现定义的硬件故障。此信号名来自于PDP-11的TRAP指令。

SIGXCPU SVR4和4.3+BSD支持资源限制的概念。如果进程超过了其软C P U时间限制,则产生此信号。

SIGXFSZ 如果进程超过了其软文件长度限制,则SVR4和4.3+BSD产生此信号。

摘自《UNIX环境高级编程》第10章 信号。

看下面的例子:core_dump_test.c

1 #include <stdio.h>

2

3 int main()

4 {

    printf("%s\n", 9);

    return 0;

7 }

编译:

[zhanghua@localhost core_dump]$ gcc –g core_dump_test.c -o core_dump_test

如果需要调试程序的话,使用gcc编译时加上-g选项,这样调试core文件的时候比较容易找到错误的地方。

执行:

[zhanghua@localhost core_dump]$ ./core_dump_test

段错误

运行core_dump_test程序出现了“段错误”,但没有产生core文件。这是因为系统默认core文件的大小为0,所以没有创建。可以用ulimit命令查看和修改core文件的大小。

[zhanghua@localhost core_dump]$ ulimit -c

0

[zhanghua@localhost core_dump]$ ulimit -c 1000

[zhanghua@localhost core_dump]$ ulimit -c

1000

-c 指定修改core文件的大小,1000指定了core文件大小。也可以对core文件的大小不做限制,如:

[zhanghua@localhost daemon]# ulimit -c unlimited

[zhanghua@localhost daemon]# ulimit -c

unlimited

如果想让修改永久生效,则需要修改配置文件,如 .bash_profile、/etc/profile或/etc/security/limits.conf。

再次执行:

[zhanghua@localhost core_dump]$ ./core_dump_test

段错误 (core dumped)

[zhanghua@localhost core_dump]$ ls core.*

core.6133

可以看到已经创建了一个core.6133的文件。6133是core_dump_test程序运行的进程。

使用core文件调试程序

文件是个二进制文件,需要用相应的工具来分析程序崩溃时的内存映像。

[zhanghua@localhost core_dump]$ file core.6133

core.6133: ELF 32-bit LSB core file Intel 80386, version 1 (SYSV), SVR4-style, from 'core_dump_test'

在Linux下可以用GDB来调试core文件。

[zhanghua@localhost core_dump]$ gdb core_dump_test core.6133

GNU gdb Red Hat Linux (5.3post-0.20021129.18rh)

Copyright 2003 Free Software Foundation, Inc.

GDB is free software, covered by the GNU General Public License, and you are

welcome to change it and/or distribute copies of it under certain conditions.

Type "show copying" to see the conditions.

There is absolutely no warranty for GDB.  Type "show warranty" for details.

This GDB was configured as "i386-redhat-linux-gnu"...

 

warning: exec file is newer than core file.

Core was generated by `./core_dump_test'.

Program terminated with signal 11, Segmentation fault.

Reading symbols from /lib/tls/libc.so.6...done.

Loaded symbols for /lib/tls/libc.so.6

Reading symbols from /lib/ld-linux.so.2...done.

Loaded symbols for /lib/ld-linux.so.2

#0  0x4207a42b in strlen () from /lib/tls/libc.so.6

(gdb) where

#0  0x4207a42b in strlen () from /lib/tls/libc.so.6

#1  0x4204752d in vfprintf () from /lib/tls/libc.so.6

#2  0x4204f112 in printf () from /lib/tls/libc.so.6

#3  0x08048347 in main () at core_dump_test.c:5

#4  0x42015574 in __libc_start_main () from /lib/tls/libc.so.6

GDB 中键入where,就会看到程序崩溃时最后5个调用的函数,我们很容易找到我们的程序在最后崩溃的时候调用了core_dump_test.c第5行的代码,导致程序崩溃。注意:在编译程序的时候要加入选项 -g。您也可以试试其他命令, 如 fram、list等。更详细的用法,请查阅 GDB文档。

core文件创建在什么位置

在进程当前工作目录的下创建。通常与程序在相同的路径下。但如果程序中调用了chdir函数,则有可能改变了当前工作目录。这时core文件创建在chdir指定的路径下。有好多程序崩溃了,我们却找不到core文件放在什么位置。和chdir函数就有关系。当然程序崩溃了不一定都产生core文件。

什么时候不产生core文件

在下列条件下不产生core文件:

(a)进程是设置-用户-ID,而且当前用户并非程序文件的所有者;

(b)进程是设置-组-ID,而且当前用户并非该程序文件的组所有者;

(c)用户没有写当前工作目录的许可权;

(d)文件太大。core文件的许可权(假定该文件在此之前并不存在)通常是用户读/写,组读和其他读。

利用GDB调试core文件,当遇到程序崩溃时我们不再束手无策。

 

posted @ 2011-09-01 10:44  alxe_yu  阅读(936)  评论(0)    收藏  举报