Linux下一个最简单的不依赖第三库的的C程序（1）

如下代码是一段汇编代码，虽然标题中使用了C语言这个词语，但下面确实是一段汇编代码，弄清楚了这个代码，后续的知识点才会展开。

simple_asm.s：

#PURPOSE: Simple program that exits and returns a
#      status code back to the Linux kernel
#
#INPUT:   none
#
#OUTPUT:  returns a status code. This can be viewed
#      by typing
#
#      echo $?
#
#      after running the program
#
#VARIABLES:
#      %eax holds the system call number
#      %ebx holds the return status
#
 .section .data

 .section .text
 .globl _start
_start:
 movl $1, %eax    # this is the linux kernel command
        # number (system call) for exiting
        # a program

 movl $4, %ebx    # this is the status number we will
        # return to the operating system.
        # Change this around and it will
        # return different things to
        # echo $?

 int $0x80    # this wakes up the kernel to run
        # the exit command

将代码编译为可执行文件：

汇编器[ as ] 命令汇编，生成目标文件:

as simple_asm.s -o simple_asm.o

产生32位:

as -32 simple_asm.s -o simple_asm_32.o

连接器 [ ld ] ，生成可执行文件:

ld simple_asm.o -o simple_asm_exe

链接为32位可执行程序:

ld -m elf_i386 simple_asm_32.o -o simple_asm_32.exe # ld -V 可看到机器上架构类型， elf_i386 表示32位可执行程序，elf_x86_64 表示64位程序，elf32_x86_64表示在64位平台上使用32位长的指针，内存最大支持4G

运行：

./simple_asm_exe

#查看输出: 这段汇编代码相当于在C程序的main函数中return 4;
#./simple_asm_exe 
# echo $?
#4

汇编程序中以 . 开头的名称并不是指令的助记符，不会被翻译成机器指令，而是给汇编器一些特殊指示，称为汇编指示（Assembler Directive）或伪操作（Pseudo-operation），由于它不是真正的指令所以加个“伪”字。.section指示把代码划分成若干个段（Section），程序被操作系统加载执行时，每个段被加载到不同的地址，操作系统对不同的页面设置不同的读、写、执行权限。.data段保存程序的数据，是可读可写的，相当于C程序的全局变量。本程序中没有定义数据，所以.data段是空的。

.text段保存代码，是只读和可执行的，后面那些指令都属于.text段。

.globl _start
_start是一个符号（Symbol），符号在汇编程序中代表一个地址，可以用在指令中，汇编程序经过汇编器的处理之后，所有的符号都被替换成它所代表的地址值。在C语言中我们通过变量名访问一个变量，其实就是读写某个地址的内存单元，我们通过函数名调用一个函数，其实就是跳转到该函数第一条指令所在的地址，所以变量名和函数名都是符号，本质上是代表内存地址的。

.globl指示告诉汇编器，_start这个符号要被链接器用到，所以要在目标文件的符号表中标记它是一个全局符号。_start就像C程序的main函数一样特殊，是整个程序的入口，链接器在链接时会查找目标文件中的_start符号代表的地址，把它设置为整个程序的入口地址，所以每个汇编程序都要提供一个_start符号并且用.globl声明。如果一个符号没有用.globl声明，就表示这个符号不会被链接器用到。

_start:
这里定义了_start符号，汇编器在翻译汇编程序时会计算每个数据对象和每条指令的地址，当看到这样一个符号定义时，就把它后面一条指令的地址作为这个符号所代表的地址。而_start这个符号又比较特殊，它所代表的地址是整个程序的入口地址，所以下一条指令 movl $1, %eax 就成了程序中第一条被执行的指令。

movl $1, %eax
这是一条数据传送指令，这条指令要求CPU内部产生一个数字1并保存到eax寄存器中。mov的后缀l（字母L）表示long，说明是32位的传送指令。这条指令不要求CPU读内存，1这个数是在CPU内部产生的，称为立即数（Immediate）。在汇编程序中，立即数前面要加$，寄存器名前面要加%，以便跟符号名区分开。以后我们会看到mov指令还有另外几种形式，但数据传送方向都是一样的，第一个操作数总是源操作数，第二个操作数总是目标操作数。

movl $4, %ebx
和上一条指令类似，生成一个立即数4并保存到ebx寄存器中。

int $0x80
前两条指令都是为这条指令做准备的，执行这条指令时发生以下动作：

int指令称为软中断指令，可以用这条指令故意产生一个异常，上一章讲过，异常的处理和中断类似，CPU从用户模式切换到特权模式，然后跳转到内核代码中执行异常处理程序。

int指令中的立即数0x80是一个参数，在异常处理程序中要根据这个参数决定如何处理，在Linux内核中int $0x80这种异常称为系统调用（System Call）。内核提供了很多系统服务供用户程序使用，但这些系统服务不能像库函数（比如printf）那样调用，因为在执行用户程序时CPU处于用户模式，不能直接调用内核函数，所以需要通过系统调用切换CPU模式，经由异常处理程序进入内核，用户程序只能通过寄存器传几个参数，之后就要按内核设计好的代码路线走，而不能由用户程序随心所欲，想调哪个内核函数就调哪个内核函数，这样可以保证系统服务被安全地调用。在调用结束之后，CPU再切换回用户模式，继续执行int $0x80的下一条指令，在用户程序看来就像函数调用和返回一样。

eax和ebx的值是传递给系统调用的两个参数。eax的值是系统调用号，Linux的各种系统调用都是由int $0x80指令引发的，内核需要通过eax判断用户要调哪个系统调用，_exit的系统调用号是1。ebx的值是传给_exit的参数，表示退出状态。大多数系统调用完成之后会返回用户空间继续执行后面的指令，而_exit系统调用比较特殊，它会终止掉当前进程，而不是返回用户空间继续执行。

参考：https://akaedu.github.io/book/ch18s01.html

后续，会再继续演示一个真正的 “一个最简单的不依赖第三库的的C程序”

posted @ 2018-11-02 15:05 softfair 阅读(519) 评论(0) 收藏举报

刷新页面返回顶部

在调试器下看世界 (Penetrating By Debugging, Debunking Runtime Myths)

用强大的调试器来观察世界

Linux下一个最简单的不依赖第三库的的C程序（1）

公告