使用汇编语言实现memcpy

把内核放入内存,究竟需做什么

写满实现内核功能的代码的文件会被编译成一个ELF文件。这个ELF文件不同于LOADER BIN文件。后者实质是一个没有使用DOS命令的COM文件。因此,只需将它原封不动地从存储设备读入到内存中,然后跳转到这个内存区域的开始,就将CPU的控制权交给了LOADER。

ELF文件是当前Linux系统上的可执行文件格式。写一个C程序,然后编译成可执行文件,使用 file 查看这个文件,能看到这个文件是ELF文件。

ELF文件由program header table、elf header、section header table、section组成。只有elf header的位置是固定的,在elf文件的开始位置。其他几个成员的位置不固定。

将内核指令重新放置到内存中,需做两件事情:一、把内核文件读入内存中。二、把内存中的内核的程序段全部复制到规划好的内存位置。

第一件事情,熟悉FAT12文件系统,就能做到。我已经独立写代码完成了这个功能并通过了测试。在本文不想再赘言。

第二件事情,要想完成它,需了解elf结构,需知道如何把数据从内存A位置复制到内存B位置,也就是说,需要实现一个函数,memcpy(int dest, int off, int size)。三个参数分别是:在内存中的虚拟地址、程序段在文件中的偏移量、程序段的长度。三个参数都能从ELF文件的elf头和程序头中获取。

参照位置是elf文件的开头。偏移量28个字节的内存位置,给它起个标记叫P,从P开始的若干个字节(忘记了具体数字)的内存存储的是程序段的偏移量。文件开头加上这个偏移量,是第一个程序头的内存初始位置。

程序头也存储在一片内存中。用C语言中的struct帮助描述。程序头是一个struct结构,成员变量有程序段的长度、程序段的偏移量、程序段在内存中的虚拟位置(也就是这个程序段将要被重新放置在内存中的位置)。这三个成员变量,就是函数memcpy需要的三个参数。

memcpy的实现

memcpy,有三个参数,分别是:数据要被复制到的内存地址dst,数据的原始地址src,数据的长度size。这个函数的功能是,把src处的size个字节的数据复制到dst处,返回值是src。

直接上代码。

mempcy:
	push ebp
	mov	ebp, esp
	
	push esi
	push edi
	push ecx
	
	mov esi, [ebp+12]			; src
	mov edi, [ebp+8]			; dst
	mov ecx, [ebp+16]			; size

.1
	cmp ecx, 0
	jz .2
	mov al, [ds:esi]
	mov [es:edi], al
	inc esi
	inc edi
	dec ecx
	jmp .1
.2
	mov eax, [ebp+8]
	
	pop ecx
	pop edi
	pop esi
	pop ebp
	
	ret

详细解读这个函数的实现。

在汇编中实现一个函数,模板是:

functionName:
	; some code
	; some code
	
	ret

汇编函数必须用ret结尾。它的作用是在函数执行结束后,返回调用函数的上层代码的下一条指令。

调用函数时,使用栈传递参数给函数。在函数内部,获取参数时,再从栈中获取参数。

mov esi, [ebp+12]			; src
mov edi, [ebp+8]			; dst
mov ecx, [ebp+16]			; size

ebp指向栈的开始位置栈顶,偏离栈顶4个字节的位置存储的是调用函数指令的下一条指令的位置(大概就是这个意思),它是执行 call 指令时入栈的,是函数调用过程中最后一个入栈的数据。在它之前依次是函数的第一个、第二个、第三个参数入栈(在本函数中),相对于栈顶的偏移量依次是8个字节、12个字节、16个字节。

由于上面的代码修改了esi、edi、ecx中的值,需要在修改之前将它们保存起来,在函数结束时再恢复它们原来的值,所以有下面的代码:

push esi
push edi
push ecx

; some code
; some code

pop ecx
pop edi
pop esi

内存的最小单位是字节,本函数也按字节来复制数据,这不是必须的。复制数据使用

mov al, [ds:esi]
mov [es:edi], al

eax存储2个字,4个字节;ax存储1个字,2个字节;al存储1个字节。ds是数据段,es是什么?有多少个字节,就需要重复多少次上面的复制操作。因此,需要一个循环。

.1
	cmp ecx, 0
	jz .2
	mov al, [ds:esi]
	mov [es:edi], al
	inc esi
	inc edi
	dec ecx
	jmp .1

在汇编中,loop指令能实现循环功能,本函数却并未使用。这是为了规避恐怖的ecx陷阱。使用loop指令时,需ecx配合。在循环过程中,ecx的值会自动减少。当ecx的值是0时,循环结束。陷阱就出现在这里。具体是咋回事,我忘记了。但我遇到过,再加上在函数体中,可能会修改ecx。为了避免种种诡异的问题,本函数一般使用jmp指令,再配合手工递减的ecx来实现循环功能。作者的其他汇编代码都会如此,尽量不使用loop指令。

posted @ 2021-02-04 22:51  东小夫  阅读(1072)  评论(0编辑  收藏  举报