Linux 内存管理机制

1.内存空间布局：

对于提供了MMU（存储管理器，辅助操作系统进行内存管理，提供虚实地址转换等硬件支持）的处理器而言，Linux提供了复杂的存储管理系统，使得进程所能访问的内存达到4GB。

进程的4GB内存空间被人为的分为两个部分--用户空间与内核空间。用户空间地址分布从0到3GB(PAGE_OFFSET，在0x86中它等于0xC0000000)，3GB到4GB为内核空间。

内核空间中，从3G到vmalloc_start这段地址是物理内存映射区域（该区域中包含了内核镜像、物理页框表mem_map等等），比如我们使用的 VMware虚拟系统内存是160M，那么3G～3G+160M这片内存就应该映射物理内存。在物理内存映射区之后，就是vmalloc区域。对于 160M的系统而言，vmalloc_start位置应在3G+160M附近（在物理内存映射区与vmalloc_start期间还存在一个8M的gap 来防止跃界），vmalloc_end的位置接近4G(最后位置系统会保留一片128k大小的区域用于专用页面映射)

对于32bit Linux系统来说，一般留给用户态空间是3GB，高地址的1GB 0xC0000000~0xFFFFFFFF是留给kernel的。

并且一般采用分页，分段，段页式的方式。一页大小一般为2^12=4096=4KB的大小。一般是10+10+12

2.内存管理基本机制；分段，分页，段页。

3.linux系统一般内存管理方法：两种算法相配合

内存结构是：NUMA（Non-Uniform Memory Acess Architecture）架构，Numa下分布式的一个内存节点成为Node，我们常用的单击系统，是UMA（Uniform Acess Architecture）就是一个NODE，因此可以理解为一台机器就是一个NODE，每个NODE下物理内存分成几个的ZONE（区域），Zone内再对物理页进行管理。因此内存的整个管理结构是：

分布式集群——Node——Zone——Page

集群系统 ——本地一台机器——BUDDY算法——SLAB或（SLUB）算法。。。。不同区域对应的管理算法。

其中Zone的结构可以通过 /proc/buddyinfo来查看。

Node 0, zone DMA 4 4 3 3 3 3 2 1 0 0 2
Node 0, zone DMA32 0 1 1 1 1 1 1 0 3 3 699
Node 0, zone Normal 1180 748 514 83 18 26 21 7 2 0 1899
Node 1, zone Normal 258 1634 379 135 47 10 2 1 1 1 2965

上面可以看到，本地一共分为两个Node，其中Node 0，包括Zone DMA，Zone DMA32，Zone Normal。。。Node 1 只有Zone Normal。。。

但是传统的X86系统包括三个Zone,DMA,Normal,HIGHMEM最后一个是高端内存区域，指的是896MB~（最大1GB）。

①BUDDY算法概述，伙伴系统，就是一开始就把内存分为1,2，4,8，...个页面，然后用链连起来，一般定义MAX_ORDER为11，也就是最大可以分配2^10=1024个page，当调用allocate_pages()，他分配2^order个连续的物理页，返回一个指针，指向第一个页，失败了返回NULL。

另外，在gfp.h中定义的几个宏定义需要说一下：

GFP_KERNEL,GFP_aTOMIC,GFP_NOIO,GFP_NOFS,GFP_USER,GFP_HIGHUSER,GFP_IO,GFP_FS,

一般最常用的就是Kernel选项，会引起阻塞，普通优先级。然后再中断情况下，就必须使用非阻塞的标志Atomic，一般内核编程主要使用则两个。

②Solaris-SLAB算法，用高速缓存来描述不同的对象，每种对象对应一个高速缓存。高速缓存由SLAB来管理对象的内存分配。每个SLAB是一个或多个连续的物理页（这个是从buddy算法分配而来的）一般运行在BUDDY的下层。有Slab_full Slab_partial,Slab_empty,三种。通过查看/proc/slabinfo可以看到slab的使用情况。另外，由于很多进程刚开始创建时，内存格式占用大小都差不多，系统经常需要创建和销毁进程，这样导致效率很低，slab算法，每次分配相同类型的内存时，就从相应的SLAB中去取已经划分好的对象。SLAB释放的内核空间，并没有完全释放，可以留给下次分配用。。。slab的实现大都放在 mm/slab.c中。通过查看/proc/slabinfo可以看到，

name <active_objs> <num_objs> <objsize> <objperslab> <pagesperslab> : tunables <limit> <batchcount> <sharedfactor> : slabdata <active_slabs> <num_slabs>

size-131072 2 2 131072 1 32 : tunables 8 4 0 : slabdata 2 2 0
size-65536(DMA) 0 0 65536 1 16 : tunables 8 4 0 : slabdata 0 0 0
size-65536 1 1 65536 1 16 : tunables 8 4 0 : slabdata 1 1 0
size-32768 4 4 32768 1 8 : tunables 8 4 0 : slabdata 4 4 0
size-16384 31 31 16384 1 4 : tunables 8 4 0 : slabdata 31 31 0
size-8192 573 573 8192 1 2 : tunables 8 4 0 : slabdata 573 573 0
size-4096 875 877 4096 1 1 : tunables 24 12 8 : slabdata 875 877 0
size-2048 759 812 2048 2 1 : tunables 24 12 8 : slabdata 406 406 1
size-1024 2744 2916 1024 4 1 : tunables 54 27 8 : slabdata 729 729 0
size-512 1335 1552 512 8 1 : tunables 54 27 8 : slabdata 194 194 2
size-256 3611 3735 256 15 1 : tunables 120 60 8 : slabdata 249 249 2
size-64 11054 11859 64 59 1 : tunables 120 60 8 : slabdata 201 201 0
size-128 6392 6570 128 30 1 : tunables 120 60 8 : slabdata 219 219 0
size-32 96304 96992 32 112 1 : tunables 120 60 8 : slabdata 866 866 3
kmem_cache 150 150 2688 1 1 : tunables 24 12 8 : slabdata 150 150 0

第一个参数是name，这个那么其实就是调用函数 kmem_cache_creat（）传递的第一个参数，后面要讲这个函数。可以看到objsize乘以objperslab得到中总的大小，基本接近于分配的页大小，比如2048*2=4096正好等于一个页，当然384*10=3840也是接近于一个页，可能是还没有分配出去，也有一部分是slab自身的结构占用了一些空间，最后一项显示，这样的slab一共有多少个。

下面来看一下kmem_cache_creat(const char *name,size_t size,size_t align,unsigned long flag,void(*ctor)(void*,struct kmem_cache *,unsigned long));

第一个参数就是制定这个高速缓存的名称，会出现在slabinfo的第一项，因为申请的一块高速缓存，是有slab来管理的。

第二项，分配的大小，对应上面就是2048,384,768等。如果是首次分配，那么开辟一个页，以后该对象的地址被回收之后，还可以由其他该类对象使用。

第三项，对齐方式，一般为0.标准对齐。

第四项，flag，SLAB_HWCACHE_ALIGN，使用slab内的对象按硬件的cache line进行对齐，提高性能，但是浪费内存多些。。

第五项，构造函数，传递的是函数的地址，以前还有dtor，2.6.30以后的版本中已经没有了。

调用成功，就返回一个指向该高速缓存结构的指针，然后就可以通过kmem_cache_alloc进行内存对象的分配了。

kmalloc函数-__do_kmalloc(size_t size,gfp_t flags,void *caller).

这个函数很简单，首先从高速缓存中找到一个kmem_cache，能够满足size大小，然后从这个kmem_cache中分配内存对象，而这些size实际上就是在slabinfo中的大小。

kmalloc(50,GFP_KERNEL)那么就从上面的size-64的slab中进行分配的。上面有那么的标示已经分配给其他对象了。使用kmalloc将会从未分配的高速缓存块中，分配一个能满足要求的最小高速缓存块。而这些size-xxx的slab是系统在内存初始化的时候㐇预先建立一组预定义大小的kmem_cache，从32字节开始，一直增加到131072个字节，也就是2^32，unsigned int;

另外内存分配还定义了一些其他函数，比如kzalloc():和malloc类似，但是分配的空间置0。 kcalloc(size_t n,size_t size gfp_t flag):for array。滴啊用kzalloc（n*size,flag）,地址赋值为0；

最后我们来看一下内存映射，mmap,munmap,msync;

mmap()系统调用使得进程之间通过映射同一个普通文件实现共享内存。普通文件被映射到进程地址空间后，进程可以像访问普通内存一样对文件进行访问，不必再调用read()，write（）等操作。
注：实际上，mmap()系统调用并不是完全为了用于共享内存而设计的。它本身提供了不同于一般对普通文件的访问方式，进程可以像读写内存一样对普通文件的操作。而Posix或系统V的共享内存IPC则纯粹用于共享目的，当然mmap()实现共享内存也是其主要应用之一。（来自百度百科）

void *mmap(void *,size_t length,int prot,int flag,int fd,off_t offset);

void *unmap(void * addr,size_t length)

第一项：参考虚拟地址，一般为NULL，自动生成。

第二项：字节数。

第三项：映射属性，PROT_EXEC，PROT_READ，PROT_WRITE，PROT_NONE。可以比特或。同时读写执行。

第四项：映射的操作，MAP_SHARED，MAP_PRIVATE，MAP_ANONYMOUS，前两个是共享内存或者私有映射，对内存的操作都是基于copy-on write，写实复制，只用调用munmap,或者msync的时候，才能保证写回文件。

如果指定为MAP——ANONYMOUS，标示匿名映射，不映射到任何文件中，致死后fd和offset不起作用，mmap返回一块初始化为0的匿名映射内存区域块。使用malloc函数分配虚拟内存时，小于128K的的用brk（）系统调用增长堆的大小，大于128kb的直接用MAP_ANONYMOUS的方式，映射一个匿名地址空间。开发人员可以用这种方法预先建立一个大的虚拟地址空间，实现自己的内存管理。

其他：

内存分配 kmalloc与malloc与vmalloc的关系（转自http://blog.csdn.net/macrossdzh/article/details/5958368）

简单的说：

kmalloc和vmalloc是分配的是内核的内存,malloc分配的是用户的内存
kmalloc保证分配的内存在物理上是连续的,vmalloc保证的是在虚拟地址空间上的连续,malloc不保证任何东西(这点是自己猜测的,不一定正确)
kmalloc能分配的大小有限,vmalloc和malloc能分配的大小相对较大
内存只有在要被DMA访问的时候才需要物理上连续
vmalloc比kmalloc要慢

详细的解释：

kmalloc和get_free_page申请的内存位于物理内存映射区域，而且在物理上也是连续的，它们与真实的物理地址只有一个固定的偏移，因此存在较简单的转换关系，virt_to_phys()可以实现内核虚拟地址转化为物理地址：

而vmalloc申请的内存则位于vmalloc_start～vmalloc_end之间，与物理地址没有简单的转换关系，虽然在逻辑上它们也是连续的，但是在物理上它们不要求连续。

vm_struct链表，将free的内存链接起来，记录vmalloc说得到的所有的块。

posted on 2015-08-29 22:11 ″ Jerry。阅读(1133) 评论(0) 收藏举报