CSAPP 3 程序的机器级表示

1 本章总述

  1. 通过让编译器产生机器级程序的汇编表示, 学习了编译器及其优化能力, 以及机器、数据类型和指令集;

  2. 学习了程序如何将数据存储在不同的内存区域中 —— 程序开发人员需要知道一个变量是存储在运行时栈中, 亦或是在某个动态分配的数据结构中, 还是全局程序数据的一部分;

  3. 程序是以指令序列来表示的, 每条指令都完成一个单独的操作; 部分程序状态, 比如寄存器和运行时栈, 对程序开发人员来说是直接可见的;

  4. 编译器必须使用多条指令来产生和操作各种数据结构, 以及实现包括条件、循环和过程等在内的控制结构;

2 扩展内容

(1) C 语言中缺乏边界检查, 这就是的许多程序容易出现缓冲区溢出 —— 容易受到恶意入侵和攻击.

(2) 编译 C++ 和 C 的区别:

C++ 的早期实现只是简单地执行了从 C++ 源到 C 源的转换, 并对结果运行 C 编译器, 产生目标代码;
C++ 的对象用结构来表示, 类似于 C 中的struct;
C++ 的方法使用指向实现方法的代码的指针来表示的.

(3) Java 的编译方式:

Java 的目标代码是一种特殊的二进制表示 —— Java 字节码 —— 可以看作是虚拟机的机器级程序;
Java 用字节码作为程序的低级表示, 优势是: 相同的代码可以在许多不同的机器上执行, 只需要在不同的机器上安装 Java 虚拟机(JVM)即可;
Java 中还有一种称为 即时编译(Just-In-Time Compilation) 的方法, 动态地把字节代码序列翻译成机器指令, 当代码要执行多次时(比如在循环中), 这种方法执行起来更快.

需要注意的是: Java 虚拟机并不是直接用硬件实现的, 而是用软件解释器处理字节码, 模拟虚拟机的行为.


====== 华丽的分割线 - 第三章第三周作业 - ======

3 一些总结性的知识

gcc-S生成汇编代码, objdump -d反汇编程序, 生成可执行文件后, 文件变大 —— 因为包括了启动、终止程序信息, 以及操作系统交互信息.

3.1 机器级编程二种重要的抽象

(1) 指令集体系结构, 定义了处理器状态、指令的格式, 以及每条指令对状态的影响.
(2) 机器级程序使用的存储器地址是虚拟地址, 操作系统负责管理虚拟地址空间, 并将虚拟地址翻译成实际处理器存储器的物理地址.

3.2  IA32包含8个存储32位值的寄存器

(1) %eax、%edx、%ecx称为调用者保存寄存器, 过程P调用Q, Q可以覆盖他们.

(2) %ebx、%esi、%edi称为被调用者寄存器, Q须在覆盖前保存, 并在返回前恢复.

(3) 栈指针%esp始终保存着栈顶元素的地址, 压栈减小栈指针, 栈向下增长; 帧指针%ebp, 大多数信息的访问都是相对于帧指针的.

3.3 MOV类中指令将源操作数复制到目的操作数

源操作数指定一个立即数, 存储在寄存器或存储器中。目的操作数指定一个位置,寄存器或存储器地址。

(1) 有效地址: 立即数偏移Imm+基址寄存器R[Eb]+变址寄存器R[Ei]*比例因子s(1、2、4);

(2) 限制是两个操作数不能同时指向存储器位置;

(3) MOVS和MOVZ将较小的源数据复制到较大的数据位置, 高位符号扩展或零扩展.

4 栈帧结构

4.1 总体描述

IA32的程序使用堆栈支持过程的调用 (函数的调用), 在函数调用时会专门从堆栈中分出一块内存 (称为帧) 供函数使用.

传递给函数的参数由堆栈来保存, 帧则负责存储寄存器的状态、局部变量的内存分配的相关任务.

如果说函数P调用函数Q, 那么称P为调用者 (caller), Q是被调用者 (callee).

根据上述规则, 堆栈会给Q分配帧, 并且用两个指针 (分别存储在%ebp%ebp和%esp%esp中) 指示帧的开始和结束的位置.

4.2 其他特性

(1) 栈规则提供了一种机制, 每次函数调用都有它自己私有的状态信息 (保存的返回位置、栈指针和被调用者保存寄存器的内容), 因此每次递归其实就是一个栈深度不断增加的过程.

(2) 访问数组元素: movl  (%edx, %ecx, 4), %eax 通过首地址+偏移量得到实际地址访问;

(3) 读存储器比写存储器容易得多, 因此将只读变量溢出到存储器是合适的 —— 寄存器数量有限, 因此才会溢出到存储器.

(4) 数据对齐的优点:

(a) 对齐限制简化了形成处理器和存储器系统之间的硬件设计;
(b) 严格对齐后, 可用一个存储器用作读或写;
(c) 对齐数据以提高系统的性能.

(5) 指针的强制转换, 只是改变在内存中的解读方式. —— 很重要的一个理解.

5 对抗缓冲区溢出攻击的几种方式

(1) 栈随机化;
(2) 栈破坏检测: 利用一个金丝雀值完成;
(3) 限制可执行代码区域: 只保存编译器产生的代码的那部分存储器是可执行的, 其他部分可以被限制为只读、只写.

未完待续...

posted @ 2019-09-22 22:05  瘦风  阅读(138)  评论(0编辑  收藏