逆向工程——二进制炸弹(CSAPP Project)

实验文件：https://files.cnblogs.com/remlostime/bomb.zip

题中给出了一个二进制文件（可执行文件），共6个关卡，每关要输入一个密码才能过关，就像解谜游戏一样，还是很有意思的，同时对于程序（函数，返回值，堆栈的组织）如何运行的有更深的理解。

破解唯一可用的线索就只有这个二进制文件了。这题是对于反汇编能有更深入练习，加上还能熟悉gdb，objdump这类调试工具和反汇编工具。每一关的考察点也是由浅入深。

最开始的时候很没头绪，就只是按照提示用objdump –d bomb把汇编代码整个打印出来，然后大致浏览了一下，差不多几十页的样子，发现其中有六个函数phase_1……phase_6，基本上也就可以确定就是这六个关卡了。

===============phase_1===============

知识点：string，函数调用，栈

用了差不多一个星期断断续续地寻找感觉的phase_1，最主要不知道从何入手。虽然phase_1也不过10+行指令，但最初我的出发点错了：完全依靠人工去读代码而不使用更便捷的gdb去调试和查看内存和寄存器的情况。

比方说，困扰了我好几天之久的strings_not_equal函数。现在看来，函数的名字已再清楚不过的体现了函数的意义。而我最初还深入到函数中去读各种寄存器、各种内存，最后被一个内存地址卡住了，死活不知道内存里的值是多少，还用人工去计算。最后终于恍然大悟，不就是放入栈中两个字符串，然后比较它们是否相等吗？

可以看到0x8048b22和0x8048b27指令中分别放入了两个字符串，一个在地址0x8049678中，另一个在0x8(%ebp)中。而0x8(%ebp)是函数phase_1的参数，所以依此可以判断0x8(%ebp)的内存地址中的值是我们输入的字符串，而0x8049678则可能是程序中硬编码的一个字符串。那么，找到这个内存地址中的字符串便能解决问题了。那么如何去寻找呢，于是乎我又翻看我的那几十页代码纸，企图人工计算出来。后来发现数据段的的值没有包含。终于，我开始想到了gdb这个工具。干嘛不在0x8048b22处设个断点，然后到时打印0x8049678地址中的值不就行了吗？终于的终于，最强调试器上场。

如图，密钥就是：The future will be better tomorrow.

经过如此简单的一个函数，基本上学会了函数是如何被调用，参数是如何放置的，以及学会了一点简单的gdb调试。另外，应当集中精力在主要问题上，对于strings_not_equal的函数的深入解读就是不明智的，只有当发现stings_not_equal的运作方式真正重要时才去关注。

===============phase_2===============

经过phase_1的训练，以后的关卡的破解模式也终于找到了，所以越来越难但花的时间却并非是线性增长的。

知识点：循环语句，数组

在1中可以看到%eax由于是调用者维护的寄存器，所以调用函数read_six_numbers时需要先入栈。0x8(%ebp)保存的应该是六个数字的地址。看了下read_six_numbers函数，基本上就是判断是否输入的数字为六个，所以重点还是phase_2函数本身。

在看到0x8048b54地址中的指令，cmpl $0x1,-0x20(%ebp)和je 8048b5f，为了确定-0x20(%ebp)中的值是否为1。而-0x20（%ebp）中的值是什么呢？猜测可能和输入的六个数有关，但我也懒得计算到底是哪个了。于是先在初始时随便输入六个数，比如：1 2 3 4 5 6，然后在0x8048b54处设立一个断点，用命令：p *(int *) ($ebp - 0x20) 查看其中的值，发现是输入的第一个整数。然后，就可以确定了第一个参数必须为1，炸弹才不会爆炸（0x8048b5a黄线标出）。

可以看到2是一个循环语句，共作了5次，其中%ebx是循环变量，而%esi中保存的是第一个整数的地址值，相当于一个数组中的起始地址(基地址)，而后面的key points中的代码就是确定后续的五个数应该是多少的关键了，可以看到a-0x8(%esi, %ebx, 4)和b-0x4(%esi, %ebx, 4)的地址就差0x4，也就是一个32位整数的地址，所以猜测可能是相邻两个数的一个比较。假设有数组A,由于数组地址是从小到大增长，所以地址数组索引b=a+1，根据指令可以得出A[b]=A[a]*%eax，其中%eax就是%ebx，每次%eax就等于循环变量（其中变量=2，3，4，5，6）。初始时，A[1]=1。所以，A[2] = A[1] * 2 = 2，A[3] = A[2] * 3 = 6，A[4] = A[3] * 4 = 24，A[5] = A[4] * 5 = 120，A[6] = A[5] * 6 = 720。

所以答案就是：1 2 6 24 120 720

===============phase_3===============

知识点：switch语句

这关基本上就是对switch语句的反汇编，最重要的是理解了switch的跳转表的结构就能重新刻画出switch的结构了，问题就迎刃而解了。可以看到1中最后call 08048878<sscanf@plt>，猜测sscanf可能是C语言的内部函数，于是查到其定义为：int sscanf(const char *str, const char *format,…)，给出一个使用实例：sscanf(“s 1”, “%s %d”, str, &a)，函数返回2（因为接收了2个参数），str为char*类型，保存”s”；a为int类型，保存1。由此，压入栈中的四个地址：-0x8(%ebp), -0x4(%ebp), 0x8049968 和 0x8(%ebp)这四个参数就是传递给sscanf。于是查看0x8049968中的值，得到：

由此，便推断出此关需要输入两个整数类型。

再看0x8048bae处的指令，为了不让指令跳转到explode_bomb处，得出表达式*(-0x4(%ebp)) – 0x7 <= 0（*(addr)是取出addr地址中的值），由于ja是对无符号数比较，所以第一个参数取值范围：0 1 2 3 4 5 6 7。

在2中的指令块就是一个比较明显的switch语句块了，最主要的一个线索就是jmp *0x80496cc(, %eax, 4)，根据地址0x80496cc + 4%eax中值确定跳转地址，也就是说跳转表存在0x80496cc ~ 0x80496cc + 4 * 7 的地址段中。

于是，将这个跳转表打印如下，就可以很清晰的得到2中的跳转结构，于是根据此结构又可以得到2下方用高级语言重写的switch代码。

再往下看，可以看到0x8048c23中-0x4(%ebp)和5进行比较，如果大于5则爆炸，所以第一个参数进一步去除了6和7。根据switch中的ret值，我们得到了第二个参数，于是答案就有6组（任意皆可）：

0 179

1 -678

2 -199

3 -900

4 -169

5 -411

发现当代码很长时，从后向前读会很有帮助，既从结果推知过程该干些什么能目的更明确。在之后的关卡中都用的是从结果推到过程中。

===============phase_4===============

知识点：递归

由1中可以看到sscanf(0x8(%ebp), 0x804996b, %eax)中的*0x804996b=”%d”，所以需要传入一个整数。另外由0x8048c8b的指令进一步确认了只能传入一个整数。而接下来的指令可以看出传入的整数应该>0，否则炸弹爆炸。而这个整数又作为func4的参数传入。在0x8048ca6的指令中，我们可以确定func4(-0x4(%ebp))=144才能过关。

那么深入一下func4的运作机理就是很有必要的，如下图给出了func4：

在上图中1作为func4的递归主体根据jg 8048c4e可以看出是一个循环语句，另外%ebx(即传入的参数)作为循环变量，此变量每次-2。另外在0x8048c42处，给出了递归结束的条件（%ebx<=1则返回1），根据如上的一些分析，大致的就可以还原出函数的一个全貌了。用C语言重写一下，得出：

int func4(int n)
{
	if (n <= 1)
		return 1;
	int ret = 0;
	for(int i = n; i > 1; i -= 2)
	{
		int m = i - 1;
		ret += func4(m);
	}
	return ret + 1;
}

最后，只要暴力搜索一下func4(n)=144的n的值就可以了，n=11。

===============phase_5===============

知识点：字串变换，ascii转换，寻址

这关可以说是phase_1的增强版，由1可以看出此段指令对我们输入的原字符串做了些处理，所以很可能并不能简单的输入在2中的地址*0x80496c=”titans”的字符串。那么先从2入手，首先%ecx中存的是什么地址呢？倒推到0x8048cd6可以看到%ecx = -0xb(%ebp)，所以这个地址并非是我们输入字符串的地址。而这个地址中的赋值可能就是在1中进行的。由movsbl -0x1(%ebx, %edx, 1), %eax和%edx的取值1，2，3，4，5，6可以推断出源地址的值。再由mov %al, -0x1(%edx, %ecx, 1)来推断目标地址。得出如下的对应关系：

其中%ebx=0x8(%ebp)输入字符串首字符地址，%ecx = -0xb(%ebp)

另外，根据and $0xf, %eax和mov 0x804a5c0(%eax), %al这两条指令可以知道，source->dest的赋值是根据我们输入每个字符串各位的最低四位(%eax)+0x804a5c0中地址所对应的字符回传给dest的对应地址。于是，将0x804a5c0中的字符串打印如下：

我们的目标字符串”titans”所对应的位置是cd,c0,cd,c5,cb,c1。所以，当输入字符串时，它们的末4位分别应为d,0,d,5,b,1。打印出0～126的ascii所对应的字符表，我选取了mpmeka（6d 70 6d 65 6b 61）作为答案。

===============phase_6===============

知识点：寻址

总算到了最后的关卡，但似乎觉得比前几关容易些，可能是因为我用了tricky的方法，偷懒了。可以看到1中的函数定义long int strtol(const char* str, char **endptr, int base)，基本上就是输入一个字符串，然后此函数中base=10(0xa)，endptr=0x0(NULL)，而str就是我们输入的参数，函数将其转换成10进制数。而2中调用了fun6函数，由于fun6函数实在太长懒得看了，发现传入的参数是一个硬编码地址0x804a630，所以应该和输入的参数没关系。也就是说fun6的返回值是固定的，那么干嘛不在fun6运行结束的地方设个断点，然后查看%eax的值不就完了嘛。如下:

又看到3是一个循环8次的语句，于是只要找出最后%eax为多少就行了，如下：

可以看到最后%eax=0x804a5d0，然后在打印出此地址中的值就行了：

转换成十进制就是198。

这题的fun6实在长到吐血，但理解fun6对解题的帮助并不大，所以直接看结果会明智些。

当当，最后一题解决啦！终于打倒大boos了！放礼花啦！

===============secret_phase===============

知识点：加强版递归，改变寄存器变量

咳咳，你还在看吗？好吧，最终的隐藏大boss来了。不负众望，果然是最有挑战的一关。

首先，你得发现有这么个隐藏关卡。发现了还不够，你得把它调出来。这还不够，你还得输入正确的密码，最后赢得比赛。

首先要发现隐藏关卡，那你就得通读代码，所以把代码打在纸上能更清晰些。

其次，如何调出关卡就得分析secret_phase在哪里被调用了，可以发现其被调用的地方只有一处，在phase_defused的代码中，而phase_defused是每关拆完之后会被调用的。于是拿来phase_defused分析一下：

可以看到，必须要过了第6关隐藏关卡才能被调用（其实用点特殊手段也能执行）。紧接着，就是一个sscanf(“11”, %d %s”, %eax, %ebx)的调用，由于0x804943e的指令告诉我们%eax(sscanf的返回值)要等于2才能顺利进行。”11”只能传入一个整型%d，所以sscanf返回1，而且由于硬编码，所以当时我就想到改变”11”所在的内存值，变成”1 s”就能顺利返回2了。但转念一想既然改变内存那寄存器%eax不也可以改变吗？何必舍近求远，找到最关键的那个变量直接改了不就行了。于是直接在0x80493e处设断点，在那里用命令p $eax=2，把%eax改成2就行了。同时在0x8049451出如法炮制，把%eax改成0就行了。于是乎，哇咔咔，终于见到最终大boss了。（另外，经过此番醒悟，我终于觉得连输入的密码都是浮云，只要每次在每个关卡的判断的关键处设断点，直接修改寄存器，连代码都不用理解就成了。这想法实在是邪恶！）

第三阶段最艰苦的征程开始了。放上大boss的真容：

程序首先是读入一行read_line，接着是strtol(%eax, NULL, 10)的调用，也就是我们需要输入一个10进制数。接下来这个10进制数会被作为fun7的参数（0x8048e28，另外一个参数在0x804a6e4(查看得知为0x24)）。而此参数首先应该满足的条件为%eax – 1 – 0x3e8 <= 0，既： %eax <= 0x3e9 (1001)。而从0x8048e39中，可以知道%eax=0x5时才能成功过关，也就是fun7要返回5。

那么，查看fun7的代码如下：

这是一个加强版的递归汇编，但也并非难道还原不出。最开始，我犯了个极大的错误在0x8048dcd处，勿把pushl 0x4(%ecx)当作把(0x4+%ecx)入栈，其实应该是把(0x4+%ecx)地址中的值入栈，所以怎么做怎么不对，从头到尾的检查了好几遍，花掉了3、4个小时终于是领悟了这么个bug。如上图，其实原理和phase_4的递归是一样的，只不过稍微分支多了点。可以写出如下的C代码的递归版本：

int fun7(const int *a, int b)
{
	if (a == NULL)
		return -1;
	int ret = 0;
	if (*a - b > 0)
	{
		ret = fun7(*(a + 4), b);
		ret *= 2
	}
	else if (*a - b == 0)
		return 0;
	else
	{
		ret = fun7(*(a + 8), b);
		ret = ret * 2 + 1;
	}
	return ret;
}

由于最后的返回值是5，根据函数数的结构可以想到这样的结构：

用穷举的方法试了下，似乎也只有这样一个唯一的结构可以得出5。

根据以上的结构以及C代码，就可以知道要做些什么了。

1）*0x804a6e4=0x24，之后在*a-b<0 (0x24 – b < 0)的分支中*(a + 8)=0x804a6cc，所以fun7(0x804a6cc, b)。

2）*0x804a6cc=0x32，*a-b>0 (0x32 - b > 0)，递归fun7(*(0x804a6cc + 4) = 0x804a6b4, b)。

3）*0x804a6b4=0x2d，*a-b<0 (0x2d - b < 0)，fun7(*(0x804a6b4 + 8) = 0x804a648, b)。

4）*0x804a648=0x2f，*a – b == 0 (0x2f – b == 0)，所以b = 0x2f，递归返回。

得到3个不等式和一个等式：

1) 0x24 – 0x2f < 0

2) 0x32 – 0x2f > 0

3) 0x2d – 0x2f < 0

4) b = 0x2f

都符合要求，所以我们得出最后输入的值就是十进制数47(0x2f)。

总算是最终完结篇了，现在又对hello,world的运作方式更进一步了。

posted @ 2011-05-21 13:16 chkkch 阅读(48390) 评论(6) 收藏举报

刷新页面返回顶部

Thoughts of Computer Science

逆向工程——二进制炸弹(CSAPP Project)