[转帖]解密微软中间语言:MSIL

在.Net框架中,公共语言基础结构使用公共语言规范来绑定不同的语言。通过要求不同的语言至少要实现公共类型系统(CTS)包含在公共语言规范中的部分,公共语言基础结构允许不同的语言使用.Net框架。因此在.Net框架中,所有的语言(C#,VB.Net,Effil.Net等)最后都被转换为了一种通用语言:微软中间语言(MSIL)。

MSIL是将.Net代码转化为机器语言的一个中间过程。它是一种介于高级语言和基于Intel的汇编语言的伪汇编语言。当用户编译一个.Net程序时,编译器将源代码翻译成一组可以有效地转换为本机代码且独立于CPU 的指令。当执行这些指令时,实时(JIT)编译器将它们转化为CPU特定的代码。由于公共语言运行库支持多种实时编译器,因此同一段MSIL代码可以被不同的编译器实时编译并运行在不同的结构上。从理论上来说,MSIL将消除多年以来业界中不同语言之间的纷争。在.Net的世界中可能出现下面的情况:一部分代码可以用Effil实现,另一部分代码使用C#或VB完成的,但是最后这些代码都将被转换为中间语言。这给程序员提供了极大的灵活性,程序员可以选择自己熟悉的语言,并且再也不用为学习不断推出的新语言而烦恼了。

解密微软中间语言的系列文章将通过一些简单易懂的方式来揭示中间语言的复杂原理。这些原理通过详细的例子来阐述。

 


 

在.Net框架中,公共语言基础结构使用公共语言规范来绑定不同的语言。通过要求不同的语言至少要实现公共类型系统(CTS)包含在公共语言规范中的部分,公共语言基础结构允许不同的语言使用.Net框架。因此在.Net框架中,所有的语言(C#,VB.Net,Effil.Net等)最后都被转换为了一种通用语言:微软中间语言(MSIL)。

MSIL是将.Net代码转化为机器语言的一个中间过程。它是一种介于高级语言和基于Intel的汇编语言的伪汇编语言。当用户编译一个.Net程序时,编译器将源代码翻译成一组可以有效地转换为本机代码且独立于CPU 的指令。当执行这些指令时,实时(JIT)编译器将它们转化为CPU特定的代码。由于公共语言运行库支持多种实时编译器,因此同一段MSIL代码可以被不同的编译器实时编译并运行在不同的结构上。从理论上来说,MSIL将消除多年以来业界中不同语言之间的纷争。在.Net的世界中可能出现下面的情况:一部分代码可以用Effil实现,另一部分代码使用C#或VB完成的,但是最后这些代码都将被转换为中间语言。这给程序员提供了极大的灵活性,程序员可以选择自己熟悉的语言,并且再也不用为学习不断推出的新语言而烦恼了。

解密微软中间语言的系列文章将通过一些简单易懂的方式来揭示中间语言的复杂原理。这些原理通过详细的例子来阐述。在一些例子中同时给出了源代码和中间代码,通过比较源代码和中间代码,我们可以更好地理解编译器的局限性,指导我们编写出更好更快的代码。


微软中间语言概述


1.用中间语言编写的一个简单程序

让我们从经典的Hello World例子开始。首先在一个文本编辑器中输入以下的代码,并保存为HelloWorld.il:

.assembly HelloWorldIL {}
.method static void  HelloWorld()
{
                 .entrypoint
    ldstr "Hello World."
    call void [mscorlib]System.Console::WriteLine(class System.String)
           ret
}
 


在一个中间语言程序中,如果某一行以“.”开始,则代表这是一个传输给汇编工具的指令,该指令要求汇编工具执行某些操作,例如生成一个函数或类。而没有以“.”开始的行是中间语言的代码。在中间语言中方法通过汇编命令method来定义,汇编命令后跟方法的返回值、名称和参数。方法体被包含在{}中。例子中的ret代表该方法的结束。

一个中间语言文件可以包含很多函数,汇编工具没有办法分辨应该首先执行哪一个方法。在诸如C#或VB这一类高级语言中,程序的入口方法通常都有特定的名称,例如在C#中的public static void Main()。这就是上面的汇编工具发出错误提示的原因。在中间语言中,第一个被执行的方法被称为入口函数(EntryPoint Function)。为了告诉汇编工具HelloWorld是入口函数,我们需要在代码中增加一条汇编命令entrypoint,该命令可以放在方法体中的任何位置。需要注意的是在一个程序集中只能有一个入口函数。

中间语言代码通常被编译成一个模块,该模块隶属于一个程序集。在.Net中模块和程序集的概念非常重要,因此开发人员需要很清楚地了解它们。在后面的文章中我们将详细讨论.Net程序的结构。通过在代码中加入assembly命令,可以告诉汇编工具中间代码隶属于那个程序集。assembly命令的格式如下:

.assembly <程序集名称> {}
 


需要注意在method命令后加入了static关键字,这是因为每个入口函数必须是静态的,例如在C#中我们将Main方法定义为public static void Main()。

接下来我们需要调用WriteLine方法将HelloWorld字符串输出到屏幕。通过使用call指令(Instruction)我们可以达到这个目的。指令的格式如下:

call <return type> <namespace>.<class name>::<method name>
 


这里我们可以看到当调用一个方法时,中间语言和其他的编程语言有很大的区别。在中间语言中,如果需要调用一个方法,需要指定方法的全名,包括他的名称域(namespace)、类名、返回值类型和参数的数据类型。这样就保证了汇编工具能够找到正确的方法。

在调用WriteLine方法时需要一个字符串参数。所有传递给方法或函数的参数都被保存在内存的堆栈中。在中间语言中有一个指令ldstr可以从堆栈中加载一个字符串。(堆栈是内存中的一块区域,它被用于将参数传输给方法,在后面我们会详细讨论堆栈的问题)。所有的方法都从堆栈中获取它们的参数,因此ldstr指令是必不可少的。ldstr指令的格式如下所示:

ldstr <parameter string>
 


我们可以用ILAsm.exe来编译这个程序。在运行ILAsm.exe之前,首先需要确认一下该程序已经包含在了Windows操作系统的Path环境变量中。ILAsm.exe 可在下面的路径中找到:

%windir%\Microsoft.NET\Framework\v1.0.xxxx
 


其中xxxx是正在使用的.NET框架的内部版本号。例如我使用的版本号是3705,则应该如下设置Path环境变量:

Set Path = %Path%;c:\Windows\Microsoft.NET\Framework\v1.0.3705
 


然后运行cmd.exe(开始->运行->输入cmd->按下确认键)。在弹出的命令窗口中输入:

J:\Testcode>ilasm HelloWorld.il
 


汇编代码后运行程序就可以看到Hello World.的输出。

通过上面的例子,我们了解了中间语言的程序结构,一些命令和指令。同时需要提醒大家的是中间语言是区分大小写的。

2.改进的HelloWorld例子

在.Net中的所有语言都是面向对象的语言,但是上面的HelloWorld例子是一个结构化的例子。下面让我们来看一下如何将它转化为面向对象的代码。在面向对象的编程中,我们将操作定义在类中。为了将上面的HelloWorld例子转化为面向对象的代码,可以使用class命令:

.class HelloWorld
{
}
 


class命令后紧跟的是类的名称。类的名称在中间语言中是可选的。同时我们还需要为该指令添加一些属性,例如存取控制类在内存中的布局和互用性等。这样代码就变成了:

.assembly HelloWorldIL {}
.class public auto ansi HelloWorld extends [mscorlib]System.Object
{
  .method public hidebysig static void HelloWorld() cil managed
  {
      .entrypoint
      ldstr "Hello World."
      call void [mscorlib]System.Console::WriteLine(class System.String)
      ret
  }
  .method public hidebysig specialname rtspecialname
    instance void  .ctor() cil managed
  {
      ldarg.0
      call instance void [mscorlib]System.Object::.ctor()
      ret
  }
}
 


在代码中用到了三个属性:

· public:public是访问控制属性,它表明了对于访问该类的成员没有限制。

· auto:auto属性表明了当类被加载到内存中时,在内存中的布局是由公共运行库而不是程序决定的。

· ansi:指定ansi属性是为了在没有被管理和被管理的代码之间实现无缝的转化。在.Net中,那些不可直接应用在公共语言基础设施之上的代码被称为没有被管理的代码,例如C、C++和VB6的代码。我们需要一个属性来处理被管理的代码和没有被管理的代码之间的互用性。在被管理的代码中,字符串用双字节的Unicode字符表示,而在被管理的代码中,字符串有可能用单字节的ANSI字符表示。指定了ansi属性就可以在不同的代码间转化字符串了。

我们知道在.Net框架中,所有的类都直接或间接地继承了System.Object类。在代码中我们明确指定了HelloWorld继承了System.Object。

在HelloWorld方法中加入了public、hidebysig、cil managed属性,下面是对这些属性的解释:

· public:在C#或VB.Net中,当我们定义一个方法时,需要指定方法的访问修饰符。访问修饰符可以是public、protected、internal或private 。

· hidebysig:一个类可以继承其他的类,hidebysig属性保证当前类中的方法在作为父类时不会被子类继承。例如如果HelloWorldChild类继承了HelloWorld类,在HelloWorldChild中不会看到HelloWorld方法。

· cil managed:该属性将在后面讨论。

在高级语言中(C#,VB.Net等),每个类必须有构造函数,而且构造函数的第一行需要调用基类的构造函数。如果类中没有构造函数,基类的构造函数将被自动调用。通常这是由编译器自动完成的,现在我们要在的代码中加入构造函数,该构造函数通过.ctor命令调用基类的构造函数。


小结


本文我们从经典的Hello World例子开始,通过实例了解了微软中间语言的基本语法规则以及中间语言与其他开发语言的关系。在下一篇文章中,我们将在此基础上,运用实例程序讲述.net应用程序的格式和结构等内容。


解密微软中间语言MSIL之解析.Net应用程序 Xinsoft,2004-03-02 08:29:37

.Net应用程序由一个或多个可执行程序组成,每个可执行程序中都有元数据和可管理的代码。.Net应用程序通常被称为程序集。一个程序集由一个或多个部署在一起的文件组成,它通常保存一份清单,该清单确定程序集标识,指定组成程序集实现的文件,指定组成程序集的类型和资源,列举对其他程序集的编译时依赖项,并指定为保证程序集正确运行所需要的权限集。在运行时使用此信息来解析引用,强制版本绑定策略,并验证已加载的程序集的完整性。

不含程序集清单的中间语言文件被称为模块。程序集可以是单模块的,也可以是多模块的。每个程序集只能够有一个清单,该清单驻留在拥有入口函数的模块中。图一显示了一个单模块程序集的结构:



图一 单模块程序集的结构


从图一中我们可以看到程序集中包含了程序集标识段,元数据段和中间语言代码段。让我们来看一下HelloWorld中的代码,其中的assembly命令代表是程序集标识段,但是在其中没有包含版本、名称、区域性、安全性和模块信息。让我们在代码中加入下面的行(代码重用黑体标出):

.assembly DemystifyingILChapter1
{
    .hash algorithm 0x00008004
    .ver 1:0:0:0}
.class public auto ansi HelloWorld extends [mscorlib]System.Object
{

}
 


上面的代码扩充了assembly命令的内容。事实上assembly命令可以包含很多其它的命令,在上面的代码中使用了hash和ver命令。

· hash:该命令告诉VSE实现安全性所使用的哈希算法。数字0x00008004表示使用SHA1,这也是系统的缺省设置。

· ver:程序集的版本号,由四个32位整数组成。

前面在讨论.Net应用程序的格式的时候,曾提到在一个可执行的应用程序中可以包含对其它模块的引用。到目前为止我们还没有使用任何命令来告知程序集应该生成哪一个模块。在HelloWorld例子中我们引用了一个外部程序mscorlib。那么汇编工具正确编译了代码吗?答案是肯定的。ILAsm能够自动将HelloWorld中的代码定义为基本模块,并在其中引用mscorlib程序集。在下面的代码中我们将使用命令告诉编译器如何集成模块。我们使用的命令仍然是assembly,不过现在带上了extern属性。为了正确地引用一个程序集,至少需要创作者的公钥或公钥Token以及程序集的版本信息。公钥Token是SHA1哈希码的低八位字节,它能够唯一确定一个程序集。我们可以在C:\Winnt\assembly目录下找到程序集的相关信息(如图二所示)。

图二 程序集的相关信息


在C:\Winnt\assembly中可以看到计算机上安装的mscorlib版本是1.0.3300.0。公钥Token是B77A5C561934E089。也许你计算机上安装了不同版本的mscorlib。在下面的代码中你需要用正确的版本号替代1.0.3300.0。

.module Hello.exe
.assembly extern mscorlib
{
    .publickeytoken = (B7 7A 5C 56 19 34 E0 89)
    .ver 1:0:3300:0
}
.assembly DemystifyingILChapter1
{
   …
}
.class public auto ansi HelloWorld extends [mscorlib]System.Object
{
   …
}
 


现在我们拥有了一个正确的.Net应用程序,该程序中提供了.Net框架所有必要的信息。下面我们将用C#和VB.Net中编写HelloWorld程序,并将它们编译成中间代码。


在高级语言中实现HelloWorld例子程序


我们将在C#和VB.Net中编写HelloWorld程序,将它们编译成可执行程序,然后用反汇编工具ildasm.exe将执行程序反汇编为中间代码,把它们和上面的例子进行比较。

C#
public class HelloWorld
{
           public static void Main()
           {      
                 System.Console.WriteLine("Hello World.");
           }
}
 


当生成可执行文件后,用ildasm.exe来反汇编才生成的HelloWorld.exe。在命令行中输入:

ildasm /out=HelloWorld.txt HelloWorld.exe
 


查看生成的HelloWorld.txt文件,我们可以看到:

//  Microsoft (R) .NET Framework IL Disassembler.  Version 1.0.3705.0
//  Copyright (C) Microsoft Corporation 1998-2001. All rights reserved.
.assembly extern mscorlib
{
  .publickeytoken = (B7 7A 5C 56 19 34 E0 89 )     // .z\V.4..
  .ver 1:0:3300:0
}
.assembly HelloWorld
{
  // --- The following custom attribute is added automatically, ---
  // --- do not uncomment -------
  //  .custom instance void [mscorlib]System.Diagnostics.DebuggableAttribute::
  //                                 .ctor(bool, bool) = ( 01 00 00 01 00 00 )
  .hash algorithm 0x00008004
  .ver 0:0:0:0
}
.module HelloWorld.exe
// MVID: {E63F9CA9-D4C4-4826-9BE1-2B0EE3694289}
.imagebase 0x00400000
.subsystem 0x00000003
.file alignment 512
.corflags 0x00000001
// Image base: 0x03000000
//
// ============== CLASS STRUCTURE DECLARATION ==================
//
.class public auto ansi beforefieldinit HelloWorld
       extends [mscorlib]System.Object
{
} // end of class HelloWorld
// =============== CLASS MEMBERS DECLARATION ===================
//   note that class flags, 'extends' and 'implements' clauses
//          are provided here for information only

.class public auto ansi beforefieldinit HelloWorld
       extends [mscorlib]System.Object
{
  .method public hidebysig static void  Main() cil managed
  {
    .entrypoint
    // Code size       11 (0xb)
    .maxstack  1
    IL_0000:  ldstr      "Hello World."
    IL_0005:  call       void [mscorlib]System.Console::WriteLine(string)
    IL_000a:  ret
  } // end of method HelloWorld::Main
  .method public hidebysig specialname rtspecialname
          instance void  .ctor() cil managed
  {
    // Code size       7 (0x7)
    .maxstack  1
    IL_0000:  ldarg.0
    IL_0001:  call       instance void [mscorlib]System.Object::.ctor()
    IL_0006:  ret
  } // end of method HelloWorld::.ctor
} // end of class HelloWorld
// =============================================================
//*********** DISASSEMBLY COMPLETE ***********************
// WARNING: Created Win32 resource file HelloWorld.res
 


如果仔细察看一下上面的文件,我们会发现其中大部分的命令和指令在前面已经作了阐述。如果用VB.Net来编写HelloWorld程序,编译器的输出基本上和C#一样。因此虽然使用的语言不一样,但是源代码最终会编译成相同的中间代码,因此由于语言之间的差别产生的种种问题在.Net中都不足为道了。


小结


本文我们延续使用了《解密微软中间语言MSIL之中间语言概述 》Hello World例子程序,详细分析了.net应用程序的格式和结构。接下来,我们将在下一篇文章中完成对程序的调试工作。

posted @ 2008-08-09 12:58  gecko  阅读(463)  评论(0编辑  收藏  举报