C#的托管与非托管大难点

托管代码与非托管代码

众所周知,我们正常编程所用的高级语言,是无法被计算机识别的。需要先将高级语言翻译为机器语言,才能被机器理解和运行。
在标准C/C++中,编译过程是这样的:
enter description here
源代码首先经过预处理器,对头文件以及宏进行解析,然后经过编译器,生成汇编代码,接着,经过汇编,生成机器指令,最后将所有文件连接起来。
这种编译方式的优点在于,最终直接生成了机器码,可以直接被计算机识别和运行,无需任何中间运行环境,但缺点也在于,由于不同平台能够识别的机器码不同,因此程序的跨平台能力较差。
而在Java语言中,源代码并没有被直接翻译成机器码,而是编译成了一种中间代码(字节码Bytecode)。因此,运行Java程序需要一个额外的JRE(Java Runtime Enviromental)运行环境,在JRE中存在着JVM(Java Virtual Mechinal,Java虚拟机),在程序运行的时候,会将中间代码进一步解释为机器码,并在机器上运行。
使用中间代码的好处在于,程序的跨平台性比较好,一次编译,可以在不同的设备上运行。
托管/非托管是微软的.net framework中特有的概念,其中,非托管代码也叫本地(native)代码。与Java中的机制类似,也是先将源代码编译成中间代码(MSIL,Microsoft Intermediate Language),然后再由.net中的CLR将中间代码编译成机器代码。
而C#与Java的区别在于,Java是先编译后解释,C#是两次编译。
托管的方式除了拥有跨平台的优点之外,对程序的性能也产生一定的影响。但程序性能不在本文讨论的范围,这里不在赘述。
此外,在.net中,C++也可以进行托管扩展,从而使C++代码也依赖于.net和CLR运行,获得托管代码的优势。

托管资源与非托管资源

在上一节中,我们讲到,托管代码与非托管代码相比,有下列不同:

  1. 编译运行过程不同
  2. 跨平台能力不同
  3. 程序性能不同

本节中,我们会涉及到托管和非托管的另一个区别:

  1. 释放资源的方式不同

在C/C++中,资源都是需要手动释放的,比如,你new了一个指针,用过之后就需要delete掉,否则就会造成内存泄露。
而在Java中,不必考虑资源释放的问题,Java的垃圾回收机制(GC,Garbage Collection)会保证失效的资源被自动释放。
而C#的机制与Java类似,运行于.net平台上的代码,分配的资源一般会自动由平台的垃圾回收器释放,这样的资源就是托管资源。
但是一些例外的资源,如System.IO.StreamReader等各种流、各种连接所分配的资源,需要显式调用Close()或Dispose()释放,这种资源就叫做非托管资源。

托管与非托管的混合编程

C#的一大优势在于Windows平台下的界面编程。但由于C#并不是很普及,经常出现底层或后台代码采用C/C++编写的情况,此时,若选择C#作为界面语言,则必然遇到一个C#调用C++代码的问题。
比较普遍的解决方案就是,先将C/C++的代码生成为DLL动态运行库,再在C#中调用。
举个例子
在C中:

 #include 
#include 

void DisplayHelloFromDLL()
{
    printf ("Hello from DLL !\n");
}

void CallHelloFromDLL(char* cp)
{
    printf (cp);
    printf ("\n");
    *cp='a';
    cp++;
    printf (cp);
    printf ("\n");
}
 

在C#中:

 using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;

namespace TestConsole
{
    using System;
    using System.Runtime.InteropServices;     // DLL support

    class Program
    {
        [DllImport(@"TestLib.dll")]
        public static extern void DisplayHelloFromDLL();

        [DllImport(@"TestLib.dll", CallingConvention = CallingConvention.Cdecl)]
        public static extern void CallHelloFromDLL(StringBuilder s);

        static void Main()
        {
            Console.WriteLine("This is C# program");
            DisplayHelloFromDLL();
            StringBuilder sb = new StringBuilder(100);
            CallHelloFromDLL(sb);
            Console.WriteLine(sb);
    }
}
 

在混合编程中,涉及了几个要点。

    1. 如何在DLL中将函数接口暴露出来?
      有两种方式,一种是采用__declspec(dllexport)的声明,另一种是编写额外的def文件,如
      ;导出DLL函数
      LIBRARY testLib
      EXPORTS 
      DisplayHelloFromDLL
      CallHelloFromDLL
      
    2. DLL与C#之间如何进行数据传送?
      这个问题其实很复杂,像int,double这种基本的数据类型,是很好传递的。到了byte和char,就有点复杂了,更复杂的还有string和stringBuilder,以及结构体的传递等。
      若传递的是指针,有两种方法,一种是采用托管的方式,使用Intptr存储指针,并使用ref获得地址(&);另一种是在C#中编写非托管的代码,用unsafe声明:

      unsafe
      {
      //非托管代码
      }
      

      在非托管代码中,即可进行指针相关的操作。
      若传递的是函数指针,由于C#中没有函数指针的概念,因此采用委托(delegate)的方式。
      若传递的是自定义结构体,也可以采用ref的方式传递。
      这个如果有机会的话,我会单独整理一下。

    3. extern “C”、CallingConvention =CallingConvention.Cdecl)等必要声明。
      这里面也牵涉到复杂的语言机制,本文不再赘述。

1.1.1 摘要

我们知道计算机不能直接理解高级语言,它只能理解机器语言,所以我们必须要把高级语言翻译成机器语言,这样计算机才能执行高级语言编写的程序,在接下来的博文中,我们将介绍非托管和托管语音的编译过程。

1.1.2正文

非托管环境的编译过程(C/C++)

纯C/C++的程序通常运行在一个非托管环境中,类是由头文件(.h)和实现文件(.cpp)组成,每个类形成了一个单独的编译单元,当我们编译程序时,几个基本组件会把我们的源代码翻译成二进制代码,接下来我们通过以下图片说明非托管环境的编译过程:

GCC_CompilationProcess

图1 C/C++编译过程

首先是预处理器,如果在项目中有头文件和宏表达式,那么它将负责包含头文件和翻译所有的宏观表达式。

接下来是编译器,它不是直接生成二进制代码,而是生成汇编代码(.s),这基本上是所有现代的非结构化语言的共同基础。

然后,汇编程序把汇编代码翻译成目标代码(.o和.obj文件,机器指令)。

最后链接器,它把所有彼此相关的目标文件和生成的可执行文件或库链接起来。

总而言之,在一般情况下,我们的代码首先翻译成汇编代码,接着翻译成机器指令(二进制代码)。

什么是宏?

在C/C++中,宏是预处理指令,它有多种应用技术:包括预定义、创建关键字和条件编译等等。在一般情况下,这些技术在C++中使用被认为是不好的做法,主要原因是有可能滥用C++提供的语法变化功能,甚至有可能在不知情情况下创建了非标准的语言,宏不遵循一般的源代码编译规则,由于它通过预处理来处理,而不是编译器。

托管环境的编译过程(C#/Java)

在托管环境中,编译的过程略有不同,我们熟知的托管语言有C#和Java,接下来,我们将以C#和Java为例介绍在托管环境中的编译过程。

当我们在喜爱的IDE中编写代码时,第一个检测我们代码的就是IDE(词法分析),然后,编译成目标文件和链接到动态/静态库或可执行文件进行再次检查(语法分析),最后一次检查是运行时检查。托管环境的共同特点是:编译器不直接编译成机器码,而是中间代码,在.NET中称为MSIL - Microsoft Intermediate Language,Java是字节码(Bytecode)

在那之后,在运行时JIT(Just In Time)编译器将MSIL翻译成机器码,这意味着我们的代码在真正使用的时候才被解析,这允许在CLR(公共语言运行时)预编译和优化我们的代码,实现程序性能的提高,但增加了程序的启动时间,我们也可以使用Ngen(Native Image Generator)预编译我们的程序,从而缩短程序的启动时间,但没有运行时优化的优点。(JeffWong的补充Java是先通过编译器编译成Bytecode,然后在运行时通过解释器将Bytecode解释成机器码;C#是先通过编译器将C#代码编译成IL,然后通过CLR将IL编译成机器代码。所以严格来说Java是一种先编译后解释的语言,而C#是一门纯编译语言,且需要编译两次。)

 Dot_Net_Application_Compilation-707676

图2 C#的编译过程

.Net Framework就是在Win32 core上添加了一个抽象层,它提供的一个好处就是支持多语言、JIT优化、自动内存管理和改进安全性;另外一个完整解决方案是WinRT,但这涉及到另外一个主题了,这里不作详细介绍。

MicrosoftBoxologyDiagram

图3 Windows API

JIT编译的优点和缺点

JIT编译带来了许多好处,最大的一个在我看来是性能的优势,它允许CLR(通用语言运行时扮演Assembler组件)只执行需要的代码,例如:假设我们有一个非常大的WPF应用程序,它不是立即加载整个程序,而是CLR开始执行时,我们代码的不同部分将通过一个高效的方法翻译成本地指令,因为它能够检查系统JIT和生成优化的代码,而不是按照一个预定义的模式。不幸的是,有一个缺点就是启动的过程比较慢,这意味着它不适用于加载时间长的包。

JIT的替代方案使用NGen

如果Visual Studio由JIT创建,那么它的启动我们将需要等待几分钟,相反,如果它是使用Ngen(Native Image Generator)编译,它将创建纯二进制可执行文件,如果只考虑速度的问题,那是绝对是正确的选择。

1.1.3总结

在非托管环境中,我们需要知道编译的过程分成编译和连接两个阶段,编译阶段将源程序(*.c,*.cpp或*.h)转换成为目标代码(*.o或*.obj文件),至于具体过程就是上面说的C/C++编译过程的前三个阶段;链接阶段是把前面转成成的目标代码(obj文件)与我们程序里面调用的库函数对应的代码链接起来形成对应的可执行文件(exe文件)。

托管环境中,编译过程可以分为:词法分析、语法分析、中间代码生成、代码优化和目标代码生成等等过程;无论是.NET还是Java,它们都会生成中间代码(MSIL或Bytecode),然后把优化后的中间代码翻译成目标代码,最后在程序运行时,JIT将IL翻译成机器码。

无论是托管或非托管语言,它们的编译编译过程是把高级语言翻译成计算机能理解的机器码,由于编译过程涉及的知识面很广(编译的原理和硬件知识),而且本人的能力有限,也只能简单的描述一下这些过程,如果大家希望深入了解编译的原理,我推荐大家看一下《编译原理》。

posted @ 2018-10-23 18:01  CharyGao  阅读(620)  评论(0编辑  收藏  举报