≮海浪轻风≯

笑对人生,珍惜所有!
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

什么是Unicode字符

Posted on 2008-01-24 12:23  ≮海浪轻风≯  阅读(1841)  评论(0)    收藏  举报
什么是Unicode字符
 

Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。随着计算机工作能力的增强,Unicode也在面世以来的十多年里得到普及。

2006年6月的最新版本的 Unicode 是 2005年3月31日推出的Unicode 4.1.0 。另外,5.0 Beta已于2005年12月12日推出,以供各会员评价。


Unicode 的编码和实现

大概来说,Unicode 编码系统可分为编码方式和实现方式两个层次。

1.编码方式

Unicode 的编码方式与 ISO 10646 的通用字元集(亦称[通用字符集])(Universal Character Set,UCS)概念相对应,目前的用于实用的 Unicode 版本对应于 UCS-2,使用16位的编码空间。也就是每个字符占用2个字节。这样理论上一共最多可以表示 65,536(2的16次方) 个字符。基本满足各种语言的使用。实际上目前版本的 Unicode 尚未填充满这16位编码,保留了大量空间作为特殊使用或将来扩展。

上述16位 Unicode 字符构成基本多文种平面(Basic Multilingual Plane, 简称 BMP)。最新(但未实际广泛使用)的 Unicode 版本定义了16个辅助平面,两者合起来至少需要占据21位的编码空间,比3字节略少。但事实上辅助平面字符仍然占用4字节编码空间,与 UCS-4 保持一致。未来版本会扩充到 ISO 10646-1 实现级别3,即涵盖 UCS-4 的所有字符。UCS-4 是一个更大的尚未填充完全的31位字符集,加上恒为0的首位,共需占据32位,即4字节。理论上最多能表示 2,147,483,648(2的31次方)个字符,完全可以涵盖一切语言所用的符号。

BMP 字符的 Unicode 编码表示为 U+hhhh,其中每个 h 代表一个十六进制数位。与 UCS-2 编码完全相同。对应的4字节 UCS-4 编码后两个字节一致,前两个字节的所有位均为0。

2.实现方式

Unicode 的实现方式不同于编码方式。一个字符的 Unicode 编码是确定的。但是在实际传输过程中,由于不同系统平台的设计不一定一致,以及出于节省空间的目的,对 Unicode 编码的实现方式有所不同。Unicode 的实现方式称为Unicode转换格式(Unicode Translation Format,简称为 UTF)。

例如,如果一个仅包含基本7位ASCII字符的 Unicode 文件,如果每个字符都使用2字节的原 Unicode 编码传输,其第一字节的8位始终为0。这就造成了比较大的浪费。对于这种情况,可以使用 UTF-8 编码,这是一种变长编码,它将基本7位ASCII字符仍用7位编码表示,占用一个字节(首位补0)。而遇到与其他 Unicode 字符混合的情况,将按一定算法转换,每个字符使用1-3个字节编码,并利用首位为0或1进行识别。这样对以7位ASCII字符为主的西文文档就大大节省了编码长度(具体方案参见UTF-8)。类似的,对未来会出现的需要4个字节的辅助平面字符和其他 UCS-4 扩充字符,2字节编码的 UTF-16 也需要通过一定的算法进行转换。

再如,如果直接使用与 Unicode 编码一致(仅限于 BMP 字符)的 UTF-16 编码,由于每个址都不相同,Macintosh机和PC机上对字节顺序的理解是不一致的。这时同一字节流可能会被解释为不同内容,如编码为 U+594E 的字符“奎”同编码为 U+4E59 的“乙”就可能发生混淆。于是在 UTF-16 编码实现方式中使用了大尾序(big-endian)、小尾序(little-endian)的概念,以及BOM(Byte Order Mark)解决方案。(具体方案参见UTF-16)

此外 Unicode 的实现方式还包括 UTF-7、Punycode、CESU-8、SCSU、UTF-32等,这些实现方式有些仅在一定的国家和地区使用,有些则属于未来的规划方式。目前通用的实现方式是 UTF-16小尾序(BOM)、UTF-16大尾序(BOM)和 UTF-8。在微软公司Windows XP操作系统附带的记事本中,“另存为”对话框可以选择的四种编码方式除去非 Unicode 编码的 ANSI 外,其余三种“Unicode”、“Unicode big endian”和“UTF-8”即分别对应这三种实现方式。

目前辅助平面的工作主要集中在第二和第三平面的中日韩统一表意文字中,因此包

一般计算机中分为两种字符集,一类是ANSI字符集,另一类是Unicode字符集,我们比较熟悉的ANSI字符串是以NULL结尾的一串字符数组,每一个ANSI字符占一个字节宽。对于欧洲语言体系,ANSI字符集已经足够了,但对于有成千上万个不同字符的几种东方语言体系来说,Unicode字符集更有用。每一个Unicode字符占两个字节的宽度,这样一来就可以同时定义65536个不同的字符了。


一种双字节字符编码,无论中文还是英文,或者其他语言统一到2个字节。与现有的任何编码(ASCII,GB等)都不兼容。WindowsNT(2000)的内核即使用该编码,所有数据进入内核前转换成UNICODE,退出内核后在转换成版本相关的编码(通常称为OEM,在简体中文版下即为GB).这样在不同语言版本的WindowsNT,其内核是完全相同的,仅仅SHELL不同而已。Word文件中也用到了UNICODE.

众所周知,每个英文字母占用一个字节   
   每个中文占用二个字节     
   而且,不同地区的编码不一样,(例如,大陆和台湾的编码方式就不一样)   
   标准的林立造成了国际化的困难   
    
   因此,有国际标准组织提出新标准。将所有字符统一采用二字节为单位的编码。这就是unicode.   
   不同地区的字符都被包含在内。英文字母也扩展为两字节表示。   
    
   unicode是以后发展的方向。

Unicode    :宽字节字符集   
   1. 如何取得一个既包含单字节字符又包含双字节字符的字符串的字符个数?   
   可以调用Microsoft    Visual    C++的运行期库包含函数_mbslen来操作多字节(既包括单字节也包括双字节)字符串。   
   调用strlen函数,无法真正了解字符串中究竟有多少字符,它只能告诉你到达结尾的0之前有多少个字节。   
   2. 如何对DBCS(双字节字符集)字符串进行操作?   
   函数 描述   
   PTSTR    CharNext    (    LPCTSTR    ); 返回字符串中下一个字符的地址   
   PTSTR    CharPrev    (    LPCTSTR,    LPCTSTR    ); 返回字符串中上一个字符的地址   
   BOOL    IsDBCSLeadByte(    BYTE    ); 如果该字节是DBCS字符的第一个字节,则返回非0值   
   3. 为什么要使用Unicode?   
   (1) 可以很容易地在不同语言之间进行数据交换。   
   (2) 使你能够分配支持所有语言的单个二进制.exe文件或DLL文件。   
   (3) 提高应用程序的运行效率。   
   Windows    2000是使用Unicode从头进行开发的,如果调用任何一个Windows函数并给它传递一个ANSI字符串,那么系统首先要将字符串转换成Unicode,然后将Unicode字符串传递给操作系统。如果希望函数返回ANSI字符串,系统就会首先将Unicode字符串转换成ANSI字符串,然后将结果返回给你的应用程序。进行这些字符串的转换需要占用系统的时间和内存。通过从头开始用Unicode来开发应用程序,就能够使你的应用程序更加有效地运行。   
   Windows    CE    本身就是使用Unicode的一种操作系统,完全不支持ANSI    Windows函数   
   Windows    98    只支持ANSI,只能为ANSI开发应用程序。   
   Microsoft公司将COM从16位Windows转换成Win32时,公司决定需要字符串的所有COM接口方法都只能接受Unicode字符串。   
   4. 如何编写Unicode源代码?   
   Microsoft公司为Unicode设计了WindowsAPI,这样,可以尽量减少代码的影响。实际上,可以编写单个源代码文件,以便使用或者不使用Unicode来对它进行编译。只需要定义两个宏(UNICODE和_UNICODE),就可以修改然后重新编译该源文件。   
   _UNICODE宏用于C运行期头文件,而UNICODE宏则用于Windows头文件。当编译源代码模块时,通常必须同时定义这两个宏。   
   5. Windows定义的Unicode数据类型有哪些?   
   数据类型 说明   
   WCHAR Unicode字符   
   PWSTR 指向Unicode字符串的指针   
   PCWSTR 指向一个恒定的Unicode字符串的指针   
   对应的ANSI数据类型为CHAR,LPSTR和LPCSTR。   
   ANSI/Unicode通用数据类型为TCHAR,PTSTR,LPCTSTR。   
   6. 如何对Unicode进行操作?   
   字符集 特性 实例   
   ANSI 操作函数以str开头 strcpy   
   Unicode 操作函数以wcs开头 wcscpy   
   MBCS 操作函数以_mbs开头 _mbscpy   
   ANSI/Unicode 操作函数以_tcs开头 _tcscpy(C运行期库)   
   ANSI/Unicode 操作函数以lstr开头 lstrcpy(Windows函数)   
   所有新的和未过时的函数在Windows2000中都同时拥有ANSI和Unicode两个版本。ANSI版本函数结尾以A表示;Unicode版本函数结尾以W表示。Windows会如下定义:   
   #ifdef      UNICODE   
   #define      CreateWindowEx      CreateWindowExW   
   #else   
   #define      CreateWindowEx      CreateWindowExA   
   #endif        //    !UNICODE   
   7. 如何表示Unicode字符串常量?   
   字符集 实例   
   ANSI “string”   
   Unicode L“string”   
   ANSI/Unicode T(“string”)或_TEXT(“string”)if(    szError[0]    ==    _TEXT(‘J’)    ){    }   
   8. 为什么应当尽量使用操作系统函数?   
   这将有助于稍稍提高应用程序的运行性能,因为操作系统字符串函数常常被大型应用程序比如操作系统的外壳进程Explorer.exe所使用。由于这些函数使用得很多,因此,在应用程序运行时,它们可能已经被装入RAM。   
   如:StrCat,StrChr,StrCmp和StrCpy等。   
   9. 如何编写符合ANSI和Unicode的应用程序?   
   (1) 将文本串视为字符数组,而不是chars数组或字节数组。   
   (2) 将通用数据类型(如TCHAR和PTSTR)用于文本字符和字符串。   
   (3) 将显式数据类型(如BYTE和PBYTE)用于字节、字节指针和数据缓存。   
   (4) 将TEXT宏用于原义字符和字符串。   
   (5) 执行全局性替换(例如用PTSTR替换PSTR)。   
   (6) 修改字符串运算问题。例如函数通常希望在字符中传递一个缓存的大小,而不是字节。这意味着不应该传递sizeof(szBuffer),而应该传递(sizeof(szBuffer)/sizeof(TCHAR)。另外,如果需要为字符串分配一个内存块,并且拥有该字符串中的字符数目,那么请记住要按字节来分配内存。这就是说,应该调用malloc(nCharacters    *sizeof(TCHAR)),而不是调用malloc(nCharacters)。   
   10. 如何对字符串进行有选择的比较?   
   通过调用CompareString来实现。   
   标志 含义   
   NORM_IGNORECASE 忽略字母的大小写   
   NORM_IGNOREKANATYPE 不区分平假名与片假名字符   
   NORM_IGNORENONSPACE 忽略无间隔字符   
   NORM_IGNORESYMBOLS 忽略符号   
   NORM_IGNOREWIDTH 不区分单字节字符与作为双字节字符的同一个字符   
   SORT_STRINGSORT 将标点符号作为普通符号来处理   
   11. 如何判断一个文本文件是ANSI还是Unicode?   
   判断如果文本文件的开头两个字节是0xFF和0xFE,那么就是Unicode,否则是ANSI。   
   12. 如何判断一段字符串是ANSI还是Unicode?   
   用IsTextUnicode进行判断。IsTextUnicode使用一系列统计方法和定性方法,以便猜测缓存的内容。由于这不是一种确切的科学方法,因此    IsTextUnicode有可能返回不正确的结果。   
   13. 如何在Unicode与ANSI之间转换字符串?   
   Windows函数MultiByteToWideChar用于将多字节字符串转换成宽字符串;函数WideCharToMultiByte将宽字符串转换成等价的多字节字符串。