字符编码相关

ANSI编码ANSI编码我理解为区域性编码,对于英文字符占用一个字节表示,区域文字占用二个字节表示,如中文.其实对于简体中文系统,ANSI系统对应GB2312编码.

UNICODE
UNICODE编码在第一平面内的文字占用2个字节,第一平面不能表示的文字需要3个字节来表示.
UNICODE编码具体的实现方式有UTF-8,UTF-16L,UTF-16B,UTF-32L,UTF-32B.
C++中wchar_t str=L"abc",该编码对应于UTF-16L.
通常说的BOM指的是大端小端标识.

实例
一UTF-8 CPP文件中有如下语句,wchar_t str = L"中国",最终str显示时是否会乱码呢?
答:会,因为cpp文件中的"中国"是以utf-8编码并存储的,编译时L"中国"操作等价于多字符转宽字符操作,编译器会把"中国"按ANSI码转UNCODE-16L,所以会乱码.


为什么A版本的Windows程序在部分机器上显示会乱码?
因为A版本的程序字符编码方式与编写代码用的机器相关,中文系统ANSI CPP文件会按GB2312编码字符,在其他语种机器上显示时就有可能出现乱码,因为其他语种会
按他们默认的编码方式来解释.

posted @ 2012-11-27 09:50  周尚武  阅读(157)  评论(0)    收藏  举报