网页Encoding

在处理文本时,经常需要处理Encoding的概念。存在这个问题的原因在于,在.NET程序内文本只是string和char对象,而保存到硬盘时,或者准备用socket把它发送出去时,都得先转换成byte[]或者字节流。而转换的算法,就是Encoding。Encoding不同文本文件的行数也不同。

老外的程序里面,都喜欢用Encoding.ASCII,这是因为他们主要只使用western字符;于是我们经常要在他们的代码把Encoding.ASCII替换成Encoding.Default才能使用。

所谓Encoding.Default,是指当前系统设置的“默认字符集编码方式”。你可以通过控制面板里面的区域选项设置它(这是在我的机器上的设定):

 

注意红色方框内的部分,“为你的非Unicode程序选择一个语言来匹配其本地语言版本”。这里选择了Chinese (PRC),则Encoding.Default等效于Encoding.GetEncoding("gb2312")。gb2312在代码页936,所以所有以双字节编码(ANSI编码)字符的程序在这个系统上会使用936代码页,使用Unicode的不受影响。

你可以看到 Encoding.Default的值是和系统设定相关的。这样,有些时候会出问题:一台机器用socket发送一段文本到另一台机器,两边都设定编码方式为Encoding.Default,但两台机器的区域选项的这个设置是不一样的,却没有被注意;如果发送的是非western字符,则接受方必然会得到乱码。这种问题往往会令人很困惑。

所以在面对中文且为ANSI编码的情况下,最好不要用Encoding.Default,而用 Encoding.GetEncoding("gb2312"),或者更直接的Encoding.GetEncoding(936);而如果有可能的话,最好全部使用unicode,比如utf-8,也就是Encoding.UTF8。有了unicode之后,其实我们不需要代码页的概念。
 
另外:1.通过 Thread.CurrentThread.CurrentCulture=   new   CultureInfo( "en "); 来设置改变
            2.自定义一个全局的App.Encoding静态属性来作为默认编码类型,它可以默认为Encoding.Default,但想改的话还有后悔药可用
            3.使用 Encoding.Convert()方法转换
               例如:
                Encoding   shiftJIS=Encoding.GetEncoding( "Shift-JIS "); 
               //取默认编码转换后String的Byte数组 
               byte[]   defEncByte=Encoding.Default.GetBytes(rs[ "myText "].ToString()); 
               //Convert方法转换此默认编码Byte数组到目标编码数组 
                byte[]   shiftEncByte=Encoding.Convert(Encoding.Default,shiftJIS,defEncByte); 
               还原转换后的Byte数组到String 
               string   QText=shiftJIS.GetString(shiftEncByte); 

数据库和数据库引擎应用程序的国际化注意事项:http://msdn.microsoft.com/zh-cn/library/ms190245(SQL.90).aspx

posted on 2017-11-01 10:09  卡农2014  阅读(189)  评论(0)    收藏  举报

导航