C# 读取字符串的字节长度

   昨天在尝试写点代码的时候碰到需要读取字符串的字节长度的问题(一个汉字算两个字节),于是小研究了一下。。。这里些点小笔记记录一下,方便日和查看或者别人查阅。

    在C#里面我们可以通过字符串的Length属性读取字符串的长度,但众所周知,通过这个属性读出来的话不管中文还是英文或者数字,一个字就是一个长度,这并不是我们想要的结果。正确的方法应该是指定编码格式,然后通过编码的GetBytes方法来读取长度。于是写了一个控制台程序用于比较各种编码读取长度的不同,代码如下:

c#代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
string text = " 【中文】(12.21)(ァぁ)[En] ";
var String_Len = text.Length;
var ASCII_Len = Encoding.ASCII.GetBytes(text).Length;
var Default_Len = Encoding.Default.GetBytes(text).Length;
var BigEndianUnicode_Len = Encoding.BigEndianUnicode.GetBytes(text).Length;
var Unicode_Len = Encoding.Unicode.GetBytes(text).Length;
var UTF32_Len = Encoding.UTF32.GetBytes(text).Length;
var UTF7_Len = Encoding.UTF7.GetBytes(text).Length;
var UTF8_Len = Encoding.UTF8.GetBytes(text).Length;
var GB2312_Len = Encoding.GetEncoding("GB2312").GetBytes(text).Length;
var strFm="{0} \t: {1}";
Console.WriteLine(strFm, "String.Length", String_Len);
Console.WriteLine();
Console.WriteLine(strFm, "系统默认编码", Default_Len);
Console.WriteLine();
Console.WriteLine(strFm, "GB2312编码", GB2312_Len);
Console.WriteLine();
Console.WriteLine(strFm, "ASCII编码", ASCII_Len);
Console.WriteLine(strFm, "BigEndianUnicode编码", BigEndianUnicode_Len);
Console.WriteLine(strFm, "Unicode编码", Unicode_Len);
Console.WriteLine(strFm, "UTF32编码", UTF32_Len);
Console.WriteLine(strFm, "UTF7编码", UTF7_Len);
Console.WriteLine(strFm, "UTF8编码", UTF8_Len);


打印出来的结果如下:

posted @ 2012-07-13 10:46  serafin  阅读(875)  评论(0)    收藏  举报