关于BinaryReader读取数据:在构造函数中指定编码格式

问题描述:使用BinaryReader从文件中读取数据,开始在创建BinaryReader实例的时候,未指定编码格式,结果能通过编译,但是能在执行过程中会报错如下:“未处理的异常:  System.ArgumentException: 输出字符缓冲区太小,无法包含解码后的字符,编码“Unicode (UTF-8)”的操作回退“System.Text.DecoderReplacementFallback”。”

 

解决过程:

  首先附上创建文件的代码:

BinaryWriter
 1 using System;
 2 using System.IO;
 3 
 4 class binaryReader
 5 {
 6     static void Main ()
 7     {
 8         FileInfo f = new FileInfo("BinFile2.dat");
 9         BinaryWriter bw = new BinaryWriter(f.OpenWrite());
10 
11         Console.WriteLine("Base Stream is : {0}",bw.BaseStream);
12         
13         double aDouble = 1234.67;
14         int anInt = 32141;
15         char[] aCharArray = {'A','B','C'};
16         string aString = @"teststring";
17 
18         bw.Write(aDouble);
19         bw.Write(anInt);
20         bw.Write(aCharArray);
21         bw.Write(aString);
22         bw.Close();
23 
24     }
25 }

  然后附上BinaryReader测试代码:

BinaryReader
 1 using System;
 2 using System.IO;
 3 using System.Text;
 4 
 5 class binaryReader
 6 {
 7     static void Main()
 8     {                
 9         FileInfo f2 = new FileInfo("BinFile2.dat");
10 
11                 BinaryReader br = new BinaryReader(f2.OpenRead());
12         //BinaryReader br = new BinaryReader(f2.OpenRead(),Encoding.Default);
13 
14         int temp = 0;
15         
16         while (br.PeekChar() != -1)
17         
18         {
19             Console.Write("{0,7:x}",br.ReadByte());
20 
21             if (++temp == 4)
22             {
23                 Console.WriteLine();
24                 temp = 0;
25             }
26             
27         }
28         Console.WriteLine();
29     }
30 }

  还有错误提示:

  由上,之输出第一字符的16进制编码,剩下的就开始报错。但是觉得“字符缓冲区太小”是个很诡异的错误,然后就在网上搜了下,看看别人是怎么做的。

  第一次,在CSDN上看见有人给出了解决的方案,如题目所言,在创建BinaryReader实例的时候,指定其编码方式,就像上面代码中注释掉的那一行那样,就能够解决问题,将所有字符的16进制编码正常输出。

  这样,问题首先集中到编码上。默认的编码方式有问题,必须指定,才能避免错误。那什么样的编码是可行的,什么样的编码有问题?在Encoding里面,枚举了六种编码方式:UTF7、UTF8、Unicode、BigEndianUnicode、UTF32和Default。要说的是这里的Default是指:System.Text.DBCSCodePageEncoding。接下来,我做了一个测试,枚举每一种编码方式,在上面的代码中挨个试一遍。结果发现,在我写的那个BinFile2.dat测试文件上,除了UTF-8运行失败外,其他的每种方式都是成功的(此处截图省略)。那么,就可以推断,不带编码指定的BinaryReader的构造函数默认使用的是UTF-8的编码,而这样在读取过程中试有问题的。

  现在,至少知道用该用那种编码了。

  问题再进一步,在函数块内部,在读取文件的过程中,是哪个函数调用对编码有“苛刻”的要求?在上面的函数块中,只包含两个方法的调用,一个是while语句中的PeekChar(),一个是Console.WriteLine()。我觉得后者的可能性不大,于是做了如下的测试:

BinaryReader2
 1 using System;
 2 using System.IO;
 3 using System.Text;
 4 
 5 class binaryReader
 6 {
 7     static void Main()
 8     {                
 9         FileInfo f2 = new FileInfo("BinFile2.dat");
10 
11         BinaryReader br = new BinaryReader(f2.OpenRead(),Encoding.Default);
12         int temp = 0;
13         int count=20;
14         while (count>0)
15         {
16             Console.Write("{0,7:x}",br.ReadByte());
17 
18             if (++temp == 4)
19             {
20                 Console.WriteLine();
21                 temp = 0;
22             }
23             
24                         count--;
25         }
26         Console.WriteLine();
27     }
28 }

  结果,除了没能完全输出字符之外,运行正常,于是,问题集中在了PeekChar()上面。上面用它来判断文件的边界,MSDN中描述“下一个可用的字符,或者,如果没有可用字符或者流不支持查找时为 -1。”也就是说,PeekChar()在判断是否到边界的过程中,有一个预读的过程,结合上面的编码的问题,可以猜测,在它预读的时候由于编码的不合适,导致在该方法内部的缓冲区的溢出。

  又在网上找到一文《不要使用PeekChar()判断EOF》,文中只是说不要用PeekChar来判断EOF,而是使用判断条件 ( br.BaseStream.Position < br.BaseStream.Length),但是并没有给出详细的理由。

 

   而后,又发现了老外也在讨论这个问题:http://bytes.com/topic/visual-basic-net/answers/349779-binaryreader-peekchar-argumentexception-conversion-buffer-overflow

  ……

  继续深入下去,有两个点要解决:1、UTF-8编码的问题;2、PeekChar的工作详细细节。

总结:通过以上的一系列做法,对BinaryReader的使用有了一些粗浅的了解,在使用过程中,能够合理利用,避开容易出错的地方,但是,根本的问题还未能真正解决。

----------------------------------------------------------------------------------------------------------------------------------------------------------------------------

      更深入的明日再续。

 

posted @ 2010-03-22 22:46  郝玉琨  阅读(4323)  评论(0编辑  收藏  举报