旋风

Communication comes from our hears and heads! my msn:youpeizun@hotmail.com


导航

解决网爬工具爬取页面信息出现乱码的问题

Posted on 2007-01-21 21:15  xuanfeng  阅读(7266)  评论(15编辑  收藏  举报

问题:
   网爬工具中自动搜集页面信息时,有的页面出现了出现乱码现象
原因:
   读取页面信息是使用了错误的编码类型。C#.NET从现在的类中获取得来的编码信息有时是错误的,本人认为对不是ASP.NET的应用程序,它读过来的编码信息都是错误的。
解决:
   思路:必须先在运行时获取得该页面的编码,再去读取页面的内容,这样得来的页面内容才不会出现乱码现象。
   方法:
   1:使用ASCII编码去读取页面内容。
   2:使用正则表达式从读取的页面内容中筛选出页面的编码信息。上个步骤获取的页面信息可能会有乱码。但HTML标志是正确的,所有可以从HTML标志中得到编码的信息。
   3.用正确的编码类型去读取页面信息。
   如果哪位有更好的方法,请多赐教啊!

  
   下面附上代码:   

代码演示

 http://www.gdqy.edu.cn页面的使用的编码格式是:gb2312
第一个方法显示的内容是:
context type:text/html
charset:ISO-8859-1
content encoding:
第二个方法显示的内容是:
charset:gb2312

所以第一个方法获取的信息是错误的,第二个方法是对的。
为什么第一个方法获取的的编码格式是:ISO-8859-1呢?
我用Reflector反射工具获取了CharacterSet属性的源代码,从中不难看出其原因。如果能获取出ContentType属性的源代码就不以看出其出错的原因了,但是搞了许久都没找出,如果那位那补上,那就太感谢了。
下面我附上Reflector反射工具获取了CharacterSet属性的源代码,有兴趣的朋友看一看。 

CharacterSet源码


结束!