zt 爬虫与字符集
网页正文抽取中的网页编码字符集自动识别最佳方案
http://www.12fanyi.cn/post/25.html
第一篇来自http://www.cnblogs.com/lersh/archive/2008/07/09/1238799.html《比IE准确率更高的自动字符集检测类 UniversalCharDet 》,我摘录里面的一段:怎么识别一个网页用的是什么编码呢?
一是网页或服务器直接报告浏览器,这个页面用的是什么编码。比如HTTP头的content-type属性,页面的charset属性。这个比较容易实现,只要检测这些属性就能知道用的是什么编码。
二是浏览器自动猜测。这个就类似人工智能了。比如有些网页没有写charset属性,那么我们看到页面显示乱码时,就会手动去选择页面编码,发现是乱码,就再换一个,直到显示正常为止。
今天这篇文章要说的就是第二个方法,用程序实现自动猜测页面或文件使用的字符集。 具体的原理就是基于统计学的字符特征分析,统计哪些字符是最常见的字符。这个工作Mozilla有专门的文章《A composite approach to language/encoding detection》说明。 好了,具体的代码其实Mozilla已经用C++实现了,名字就叫UniversalCharDet,但是我翻遍了Internet也找不到.NET的实现类库,只有Google Code上有Java的翻译代码。没办法,自己翻译成C#的代码吧。
C#实现的源代码:http://code.google.com/p/nuniversalchardet/
PS1.顺便说一下标题,为什么叫比IE更准确,那是因为IE浏览器也自带字符集猜测功能,也有人实现了通过调用IE的接口来猜测字符集的功能类库(http://www.codeproject.com/KB/recipes/DetectEncoding.aspx),不过我试过,这个接口的准确率也不高,成功猜测几率远低于UniversalCharDet。
PS2.网上流传比较多的是Nchardet,这个是基于mozilla的老版本字符集猜测类chardet的C#实现。准确率也比较低,大致和IE的接口成功率差不多。
PS3.参考资料
juniversalchardet:http://code.google.com/p/juniversalchardet/ (java版代码在BIG5Prober和GB18030Prober类中有BUG,C#版已经修正)
原理参考: http://www.mozilla.org/projects/intl/UniversalCharsetDetection.html
第二篇来自:《【小旋风开发日记】异步拉取html源代码、网页编码自动识别、基本xpath的智能抽取引擎的优化 》
mozilla采用的编码识别模块,.net C#版本:NUniversalCharDet
using Mozilla.NUniversalCharDet;
public static string DetectEncoding_Bytes(byte[] DetectBuff)
{
int nDetLen = 0;
UniversalDetector Det = new UniversalDetector(null);
//while (!Det.IsDone())
{
Det.HandleData(DetectBuff, 0, DetectBuff.Length);
}
Det.DataEnd();
if (Det.GetDetectedCharset() != null)
{
return Det.GetDetectedCharset();
}
return "utf-8";
}
第三篇:那就是易尔译科技(http://www.12fanyi.cn)做的综合了,具体演示效果可以从易尔译产品里找到易尔译发表的也正文抽取相关的小产品演示。
翻了很多文章,发现这两篇文章结合起来也许是新手最为需要的,至于正文抽取的代码及方案,也随后放出,敬请期待。