星云外

2010年9月11日

zt 爬虫与字符集

摘要: 网页正文抽取中的网页编码字符集自动识别最佳方案http://www.12fanyi.cn/post/25.html  第一篇来自http://www.cnblogs.com/lersh/archive/2008/07/09/1238799.html《比IE准确率更高的自动字符集检测类 UniversalCharDet》,我摘录里面的一段:怎么识别一个网页用的是什么编码呢? 一是网页或服务器直接报... 阅读全文

posted @ 2010-09-11 14:57 星云外 阅读(351) 评论(0) 推荐(0) 编辑