随笔档案「2012年10月4日」：c# 获取网页源码，自动判断编码格式新方法！ ... - Crazy Coder

2012年10月4日

摘要：因采集需求，想解决网页编码识别问题。网上提出了很多方法。比如根据文件头字节判断，或根据网页的charset标识符判断。我在实际应用中，这些方法都有各自的不足，比如有的网页charset写的是gbk，但实际是utf8。于是想了一个个人认为比较新鲜的方法。将html下载回来后，做一份utf8副本和一... 阅读全文

posted @ 2012-10-04 23:19 Crazy Coder 阅读(14271) 评论(36) 推荐(4)

Crazy Coder

公告