飞机场场长

本博客主要摘录python相关的知识,欢迎参阅。

导航

2012年8月7日 #

python 处理中文网页时,忽略特殊字符,忽略异常

摘要: http://hi.baidu.com/wen122056/blog/item/c92ecba97ea1c8ee1f17a262.html中文网页大部分是gb2312编码的,在用python 处理时候最好转换成unicode的,怎么转换呢?比如: html = open('http://www.baidu.com') 这时html是字节流,咱应该转换成字符流,转换成unicode编码: html = html.decode('gb2312') html = html.decode('gb18030') 这两个编码,最好用gb18030或者gbk, 阅读全文

posted @ 2012-08-07 14:58 飞机场场长 阅读(3718) 评论(0) 推荐(0)