2013 年 12月随笔档案 - 强巴拉

Python爬虫处理抓取数据中文乱码问题

摘要：乱码原因：因为你的文件声明为utf-8，并且也应该是用utf-8的编码保存的源文件。但是windows的本地默认编码是cp936，也就是gbk编码，所以在控制台直接打印utf-8的字符串当然是乱码了。解决方法：在控制台打印的地方用一个转码就ok了，打印的时候这么写：print myname.decode('UTF-8').encode('GBK') 比较通用的方法应该是：import systype = sys.getfilesystemencoding()print myname.decode('UTF-8').encode(type) 阅读全文

posted @ 2013-12-17 17:15 强巴拉阅读(7761) 评论(0) 推荐(0)

Python urllib2写爬虫时候每次request open以后一定要关闭

摘要：最近用python urllib2写一个爬虫工具，碰到运行一会程序后就会出现scoket connection peer reset错误。经过多次试验发现原来是在每次request open以后没有及时的去close，才导致此问题的出现。所以今天记录一下希望对其他有人有用。直接上代码： request = urllib2.Request(self.url) request.add_header('Cookie','PHPSESSID=79lo60cmtl1ck70h4ufruq6n53; mmf_searchhotkeyandroid=%E5%A4%A9%E6%B6%A 阅读全文

posted @ 2013-12-16 23:17 强巴拉阅读(8647) 评论(1) 推荐(0)

Python 处理server返回gzip内容

摘要：Python 如何处理server返回gzip压缩过的内容，代码如下：from StringIO import StringIOimport gziprequest = urllib2.Request('http://outofmemory.cn/')request.add_header('Accept-encoding', 'gzip')response = urllib2.urlopen(request)if response.info().get('Content-Encoding') == 'gzip': 阅读全文

posted @ 2013-12-08 20:58 强巴拉阅读(903) 评论(0) 推荐(0)