12 2013 档案
Python爬虫处理抓取数据中文乱码问题
摘要:乱码原因:因为你的文件声明为utf-8,并且也应该是用utf-8的编码保存的源文件。但是windows的本地默认编码是cp936,也就是gbk编码,所以在控制台直接打印utf-8的字符串当然是乱码了。 解决方法:在控制台打印的地方用一个转码就ok了,打印的时候这么写:print myname.decode('UTF-8').encode('GBK') 比较通用的方法应该是:import systype = sys.getfilesystemencoding()print myname.decode('UTF-8').encode(type) 阅读全文
posted @ 2013-12-17 17:15 强巴拉 阅读(7761) 评论(0) 推荐(0)
Python urllib2写爬虫时候每次request open以后一定要关闭
摘要:最近用python urllib2写一个爬虫工具,碰到运行一会程序后就会出现scoket connection peer reset错误。经过多次试验发现原来是在每次request open以后没有及时的去close,才导致此问题的出现。所以今天记录一下希望对其他有人有用。直接上代码: request = urllib2.Request(self.url) request.add_header('Cookie','PHPSESSID=79lo60cmtl1ck70h4ufruq6n53; mmf_searchhotkeyandroid=%E5%A4%A9%E6%B6%A 阅读全文
posted @ 2013-12-16 23:17 强巴拉 阅读(8647) 评论(1) 推荐(0)
Python 处理server返回gzip内容
摘要:Python 如何处理server返回gzip压缩过的内容,代码如下:from StringIO import StringIOimport gziprequest = urllib2.Request('http://outofmemory.cn/')request.add_header('Accept-encoding', 'gzip')response = urllib2.urlopen(request)if response.info().get('Content-Encoding') == 'gzip': 阅读全文
posted @ 2013-12-08 20:58 强巴拉 阅读(903) 评论(0) 推荐(0)