Python爬虫处理抓取数据中文乱码问题
摘要:乱码原因:因为你的文件声明为utf-8,并且也应该是用utf-8的编码保存的源文件。但是windows的本地默认编码是cp936,也就是gbk编码,所以在控制台直接打印utf-8的字符串当然是乱码了。 解决方法:在控制台打印的地方用一个转码就ok了,打印的时候这么写:print myname.decode('UTF-8').encode('GBK') 比较通用的方法应该是:import systype = sys.getfilesystemencoding()print myname.decode('UTF-8').encode(type)
阅读全文
posted @
2013-12-17 17:15
强巴拉
阅读(7761)
推荐(0)
Python urllib2写爬虫时候每次request open以后一定要关闭
摘要:最近用python urllib2写一个爬虫工具,碰到运行一会程序后就会出现scoket connection peer reset错误。经过多次试验发现原来是在每次request open以后没有及时的去close,才导致此问题的出现。所以今天记录一下希望对其他有人有用。直接上代码: request = urllib2.Request(self.url) request.add_header('Cookie','PHPSESSID=79lo60cmtl1ck70h4ufruq6n53; mmf_searchhotkeyandroid=%E5%A4%A9%E6%B6%A
阅读全文
posted @
2013-12-16 23:17
强巴拉
阅读(8647)
推荐(0)
Python 处理server返回gzip内容
摘要:Python 如何处理server返回gzip压缩过的内容,代码如下:from StringIO import StringIOimport gziprequest = urllib2.Request('http://outofmemory.cn/')request.add_header('Accept-encoding', 'gzip')response = urllib2.urlopen(request)if response.info().get('Content-Encoding') == 'gzip':
阅读全文
posted @
2013-12-08 20:58
强巴拉
阅读(903)
推荐(0)