Python tips: 让Unicode变简单

对于我这个从.NET过来的人，对python的str和unicode会感到非常不适应。经常在一些常用的地方遇到编码异常问题。如保存字符串到文本中，是要先编码还是直接保存呢？字符串是str还是unicode呢？保存字符串到数据库是直接保存str又或是先将unicode编码得到的str呢？
好多个问号，这都是我个python初学者碰到的问题。在尝试多次痛苦后，总算有了一些思路。原来unicode早已在python实现的很好，只是我使用不当罢了。

一个很关键的并且要常记住的，就是代码中所有字符串都统一使用unicode，而不是str。这样，自己就能很清楚要处理的字符串类型了。请记住，是所有，任何地方。
例如：
>>> s1 = u'%s欢迎您!' % u'北京'
>>> s1
u'\u5317\u4eac\u6b22\u8fce\u60a8\uff01'
>>> print s1
北京欢迎你!

若像这样，就会抛异常：
>>> s2 = '%s欢迎您!' % u'北京'
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 in position 2: ordinal not in range(128)
由UnicodeDecodeError可猜想得到，解析器尝试使用ascii对'%s欢迎您!'进行解码，由于'%s欢迎您!'实际是使用utf-8编码的（这是我系统终端默认的），所以使用ascii解码肯定会错，只要如下，就可以重现这个异常了：
>>> s2 = '%s欢迎您!'.decode('ascii')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 in position 2: ordinal not in range(128)

分清encode和decode。str --> decode(c) --> unicode, unicode --> encode(c) --> str，其中编码类型c必须相同。

将unicode字符串写入文件前先使用特定编码对其进行编码(如unicodestr.encode('utf-8'))得到str，保证写入文件的是str；从文件读取到str，然后对其进行解码(如encodestr.decode('utf-8'))得到unicode。这是互逆的两个操作，编码类型一定要一致，否则会出现异常。

自己支持了unicode，但是你团队的其他人是否都使用unicode呢？你使用的其他模块是否也使用unicode呢？这个一定要清楚的，不然同样会出现许多因为编码问题的异常。

好了，晚了，随便写了点，大家晚安，2008.8.1，本世纪的第一次日全蚀，你要看吗？

Technorati 标签: python, unicode, str

posted @ 2008-08-01 01:15 MK2 阅读(5474) 评论(0) 收藏举报

刷新页面返回顶部

让生活Web个够

今天你Web了吗？

Python tips: 让Unicode变简单

公告