mysql-python模块的内存泄露和中文字符编码问题

mysql-python的连接时，默认大家会写成

con=MySQLdb.connect(user='xxx',passwd='xxx',host='xxx',port=6600,charset='gbk')

一旦指定了"gbk"，默认mysql-python会设定use_unicode=True。结果是mysql-python会利用python自己的 codec模块去做字符解码工作，但实际中发现mysql库gbk编码字符集比python的gbk编码集大。一些在mysql里可以存储的字符，拿 python的codec去解析就会抛错。更严重的问题是，在mysql-python1.2.3之前，use_unicode=True即让 mysql-python解码这块存在内存泄露的bug。解码出来所有数据库字符串经过mysql-python出来都是unicode object，要输出到文件需要再次编码。

解决方法是强制指定use_unicode=False。即：

con=MySQLdb.connect(user='xxx',passwd='xxx',host='xxx',port=6600,charset='gbk',use_unicode=False)

这样既不会有内存泄露，也不需要在输出文件时进行编码。也回避了python的codec不能解析mysql gbk里面存放的字符串的问题。最后对于mysql4，我们可以将charset参数留空：

con=MySQLdb.connect(user='xxx',passwd='xxx',host='xxx',port=6600,use_unicode=False)

smtplib相关问题

使用smtplib时，打开的server，最好使用quit方法来关闭连接，而不是close。

server.quit() #好
#server.close() #不好

因为quit不仅仅会关闭连接，还会关闭session。这个session会跨越连接，而且当这个session中有退信发生时，后续发出的信件会爆出奇怪的SMTP协议错误。

使用smtplib时，即便每次都重新open server，对dns的解析也只有一次，这样当一个域名下有多个smtp server本来可以用于负载均衡的环境下，使用smtplib的python程序就总是使用一台机器，没法负载均衡，影响了伸缩性。为此，想到的办法是单独对邮件服务器域名进行解析，得到所有的机器名，然后随机选一台smtp server来连接，做一个应用层的负载均衡。可以考虑使用下面这段代码，感谢茂兴的提供：

class smtp_server_factory(object):
    def _get_addr_from_name(self, hostname):
        addrs = socket.getaddrinfo(hostname, smtplib.SMTP_PORT, 0, socket.SOCK_STREAM)
        return [addr[4][0] for addr in addrs]

    def get_server(self, hostname):
        addrs = self._get_addr_from_name(hostname)
        random.shuffle(addrs)
        for addr in addrs:
            try:
                smtp_server = smtplib.SMTP(addr)
            except Exception, e:
                pass
            else:
                print addr
                return smtp_server
        return None

#使用
server=smtp_server_factory().get_server('xxx-mail.baidu.com')

posted on 2013-02-07 17:34 百小度治哥阅读(3065) 评论(0) 收藏举报

刷新页面返回顶部

百小度治哥

mysql-python模块的内存泄露和中文字符编码问题

smtplib相关问题

公告

导航