bytesarry and memoryview
bytearray是可变(mutable)的字节序列,相对于Python2中的str,但str是不可变(immutable)的。在Python3中由于str默认是unicode编码,所以只有通过bytearray才能按字节访问。
memoryview为支持buffer protocol[1,2]的对象提供了按字节的内存访问接口,好处是不会有内存拷贝。
下面两种行为的对比:
简单点就是,str和bytearray的切片操作会产生新的切片str和bytearry并拷贝数据,使用memoryview之后不会。
a = bytearray(b"aaaaaa") b = a[:2] b[:2] = b"bb" print(a) print(b) >>> bytearray(b'aaaaaa') bytearray(b'bb') a = bytearray(b"aaaaaa") b = memoryview(a) print(b.readonly) b[:2] = b"bb" print(a) print(b) >>> False bytearray(b'bbaaaa') <memory at 0x00575030>
我的使用场景是网络程序中socket接收和接收数据的解析:
1、使用memoryview之前的sock接收代码简化如下
def read(size): ret = '' remain = size while True: data = sock.recv(remain) ret += data # 这里不断会有新的str对象产生 if len(data) == remain: break remain -= len(data) return ret
2、使用meoryview之后,避免了不断的字符串拼接和新对象的产生
def read(size): ret = memoryview(bytearray(size)) remain = size while True: data = sock.recv(remain) length = len(data) ret[size - remain: size - remain + length] = data if len(data) == remain: break remain -= len(data) return ret