第31讲:永久存储——腌制一缸美味的泡菜

一 为什么需要序列化和反序列化操作

1 便于存储。

       序列化过程将文本信息转变为二进制数据流。这样就信息就容易存储在硬盘之中,当需要读取文件的时候,从硬盘中读取数据,然后再将其反序列化便可以得到原始的数据。在Python程序运行中得到了一些字符串、列表、字典等数据,想要长久的保存下来,方便以后使用,而不是简单的放入内存中关机断电就丢失数据。python模块大全中的Pickle模块就派上用场了,它可以将对象转换为一种可以传输或存储的格式。

2 便于传输。

       当两个进程在进行远程通信时,彼此可以发送各种类型的数据。无论是何种类型的数据,都会以二进制序列的形式在网络上传送。发送方需要把這个对象转换为字节序列,在能在网络上传输;接收方则需要把字节序列在恢复为对象。

二 pickle模块

1 概念:pickle是python语言的一个标准模块,安装python后已包含pickle库,不需要单独再安装。

2 功能:pickle模块实现了基本的数据序列化和反序列化。

  • 序列化(picking):通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去,永久存储,即将Python对象层次结构转换为字节流的过程
  • 反序列化(unpicking):通过pickle模块的反序列化(unpicking)操作,我们能够从文件中创建上一次程序保存的对象,即将字节流(来自二进制文件或类似字节的对象)转换回对象层次结构的过程。

3 和json的区别:

  • JSON是一种文本序列化格式(它输出unicode文本,虽然大部分时间它被编码utf-8),而pickle是二进制序列化格式(即以二进制的形式序列化后保存到文件中(保存文件的后缀为”.pkl”));
  • JSON是人类可读的(即human-readable,可以直接打开查看(例如在notepad++中查看)),而pickle不是;
  • JSON是可互操作的,并且在Python生态系统之外广泛使用,而pickle是特定于Python的;
  • 默认情况下,JSON只能表示Python内置类型的子集,而不能表示自定义类;;pickle可以表示极其庞大的Python类型(其中许多是自动的,通过巧妙地使用Python的内省工具,复杂的案例可以通过实现特定的对象API来解决)

4 pickle模块的一些其它的特点:

  • pickle模块对于错误或恶意构造的数据是不安全的
  • pickle 数据格式是特定于Python的。它的优点是没有外部标准强加的限制,例如JSON或XDR(不能代表指针共享); 但是这意味着非Python程序可能无法重建pickled Python对象。
  • 默认情况下,pickle数据格式使用相对紧凑的二进制表示。如果需要最佳尺寸特征,则可以有效地压缩数据。

5 模块接口

  • 内容:
    • 序列化:要序列化对象层次结构,调用dumps()/dump()函数即可;如果想要更多地控制序列化,则可以创建一个Pickler对象。
    • 反序列化:要对数据流进行反序列化,请调用loads()/load()函数;如果想要更多地控制反序列化,则可以创建一个Unpickler对象。
  • 常量:
    • pickle.HIGHEST_PROTOCOL:整数, 可用的最高协议版本。这个值可以作为一个被传递协议的价值函数dump()和dumps()以及该Picker构造函数。
    • pickle.DEFAULT_PROTOCOL:整数,用于编码的默认协议版本。可能不到HIGHEST_PROTOCOL。目前,默认协议是3,这是为Python 3设计的新协议.
  • 序列化方法:
    • pickle.dump()
      • 语法:pickle.dump(obj,file,protocol=None,*,fix_imports=True)
      • 功能:将序列化后的对象obj以二进制形式写入文件file中,进行保存。它的功能等同于 Pickler(file, protocol).dump(obj)。
      • 参数:
        • protocol:可供选择的协议参数是一个整数,指定pickler使用的协议版本,支持的协议是0到HIGHEST_PROTOCOL。如果未指定,则默认为DEFAULT_PROTOCOL。如果指定为负数,则选择HIGHEST_PROTOCOL。
        • file:文件参数必须具有接受单个字节的参数写方法。因此,它可以是为二进制写入('wb')打开的磁盘文件、 io.BytesIO实例或满足此接口的任何其他自定义对象。
        • 如果fix_imports为true且protocol小于3,则pickle将尝试将新的Python 3名称映射到Python 2中使用的旧模块名称,以便使用Python 2可读取pickle数据流。
    • pickle.dumps()
      • 语法:pickle.dumps(obj, protocol=None,*,fix_imports=True)
      • 功能:pickle.dumps()方法跟pickle.dump()方法的区别在于,pickle.dumps()方法不需要写入文件中,它是直接返回一个序列化的bytes对象。
    • Pickler(file, protocol).dump(obj)
      • pickle模块提供了序列化的面向对象的类方法,即 class pickle.Pickler(file, protocol=None,*,fix_imports=True),Pickler类有dump()方法
      • Pickler(file, protocol).dump(obj)实现的功能跟pickle.dump()是一样的。
  • 反序列化方法:
    •  pickle.load()
      • 语法:pickle.load(file, *,fix_imports=True, encoding=”ASCII”. errors=”strict”)
      • 功能:将序列化的对象从文件file中读取出来。它的功能等同于 Unpickler(file).load()
      • 参数:
        • pickle的协议版本是自动检测的,因此不需要协议参数。超过pickle对象的表示的字节将被忽略。
        • file:参数文件必须有两个方法,一个采用整数参数的read()方法和一个不需要参数的readline()方法。两种方法都应返回字节。因此,文件可以是为二进制读取('rb')而打开的磁盘文件、io.BytesIO对象或满足此接口的任何其他自定义对象。
        • 可选的关键字参数是fix_imports,encoding和errors,用于控制Python 2生成的pickle流的兼容性支持。
          • 如果fix_imports为true,则pickle将尝试将旧的Python 2名称映射到Python 3中使用的新名称。
          • 编码和错误告诉pickle如何解码Python 2编码的8位字符串实例; 这些默认分别为'ASCII'和'strict'。
    • pickle.loads()
      • 语法:pickle.loads(bytes_object, *,fix_imports=True, encoding=”ASCII”. errors=”strict”)
      • 功能:pickle.loads()方法跟pickle.load()方法的区别在于,pickle.loads()方法是直接从bytes对象中读取序列化的信息,而非从文件中读取。
    • Unpickler(file).load()
      • pickle模块提供了反序列化的面向对象的类方法,即 class pickle.Unpickler(file, *,fix_imports=True, encoding="ASCII". errors="strict"),Pickler类有load()方法。
      • Unpickler(file).load() 实现的功能跟 pickle.load() 是一样的。

6 参考内容:

 

posted @ 2020-07-29 22:17  洛兰123  阅读(13)  评论(0编辑  收藏