LMDB(Lightning Memory-Mapped Database)、二
一、LMDB简要介绍
LMDB(Lightning Memory-Mapped Database),是一个读存速度很快的内存映射型数据库,其属于Key-Value数据库,而不是关系型数据库( 如MySQL ),提供数据管理功能,可以将各种各样的原始数据转换为统一的Key-Value存储,用在深度学习上的情况是可以将神经网络的大型数据集存储在 LMDB 中,LMDB不仅可以用来存放训练和测试用的数据集,还可以存放神经网络提取出的特征数据(要求这些数据结构简单、数据之间没有什么关联)
二、LMDB原理
LMDB是基于内存映射的,这意味着它返回指向键和值的内存地址的指针,而不需要像大多数其他数据库那样复制内存中的任何内容,因此它读存速度非常快。
LMDB的文件结构是一个文件夹,里面是一个数据文件和一个锁文件,数据随意复制,随意传输。它的访问简单,不需要单独的数据管理进程。只要在访问代码里引用LMDB库,访问时给文件路径即可。
用LMDB数据库来存放图像数据,而不是直接读取原始图像数据的原因:
- 数据类型多种多样,比如:二进制文件、文本文件、编码后的图像文件jpeg、png等,不可能用一套代码实现所有类型的输入数据读取,因此通过LMDB数据库,转换为统一数据格式可以简化数据读取层的实现。
- lmdb具有极高的存取速度,大大减少了系统访问大量小文件时的磁盘IO的时间开销。LMDB将整个数据集都放在一个文件里,避免了文件系统寻址的开销,你的存储介质有多快,就能访问多快,不会因为文件多而导致时间长。LMDB使用了内存映射的方式访问文件,这使得文件内寻址的开销大幅度降低。
三、实现流程
import torch import lmdb import gzip import numpy as np import cv2 env = lmdb.open("./train2", map_size=1099511627776) #建立事务 txn = env.begin(write=True) # 增删改查 txn.put(str(1).encode(), "Alice".encode()) txn.put(str(2).encode(), "Bob".encode()) txn.put(str(3).encode(), "Chris".encode()) for key, value in txn.cursor(): print(key.decode(), value.decode()) # 删除数据 txn.delete(str(1).encode()) # 修改数据 txn.put(str(3).encode(), "Davis".encode()) # 提交事务 txn.commit() print("###################提交事务之后##############") # 关闭lmdb 环境 env.close() env_db = lmdb.open("./train2") txn = env_db.begin() for key, value in txn.cursor(): #遍历 print (key.decode(), value.decode()) env_db.close()
1 Alice 2 Bob 3 Chris ###################提交事务之后############## 2 Bob 3 Davis
注意:需要把str类等数据通过encode()转换为bytes格式
下面通过例子查看图片数据存储和读取的流程:
- 将图片和对应的文本标签存放到lmdb数据库:
import torch import lmdb import gzip import numpy as np import cv2 from matplotlib import pyplot as plt %matplotlib inline image_path = './cat.jpg' label = 'cat' env = lmdb.open('./lmdb_image') cache = {} # 存储键值对 with open(image_path, 'rb') as f: # 读取图像文件的二进制格式数据 image_bin = f.read() # 用两个键值对表示一个数据样本 cache['image_000'] = image_bin cache['label_000'] = label with env.begin(write=True) as txn: for k, v in cache.items(): if isinstance(v, bytes): # 图片类型为bytes txn.put(k.encode(), v) else: # 标签类型为str, 转为bytes txn.put(k.encode(), v.encode()) # 编码 for key, value in txn.cursor(): print(key, value) env.close() env_img = lmdb.open('./lmdb_image') with env_img.begin(write=False) as txn: # 获取图像数据 image_bin = txn.get('image_000'.encode()) label = txn.get('label_000'.encode()).decode() # 解码 print(label) # 将二进制文件转为十进制文件(一维数组) image_buf = np.frombuffer(image_bin, dtype=np.uint8) # # 将数据转换(解码)成图像格式 # # cv2.IMREAD_GRAYSCALE为灰度图,cv2.IMREAD_COLOR为彩色图 img = cv2.imdecode(image_buf, cv2.IMREAD_COLOR) # cv2.imshow('image', img) # cv2.waitKey(0) # cv2.destroyAllWindows() img = img[:,:,::-1] plt.imshow(img) plt.show() env_img.close()
cat

先通过 lmdb.open() 获取之前创建的lmdb数据库,这里通过键得到图片和其标签,因为写入数据库之前进行了编码,所以这里需要先解码。
四、总结
LMDB是内存映射型数据库,基于K-V结构,读存速度非常快,适用于神经网络大型数据集。

浙公网安备 33010602011771号