重复数据删除技术

重复数据删除技术主要分为以下两大类:


(1) 相同数据检测技术.相同数据主要包括相同文件及相同数据块两个层次.完全文件检测(whole file
detection,简称WFD)技术主要通过hash 技术进行数据挖掘;细粒度的相同数据块主要通过固定分块
(fixed-sized partition,简称FSP)检测技术、可变分块(content-defined chunking,简称CDC)检测技术、滑动
块(sliding block)技术进行重复数据的查找与删除.


(2) 相似数据检测和编码技术.利用数据自身的相似性特点,通过shingle技术、bloom filter技术
和模式匹配技术挖掘出相同数据检测技术不能识别的重复数据;对相似数据采用delta 技术]进行
编码并最小化压缩相似数据,以进一步缩减存储空间和网络带宽的占用.


上述这些技术使得共享数据块的文件之间产生了依赖性,几个关键数据块的丢失或错误可能导致多个文
件的丢失和错误发生,因此它同时又会降低存储系统的可靠性,为此,一些研究者又引入了冗余复制技术和
纠删码技术等来提高重复数据删除系统的可靠性.另外,因数据的检测对比等过程导致大量的计算开销,重复
数据删除技术对存储系统的性能影响也很大,为此,一些研究者提出了一些关键技术,如减轻磁盘瓶颈技术、
提高数据搜索速度的技术和提高相似数据编码速度的技术

posted on 2012-09-15 20:41  Eve_Walle  阅读(264)  评论(0)    收藏  举报

导航