哈希算法-快速查表的原理

　　在实际问题中，按照给定的值进行数据查询是经常遇到的，比如，在电话号码簿中查询某个人的电话号码；在图书馆中按照ISBN 编号查找某本书的位置；在地图中按照坐标查找某个地点的地名等等。

字典的定义

　　我们都使用过字典，如英汉字典、成语字典，图书的检索目录、电话簿等也可以看作广义上的字典。在计算机科学中，把字典也当成一种数据结构。

　　我们把字典定义为“键-值对”(Key-Value Pair) 的集合。根据不同的问题，我们为名字和值赋予不同的含义，比如，在英汉字典中，英文单词是名字，此单词的中文解释条目是值；在电话簿中，人名是名字，此人名对应的电话号码是值。

　　字典最基本的操作包括：find(查找)、add(插入)、remove(删除)，分别用来从字典中检索数据、插入数据和删除数据。在实际存储中，我们将“键-值对”存储于记录中，通过键来标识该“键-值对”。“键-值对”的存放位置和其键之间的对应关系用一个二元组表示： (键, 值的位置) 。

　　从字典中查找“键-值对”的最简单方法就是使用数组存储，然后在查找的时候遍历此数组，当遍历到和被查找的“键-值对”的名字相同项的时候，这个“键-值对”就被找到了。

　　这种最朴实的方式肯定是不能满足实际要求的，因此人们发明了一种检索效率非常高的组织字典数据的方法，即哈希表结构。

哈希表与哈希方法

　　哈希方法：在键与“键-值对”的存储位置之间建立一个确定的对应函数关系 hash() ，使得每一个键与结构中的一个唯一的存储位置相对应：

　　存储位置=hash(键)

　　在搜索时，首先对键进行hash 运算，把求得的值当做“键-值对”的存储位置，在结构中按照此位置取“键- 值对”进行比较，若键相等，则表示搜索成功。

　　在存储“键-值对”的时候，依照相同的hash函数计算存储位置，并按此位置存放，这种方法就叫做哈希方法，也叫做散列方法。在哈希方法中使用的转换函数 hash 被称作哈希函数(或者散列函数)。

　　按照此中算法构造出来的表叫做哈希表(或者散列表) 。

　　哈希函数建立了从“键-值对”到哈希表地址集合的一个映射，有了哈希函数，我们就可以根据键来确定“键-值对”在哈希表中的位置的地址。使用这种方法由于不必进行多次键的比较，所以其搜索速度非常快，很多系统都使用这种方法进行数据的组织和检索。

冲突与冲突的解决

　　通常键的取值范围比哈希表地址集合大很多，因此有可能经过同一哈希函数的计算，把不同的键映射到了同一个地址上面，这就叫冲突。比如，有一组“键-值对”，其键分别为12361、7251、3309、30976，采用的哈希函数是：

　　public static int hash(int key) {

　　　　return key%73+13420;

　　}

　　则将会得到hash(12361)=hash(7251)=hash(3309)=hash(30976)=13444 ，即不同的键通过哈希函数对应到了同一个地址，我们称这种哈希计算结果相同的不同键为同义词。

　　如果“键-值对”在加入哈希表的时候产生了冲突，就必须找另外一个地方来存放它，冲突太多会降低数据插入和搜索的效率，因此希望能找到一个不容易产生冲突的函数，即构造一个地址分布比较均匀的哈希函数。

　　常用的哈希函数包括：直接定址法、数字分析法、除留余数法、乘留余数法、平方取中法、折叠法等。应该根据实际工作中关键码的特点选用适当的方法。

　　虽然采用合适的哈希方法能够降低冲突的概率，但是冲突仍然是不可避免的，处理冲突的最常用方法就是“桶”算法：假设哈希表有m 个地址，就将其改为 m 个“桶”，其桶号与哈希地址一一对应，每个桶都用来存放互为同义词的键，也就是如果两个不同的键用哈希函数计算得到了同一个哈希地址，就将它们放到同一个桶中，检索的时候在桶内进行顺序检索。

posted on 2016-02-01 17:42 快跑的小鸡阅读(5139) 评论(0) 收藏举报

刷新页面返回顶部

哈希算法-快速查表的原理

导航