哈希表(一)
散列表(Hash table,也叫哈希表),是根据关键字(Key value)而直接访问在内存存储位置的数据结构。也就是说,它通过把键值通过一个函数的计算,映射到表中一个位置来访问记录,这加快了查找速度。这个映射函数称做散列函数,存放记录的数组称做散列表。
一个通俗的例子是,为了查找电话簿中某人的号码,可以创建一个按照人名首字母顺序排列的表(即建立人名
到首字母
的一个函数关系),在首字母为W的表中查找“王”姓的电话号码,显然比直接查找就要快得多。这里使用人名作为关键字,“取首字母”是这个例子中散列函数的函数法则
,存放首字母的表对应散列表。关键字和函数法则理论上可以任意确定。
构造散列函数[编辑]
散列函数能使对一个数据序列的访问过程更加迅速有效,通过散列函数,数据元素将被更快定位。
- 直接定址法:取关键字或关键字的某个线性函数值为散列地址。即
或
,其中
为常数(这种散列函数叫做自身函数) - 数字分析法:假设关键字是以r为基的数,并且哈希表中可能出现的关键字都是事先知道的,则可取关键字的若干数位组成哈希地址。
- 平方取中法:取关键字平方后的中间几位为哈希地址。通常在选定哈希函数时不一定能知道关键字的全部情况,取其中的哪几位也不一定合适,而一个数平方后的中间几位数和数的每一位都相关,由此使随机分布的关键字得到的哈希地址也是随机的。取的位数由表长决定。
- 折叠法:将关键字分割成位数相同的几部分(最后一部分的位数可以不同),然后取这几部分的叠加和(舍去进位)作为哈希地址。
- 随机数法
- 除留余数法:取关键字被某个不大于散列表表长m的数p除后所得的余数为散列地址。即
,
。不仅可以对关键字直接取模,也可在折叠法、平方取中法等运算之后取模。对p的选择很重要,一般取素数或m,若p选择不好,容易产生碰撞。
处理碰撞[编辑]
为了知道碰撞产生的相同散列函数地址所对应的关键字,必须选用另外的散列函数,或者对碰撞结果进行处理。而不发生碰撞的可能性是非常之小的,所以通常对碰撞进行处理。常用方法有以下几种:
- 开放定址法(open addressing):
,
,其中
为散列函数,
为散列表长,
为增量序列,
为已发生碰撞的次数。增量序列可有下列取法:
称为 线性探测;即
,或者为其他线性函数。相当于逐个探测存放地址的表,直到查找到一个空单元,把散列地址存放在该空单元。
称为 平方探测。相对线性探测,相当于发生碰撞时探测间隔
个单元的位置是否为空,如果为空,将地址存放进去。
伪随机数序列,称为 伪随机探测。
显示线性探测填装一个散列表的过程:
- 关键字为{89,18,49,58,69}插入到一个散列表中的情况。此时线性探测的方法是取
。并假定取关键字除以10的余数为散列函数法则。
| 散列地址 | 空表 | step1 | step2 | step3 | step4 | step5 |
|---|---|---|---|---|---|---|
| 0 | 49 | 49 | 49 | |||
| 1 | 58 | 58 | ||||
| 2 | 69 | |||||
| 3 | ||||||
| 4 | ||||||
| 5 | ||||||
| 6 | ||||||
| 7 | ||||||
| 8 | 18 | 18 | 18 | 18 | ||
| 9 | 89 | 89 | 89 | 89 | 89 |
- 第一次碰撞发生在填装49的时候。地址为9的单元已经填装了89这个关键字,所以取
,往下查找一个单位,发现为空,所以将49填装在地址为0的空单元。第二次碰撞则发生在58上,取
,往下查找两个单位,将58填装在地址为1的空单元。69同理。 - 表的大小选取至关重要,此处选取10作为大小,发生碰撞的几率就比选择质数11作为大小的可能性大。越是质数,mod取余就越可能均匀分布在表的各处。
聚集(Cluster)的意思是,在函数地址的表中,散列函数的结果不均匀地占据表的单元,形成区块,造成线性探测产生一次聚集(primary clustering)和平方探测的二次聚集(secondary clustering),散列到区块中的任何关键字需要查找多次试选单元才能插入表中,解决冲突,造成时间浪费。对于开放定址法,聚集会造成性能的灾难性损失,是必须避免的。
- 双散列。
- 建立一个公共溢出区

或
,其中
为常数(这种散列函数叫做自身函数)
,
。不仅可以对关键字直接取模,也可在
,
,其中
为散列函数,
为散列表长,
为增量序列,
为已发生碰撞的次数。增量序列可有下列取法:
称为 线性探测;即
,或者为其他线性函数。相当于逐个探测存放地址的表,直到查找到一个空单元,把散列地址存放在该空单元。
称为 平方探测。相对线性探测,相当于发生碰撞时探测间隔
个单元的位置是否为空,如果为空,将地址存放进去。
伪随机数序列,称为 伪随机探测。
,往下查找一个单位,发现为空,所以将49填装在地址为0的空单元。第二次碰撞则发生在58上,取
,往下查找两个单位,将58填装在地址为1的空单元。69同理。
,
。
是一些散列函数。即在上次散列计算发生碰撞时,利用该次碰撞的散列函数地址产生新的散列函数地址,直到碰撞不再发生。这种方法不易产生“
浙公网安备 33010602011771号