Spiga

.Net类库中实现的HashTable

2008-01-30 09:12 by 汉广, 2754 visits, 网摘, 编辑
 

摘要:

这个HashTable开放定址法解决冲突,双散列法进行探测。装填因子过高之后使用再散列法扩充涉及到的算法都不是很复杂,即使不使用数学工具,也可以简单的分析下:-)

本文以.net fx's HashTable为例,回顾HashTable的基础理论

  

HashTable是一种能提供快速插入和查询的数据结构,无论其包含有多少Item,查询和插入操作的平均时间总是接近O(1)HashTable理论上并不关心其所包含的item顺序,任何与顺序有关的操作例如:“find_min, find_max”,都不能有效的支持。


Hashing

  

假如我们把一本英汉字典的5000个单词, azyzzyva,存储到一个数组中。这样我们可以通过它们在数组中的序号,以固定的时间快速的访问每一个单词。但是给定一个单词比如:“COOL",如何才能知道它的序号呢?


Converting word to number

 

为了把每个单词同它们在数组中的位置一一对应起来,我们需要把每个单词都转化为一个唯一的一个整数(hash code)。下面是一种简单的算法:

英语只有26个字母,可以用1-26表示,用0表示空格.为了获得一个唯一的数字,我们把单词的每个字母都转化为其对应数字,然后乘以一个合适的权数。比如:

为了把"cats" 转化为数字,我们把它的每一个字符都转化为相应的数字,然后乘以27^n n表示字符的位置),把它们相加:

3*273 + 1*272 + 20*271 + 19*270=60337

这个方法可以将单词都转化为一个唯一整数(hash code)

.net framework中所实现的Hashtable ,虽然对键值的类型没有限制,但要求其键值(key)的类型必须实现GetHashCode()方法,用来获得全局唯一的hash code。事实上由于.net类型库定义的所有类型都直接或间接的继承自Object,所有都具有一个默认的GetHashCode()实现。

但是我们得到的整数(Hash Code)明显不是我们所需要的序号(index)。


Hash Function


  我们从
5000个单词得到范围非常大的一组数字(hash code),每个数字都可能描述数组中的一个序号(index),但是只有很少的数字与序号一一对应。为了可以以一个固定的时间访问每一个单词,我们需要一个方法将这些值域很大的数字映射到数组中的一个位置。

hash function 的作用就是将这些范围很大的数(domain of keys )转换成我们需要的序号(domain of location)。

.net framework采用Division Methed作为其散列算法,使用取模(modulo)操作将Hash code值域转换到合适的范围。即:

arrayIndex = hashcode % arraySize;

其中arrayIndex代表单词在数组中的位置,ArraySize代表数组长度,

 

Collisions

我们希望每一个Hash Code都唯一对应一个Index,然而这个算法并不能保证这一点。比如你想将"melioration"插入到数组,你将这个单词通过上述过程转换成index,然而你发现那个位置已经被"demystify"所占据,这种情况叫做Collisions(冲突)。

.net framework使用open address 的方式解决冲突,例如当进行插入操作时,根据键值生成的index已经被别的item占据时,它将自动搜索index+incr位置,直到找到一个空的位置。其中的incr由以下算法产生。

       incr = (uint)(1 + (((hashcode >> 5) + 1) % ((uint)itemCount - 1)));

.net framework生成incr的这种算法,其结果与当前冲突位置无关,避免了好多问题。事实上它根据键值的hash code 进行了另一次散列,即所谓的Double Hash.


Expand

 

由于HashTable基于数组的,所以它的容量需要提前指定,并且最好在运行过程中不要改变。数组的大小是不能在运行时改变的,所以当HashTable太满时,就需要声明一个新的大数组。

我们记得Hash Function 根据数组的长度计算键值的序号的,所以不可以将旧数组的数据直接复制到新数组,必须对针对每一个键值重新计算其位置,非常的低效。

.net framework实现中HashTable最小的容量为11,当HashTable过满时,会新建立一个容量为当前俩倍的数组,然后将旧数组的值复制到新数组对应的位置。

Add your comment

22 条回复

  1. #1楼 壁虎      2008-01-30 09:49
    对算法了解的太少。期待这样的文章能继续。
      回复  引用  查看    
  2. #2楼 andysun888      2008-01-30 10:08
    嗯 !算法太重要了.
      回复  引用  查看    
  3. #3楼[楼主] 汉广      2008-01-30 10:27
    @壁虎
    @andysun888
    谢谢支持:-)
      回复  引用  查看    
  4. #4楼 zzticzh      2008-01-30 10:27
    路过 支持一下!
      回复  引用  查看    
  5. #5楼 努力学习![未注册用户]2008-01-30 10:38
    谢谢,希望多点此类文章!
      回复  引用    
  6. #6楼 A.Z![未注册用户]2008-01-30 10:55
    一般的.net的hashtable的插入由数组复制的效率决定,hash提供了一个高效的按键索引的算法,基本上是O(1),作为一个经典的数据结构不用太深究...
      回复  引用    
  7. #7楼 hoodlum1980      2008-01-30 11:14
    不错,这种类型的文章是非常必要的、
      回复  引用  查看    
  8. #8楼 周银辉      2008-01-30 11:21
    好文好文~~
      回复  引用  查看    
  9. #9楼 Silent Void      2008-01-30 11:30
    以前一直在用,却很少留意细节,谢谢楼主....

    不过,下面的说法貌似不太准确:“当HashTable过满时,会新建立一个容量为当前俩倍的数组,然后将旧数组的值复制到新数组对应的位置。”
    1. 容量不是×2,而是 int prime = HashHelpers.GetPrime(this.buckets.Length * 2);这里有取最大素数的;
    2. 复制的过程中,会对每一个键值重新计算位置的;
    Hashtable.bucket[] newBuckets = new Hashtable.bucket[newsize];
    for (int i = 0; i < this.buckets.Length; i++)
    {
    Hashtable.bucket bucket = this.buckets[i];
    if ((bucket.key != null) && (bucket.key != this.buckets))
    {
    this.putEntry(newBuckets, bucket.key, bucket.val, bucket.hash_coll & 0x7fffffff);
    }
    }

      回复  引用  查看    
  10. #10楼[楼主] 汉广      2008-01-30 11:38
    @Silent Void
    确实如你所说,谢谢指正。
    关于1,
    应该是近似俩倍才对
    2,
    我在文中提到了重新计算键值位置会带来额外的开销,最后那句表达错了
    :-)
      回复  引用  查看    
  11. #11楼 装配脑袋      2008-01-30 11:43
    Dictionary<,>已经采用游标链表做成的分离链接法“桶”来代替Hashtable的开放定址法。所以就没有那个线性同余的双散列了。鉴于Dictionary<,>是设计用来取代Hashtable的,所以后者的算法应该具有更大的优越性。
      回复  引用  查看    
  12. #12楼 cobrayang[未注册用户]2008-01-30 11:50
    多谢分享,学习了:)
      回复  引用    
  13. #13楼[楼主] 汉广      2008-01-30 11:54
    @装配脑袋
    哇,发现一个我敬佩的人啊,你知道吗,我摘要里的那句
    ”HashTable用开放定址法解决冲突,用双散列法进行探测。装填因子过高之后使用再散列法扩充“

    还是抄的您前年的一个评论,呵呵。

    以前一直以为Dictionary不过是hashTable的泛型版本,这俩天看了下代码,才清楚根本不是那么回事。决定晚上学习一下:-)
      回复  引用  查看    
  14. #14楼 Clark Zheng      2008-01-30 12:09
    好文,谢谢分享,收藏了
      回复  引用  查看    
  15. #15楼[楼主] 汉广      2008-01-30 12:13
    @zzticzh
    @努力学习!
    @A.Z!
    @hoodlum1980
    @cobrayang
    @周银辉
    @Clark Zheng
    多谢:-)
      回复  引用  查看    
  16. #16楼 留恋星空      2008-01-30 14:33
    多谢分享
      回复  引用  查看    
  17. #17楼 装配脑袋      2008-01-30 15:19
    @汉广
    见笑了。。一同学习。:)
    其实我现在也不太清楚Dictionary<,>是怎么做再散列的。
      回复  引用  查看    
  18. #18楼 戏水      2008-01-30 23:16
    世事洞明皆学问啊 。 看评论和看文章 都长见识 !
    好文能引来好评论:)
      回复  引用  查看    
  19. #19楼 路西菲尔      2008-01-31 10:52
    不知博主有没有源码,.net实现的hashtable速度非常快,一直不明白其中原委.
      回复  引用  查看    
  20. #20楼[楼主] 汉广      2008-01-31 11:30
    @戏水
    谢谢鼓励
      回复  引用  查看    
  21. #21楼[楼主] 汉广      2008-01-31 11:35
    @路西菲尔
    .net FrameWork现在大部分都开源了,你用vs 2008去下载.
      回复  引用  查看    
  22. #22楼 鸿峰师兄      2008-01-31 13:40
    呵呵,支持
    兄弟愚作,不吝赐教
    http://www.cnblogs.com/floodpeak/archive/2008/01/31/hashtable_playing.html">在VB.NET中撒娇的Hashtable
      回复  引用  查看    



发表评论

昵称: [登录] [注册]

主页:

邮箱:(仅博主可见)

评论内容:

  登录  注册

[使用Ctrl+Enter键快速提交评论]

0 1058211




相关文章:

相关链接: