GetHashCode()初探

Effective C# Item 10: Understand the Pitfalls of GetHashCode() 读后感

下面的内容中有很多一部分是笔者自己的想法，所以有些说法可能会有失偏颇，还望指正。

Wanger说GetHashCode（）是他在Effective C#所有的50个建议中唯一一项关于不推荐函数的建议。GetHashCode（）这个方法只会用于一个地方：给基于Hash的Collection（比如HashTable和Dictionary）的Key定义Hash值，也就是对象做为Key，而对象的GetHashCode（）为该Key获取Hash值。
说到Hash，先说一下Hash查找算法。
我们知道大部分的查找算法，顺序查找，二分查找或者是B-Tree查找，由于查找的关键字和待查找的记录地址之间没有必然的联系，都是基于比较的，无非是在比较的次数上有多有少。最理想的算法当然是不比较，能够直接通过关键字得到待查找的记录的地址，这就是Hash查找了。通过Hash函数，将记录的Key值直接对应到记录的地址，一个Key对应一个地址，由于Key值是某种语言中所有允许标志符的全集，比某个程序中可能用到的地址空间大很多，这样就势必会有不同的Key值对应相同地址的情况，良好的Hash算法要求，经过Hash函数运算由Key得到的地址空间是均匀的，也就是地址空间是随机的。但是不可能完全避免上述情况，于是又有各种侦探和解决地址冲突的算法。
OK，上面的内容是数据结构的基础知识，大家应该都知道，不过做为一个完整的读后感，不提这些好像不完整，如果熟知的话，可以略过以上内容。
对应到HashTable 中，自定义的类就是Key，而GetHashCode()就是那个Hash算法，GethHashCode（）得到的值就是HashTable存储的对象的内存地址。
于是就有Wanger提到的一个良好的GetHashCode（）必须满足的三个条件。
1.两个对象Equals，则通过GetHashCode()得到的值必须相同。
对象做为Key值，必须对应一个Value对象，如果得到的值不同，则会出现一个Key对应多个Value对象的情况，这违背了Key的原始意义，不过如果你非要违背这个原则，在HashTable的语法中也是没有任何问题的（这个在后面会举例论述）只不过违背了Key的语意。
2.通过GetHashCode（）得到的值必须是恒定不变的。
这个很明显，如果在存储以后这个值可以随意变动，在通过Key取Value的时候就会有问题，在语法上会报经典的“未将对象引用设置到对象实例”。
3.通过GetHashCode（）得到的值必须在整数的取值范围内是均匀分布的。
这样做的目的是提高HashTable的查找效率。
Wanger随后给出了Object的GetHashCode（）和ValueType的GetHashCode（）的算法，以及是否满足上述三条原则。
下面简要叙述一下，有兴趣的可以看一下原著。
Object，默认的Equals()是通过Object创建时生成的Identity来比较的，而GetHashCode（）是从1开始递增的序列值，所以如果Equals相等，则GetHashCode（）必然相等。当然第二条也能满足，因为没办法修改这个GetHashCode的值。第三条就不能满足了，除非是创建大量的Object。
ValueType，Equals()是通过比较各个字段的值，而GetHashCode()是通过比较第一个字段的值来实现的，这样也能保证第一条。第二条就不一定能保证了，如果第一个字段不是Readonly的，那由它得到的HashCode也是变化的。第三条规则取决于第一个字段怎么使用。

下面举个简单的例子。

/// <summary>
/// 做为键的类
/// </summary>
class keyClass
{
  private string name;
  public string _name
  {
   get
   {
    return name;
   }
   set
   {
    name = value;
   }
  }
  private string code;
  public string _code
  {
   get
   {
    return code;
   }
   set
   {
    code = value;
   }
  }
  public override bool Equals(object obj)
  {
   if(null == obj)
    return false;
   if(obj.GetType()!=this.GetType())
    return false;

   return(((keyClass)obj)._name.Equals(this._name));
  }
  public override int GetHashCode()
  {
   return this._code.GetHashCode();
  }

}

测试类

/// <summary>
/// 测试键值的Hashtable
/// </summary>
class HashTableTest
{
  /// <summary>
  /// 应用程序的主入口点。
  /// </summary>
  [STAThread]
  static void Main(string[] args)
  {
   keyClass testKey = new keyClass();
   testKey._code = "110";
   testKey._name = "222";

   keyClass testKey2 = new keyClass();
   testKey2._code = "111";
   testKey2._name = "222";

   System.Collections.Hashtable aa = new Hashtable();
   aa.Add(testKey,"test");
   aa.Add(testKey2,"test2");

   Console.WriteLine(aa[testKey].ToString());
   Console.WriteLine(aa[testKey2].ToString());

   Console.ReadLine();

}
}

单步跟踪一下上述代码就会发现HashTable创建和查找的过程。

创建：

首先根据键对象的GetHashTable()（当然在创建HashTable的时候可以制定其他的Hash函数做为寻址函数，这里不予讨论）得到HashCode，如果在存储桶中该地址没有被占用，则将其存入其中，如果占用了则调用当前Key对象的Equals方法判断占用该地址的对象跟当前Key对象是否是同一对象，如果是则抛出异常，说该项已经存在于HashTable中（我不知道是否有办法在存储桶中存储两个HasCode和Key值都相同的对象，不过理论上应该是不允许的）。如果不是同一对象则在存储桶中另外找个地方把对象存起来。

查找

首先根据键对象的GetHashTable()（当然在创建HashTable的时候可以制定其他的Hash函数做为寻址函数，这里不予讨论）得到HashCode，然后将存储桶中对应的key对象跟当前的Key值通过Equals方法比较，看是否为同一对象，如果不同则继续查找。

靠，这不就是Hash算法的过程嘛！
对啊，我也没说不是啊。
那你直接说跟Hash的查找的算法一样不就行了
唉，不是要凑篇幅嘛!

posted on 2006-02-15 09:54 佛西亚阅读(8657) 评论(15) 收藏举报

刷新页面返回顶部

Farseer

导航

GetHashCode()初探