HashMap的底层实现原理

1. 首先我们需要了解数组和链表的特点:

数组
数组存储区间是连续的,占用内存严重,所以空间复杂度很大.特点:查询容易,插入和删除困难;
链表
链表存储区间是离散的,占用内存比较宽松,空间复杂度很小.特点:查询困难,插入和删除容易;

哈希表
哈希表有多中实现方法,我接下来解释的是最常用的一种方法--拉链法

从上图中我们可以发现哈希表是由数组+链表组成的,一个长度为16的数组中,每一个元素存储的是一个链表的头结点.那么这些这些元素是按什么样的规则存储到数组中?一般是通过hash(key)%len获得,,也就是数组的hash值对数组的长度取模得到的,比如上述的hash表中,12%16=12,28%16=12,108%16=12,140%16=12.所以12,28,108,140都存储在数组的下标为12的位置.

HashMap其实也是一个线性的数组实现的,所以可以理解为其存储数据的容器就是一个线性数组,这可能让我们很不解,一个线性数组怎么实现按键值对来存取数据呢?

首先HashMap里面实现了一个静态内部类Entry,其重要的属性有key,value,next,从属性key,value我们就能看出来 Entry就是hashMap键值对实现的一个基础bean,我们上面说到HashMap的基础就是一个线性数组,这个数组就是Entry[],Map里面的内容都保存在Entry[]里面.

 /**
     * The table, resized as necessary. Length MUST Always be a power of two.
     */
    transient Entry[] table;

2. HashMAP的存取实现

既然是线性数组,为什么能随机存取?这里HashMAP用了一个算法

存储时:
int hash = key.hashCode(); // 这个hashCode方法这里不详述,只要理解每个key的hash是一个固定的int值
int index = hash % Entry[].length;
Entry[index] = value;

取值时:
int hash = key.hashCode();
int index = hash % Entry[].length;
return Entry[index];
  1. put
    如果两个key通过hashMap%Entry[].length得到的index相同,会不会被覆盖?
    这里HashMAP里面用到链式数据结构的概念.上面我们提到过Entry类里面有一个next属性,作者是指向下一个Entry.打个比方, 第一个键值对A进来,通过计算其key的hash得到的index=0,记做:Entry[0] = A。一会后又进来一个键值对B,通过计算其index也等于0,现在怎么办?HashMap会这样做:B.next = A,Entry[0] = B,如果又进来C,index也等于0,那么C.next = B,Entry[0] = C;这样我们发现index=0的地方其实存取了A,B,C三个键值对,他们通过next这个属性链接在一起。所以疑问不用担心。也就是说数组中存储的是最后插入的元素。到这里为止,HashMap的大致实现,我们应该已经清楚了。
public V put(K key, V value) {
        if (key == null)
            return putForNullKey(value); //null总是放在数组的第一个链表中
        int hash = hash(key.hashCode());
        int i = indexFor(hash, table.length);
        //遍历链表
        for (Entry<K,V> e = table[i]; e != null; e = e.next) {
            Object k;
            //如果key在链表中已存在,则替换为新value
            if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
                V oldValue = e.value;
                e.value = value;
                e.recordAccess(this);
                return oldValue;
            }
        }
        modCount++;
        addEntry(hash, key, value, i);
        return null;
    }
void addEntry(int hash, K key, V value, int bucketIndex) {
    Entry<K,V> e = table[bucketIndex];
    table[bucketIndex] = new Entry<K,V>(hash, key, value, e); //参数e, 是Entry.next
    //如果size超过threshold,则扩充table大小。再散列
    if (size++ >= threshold)
            resize(2 * table.length);
}

当然HashMAP里面也包含了一些优化方面的实现,例如:Entry[]的长度一定后,随着map里面数据的越来越长,这样同一个index的链就会很长,会不会影响性能?HashMap里面设置一个负载因子(loadFactor),随着map的size越来越大,Entry[]会以一定的规则加长长度。

负载因子为什么会影响HashMap性能

首先回忆HashMap的数据结构,

我们都知道有序数组存储数据,对数据的索引效率都很高,但是插入和删除就会有性能瓶颈(回忆ArrayList),

链表存储数据,要一次比较元素来检索出数据,所以索引效率低,但是插入和删除效率高(回忆LinkedList),

两者取长补短就产生了哈希散列这种存储方式,也就是HashMap的存储逻辑.

而负载因子表示一个散列表的空间的使用程度,有这样一个公式:initailCapacity*loadFactor=HashMap的容量。

所以负载因子越大则散列表的装填程度越高,也就是能容纳更多的元素,元素多了,链表大了,所以此时索引效率就会降低。

反之,负载因子越小则链表中的数据量就越稀疏,此时会对空间造成烂费,但是此时索引效率高。

  1. get
 public V get(Object key) {
        if (key == null)
            return getForNullKey();
        int hash = hash(key.hashCode());
        //先定位到数组元素,再遍历该元素处的链表
        for (Entry<K,V> e = table[indexFor(hash, table.length)];
             e != null;
             e = e.next) {
            Object k;
            if (e.hash == hash && ((k = e.key) == key || key.equals(k)))
                return e.value;
        }
        return null;
}
  1. null key的存取
    null key总是存在Entry[]的第一个元素
 private V putForNullKey(V value) {
        for (Entry<K,V> e = table[0]; e != null; e = e.next) {
            if (e.key == null) {
                V oldValue = e.value;
                e.value = value;
                e.recordAccess(this);
                return oldValue;
            }
        }
        modCount++;
        addEntry(0, null, value, 0);
        return null;
    }
 
    private V getForNullKey() {
        for (Entry<K,V> e = table[0]; e != null; e = e.next) {
            if (e.key == null)
                return e.value;
        }
        return null;
    }
  1. 确定数组index:hashcode%table.length取模
    HashMAP存取 时,都需要计算当前key应该对应Entry[]数组的哪个元素,即计算数组的下标
/**
     * Returns index for hash code h.
     */
    static int indexFor(int h, int length) {
        return h & (length-1);
    }

按位取并,作用上相当于取模或者取余
这以为着数组下标相同,并不表示hashCode相同

  1. table初始值的大小
public HashMap(int initialCapacity, float loadFactor) {
        .....
        // Find a power of 2 >= initialCapacity
        int capacity = 1;
        while (capacity < initialCapacity)
            capacity <<= 1;
        this.loadFactor = loadFactor;
        threshold = (int)(capacity * loadFactor);
        table = new Entry[capacity];
        init();
    }  

注意table初始大小并不是构造函数的initialCapacity(是map的初始化容量)

posted @ 2017-09-06 11:17  大魚`海棠  阅读(380)  评论(0编辑  收藏  举报