HashMap相关知识点

二叉数,红黑树
Java中实现二叉树有两种方式:数组存储,链式存储;
二叉树分类:
满二叉树:叶子节点全在同一层,要么全有子节点,要么全没有
完全二叉树:按层序遍历排序(从上到下,从左到右),填充节点,中间不能留空,叶子节点只能出现在最 下两层
二叉搜索树:又名排序查找树,要求树中任意节点的左子树每个节点值要小于这个节点,右子树相反
红黑树:是一种自平衡二叉搜索树,所有红黑规则都是希望红黑树能保证平衡


散列表(Hash Table)
HashMap中最重要的数据结构是散列表,在散列表中又使用到了红黑树和链表
散列表又名哈希表,是根据键(Key)直接访问在内存存储位置值(Value)的数据结构,它是由数组演化而来,利用数组支持按下标进行随机访问的特性
将键(Key)映射为数组下标的函数叫做散列函数。可以表示为:hashValue = hash(Key)
散列函数的基本要求:
- 散列函数计算得到的散列值必须是大于等于0的正整数,因为hashValue需要作为数组的下标
- 如果key1key2,那么经过hash后得到的哈希值也必须相同即:hash(key1)hash(key2)
- 如果key1 != key2,那么经过hash后得到的哈希值也必须不相同
散列冲突---链表法
在散列表中,数组的每个下标位置我们可以称之为桶(bucket)或者槽(slot),每个桶(槽)会对应一条链表,所有散列值相同(哈希冲突)的元素我们都放到相同槽位对应的链表中

- 插入操作:通过散列计算出对应散列槽位,将其插入到对应链表中即可,插入的时间复杂度O(1)
- 当查找,删除一个元素时,我们同样计算出对应的槽位,然后遍历链表查找或者删除,散列表可能会退化为链表,查询时间复杂度从O(1)退化为O(n),将列表法中的链表改造为其它更高效的数据结构,红黑树查询复杂度O(logn)
HashMap实现原理
HashMap的数据结构:底层使用hash表数据结构,即数组和链表或红黑树
-
当我们往HashMap中put元素时,利用key的hashCode重新计算当前对象的元素在数组中的下标
-
存储时,如果出现hash值相同的key,此时有两种情况:
如果key相同,则覆盖原始值
如果key不同(哈希冲突),则将当前的key-value放入链表或红黑树中
-
获取时,直接找到hash值对应的下标,再进一步判断key是否相同,从而找到对应值

HashMap在jdk1.7和jdk1.8有什么区别
- jdk1.8之前采用的是拉链法。拉链法:将链表和数组相结合;也就是说创建一个链表数组,数组中每一格就是一个链表。若遇到哈希冲突,则将冲突的值加到链表中即可。
- jdk1.8在解决哈希冲突时有了较大的变化,当链表长度大于阈值(默认为8)时并且数组长度达到64时,将链表转化为红黑树,以减少搜索时间。扩容resize()时,红黑树拆分成的树的结点数小于等于临界值6个,则退化为链表
HashMap的put方法的具体流程
HashMap源码分析
常见属性


- HashMap是懒惰加载,在创建对象时并没有初始化数组
- 在无参的构造函数中,设置了默认的加载因子是0.75
添加数据流程图

- 第一次 “key 是否存在”:发生在 数组索引
table[i]不为空,但还不确定是 “链表” 还是 “红黑树” 的阶段。此时只需判断当前位置的 “根节点”(链表头或红黑树根)的 key 是否匹配,若匹配则直接覆盖 value,逻辑上是快速预检。 - 第二次 “判断 key 是否存在”:发生在 确定是 “链表” 之后(即
table[i]不是红黑树,只能是链表)。此时需要遍历整个链表的所有节点,确认是否存在重复 key—— 因为链表可能有多个节点,仅检查头节点是不够的。
具体流程
- 判断键值对数组table是否为空或为null,否则执行resize()进行扩容(初始化)
- 根据键值key计算hash值得到数组索引
- 判断table[i]==null,条件成立,直接新键节点添加
- 如果table[i]==null,不成立
- 判断table[i]的首个元素是否和key一样,如果相同直接覆盖value
- 判断table[i]是否为treeNode,即table[i]是否为红黑树,如果是红黑树,则直接在树中插入键值对
- 遍历table[i],链表的尾部插入数据,然后判断链表长度是否大于8,大于8的话把链表转换为红黑树,在红黑树中执行插入操作,遍历过程中若发现key已经存在就直接覆盖掉value
- 插入成功后,判断实际存在的键值对数量size是否超了最大容量threshole(数组长度*0.75),超过就进行扩容
HashMap扩容机制

- 在添加元素或初始化的时候需要调用resize方法进行扩容,第一次添加数据初始化数组长度为16,以后每次扩容是达到了扩容阈值(数组长度*0.75)
- 每次扩容的时候,是扩容之前容量的2倍
- 扩容之后,会新创建一个数组,需要把老数组中的数据挪动到新的数组中
- 没有hash冲突的节点,则直接使用e.hash & (newCap - 1)计算新数组的索引位置
- 如果是红黑树,走红黑树添加
- 如果是链表,则需要遍历链表,可能需要拆分链表,判断(e.hash & oldCap)是否为0,该元素的位置要么停留在原始位置,要么移动到原始位置+增加的数组大小这个位置上
HashMap的寻址算法
- 计算Key对象的hashCode()
- 再进行调用hash()方法进行二次哈希,hashcode值右移16位再异或运算,让哈希分布更为均匀
- 最后(capacity - 1) & hash 得到索引
追问:为何hashMap的数组长度一定是2的次幂?
- 计算索引时效率更高:如果是2的n次幂可以使用位与运算代替取模
- 扩容时重新计算索引效率更高:hash & oldCap == 0 元素留在原来位置,否则新位置 = 旧位置 + oldCap

浙公网安备 33010602011771号