趣文网 > 作文大全

面试再问HashMap 求你把这篇文章发给他!

2020-11-29 12:30:01
相关推荐

Java技术栈

www.javastack.cn

打开网站看更多优质文章

总所周知 HashMap 是面试中经常问到的一个知识点,也是判断一个候选人基础是否扎实的标准之一,因为通过 HashMap可以引出很多知识点,比如数据结构(数组、链表、红黑树)、equals 和 hashcode 方法。

除此之外还可以引出线程安全的问题,HashMap是我在初学阶段学到的设计的最为巧妙的集合,里面有很多细节以及优化技巧都值得我们深入学习,话不多说先看看相关的面试题:

默认大小、负载因子以及扩容倍数是多少

底层数据结构

如何处理 hash 冲突的

如何计算一个 key 的 hash 值

数组长度为什么是 2 的幂次方

扩容、查找过程

如果上面的都能回答出来的话你就不需要看这篇文章了,那么开始进入正文。

数据结构

在 JDK1.8 中,HashMap 是由数组+链表+红黑树构成

当一个值中要存储到 HashMap 中的时候会根据 Key 的值来计算出他的 hash,通过 hash 值来确认存放到数组中的位置,如果发生 hash 冲突就以链表的形式存储,当链表过长的话,HashMap 会把这个链表转换成红黑树来存储。

在看源码之前我们需要先看看一些基本属性

//默认初始容量为16 staticfinalint DEFAULT_INITIAL_CAPACITY = 1 << 4; //默认负载因子为0.75 staticfinalfloat DEFAULT_LOAD_FACTOR = 0.75f; //Hash数组(在resize()中初始化) transient Node[] table; //元素个数 transientint size; //容量阈值(元素个数超过该值会自动扩容) int threshold;table 数组里面存放的是 Node 对象,Node 是 HashMap 的一个内部类,用来表示一个 key-value,源码如下:

staticclassNode implementsMap.Entry { finalint hash; final K key; V value; Node next; Node(int hash, K key, V value, Node next) { this.hash = hash; this.key = key; this.value = value; this.next = next; } publicfinal K getKey(){ return key; } publicfinal V getValue(){ return value; } publicfinal String toString(){ return key + "=" + value; } publicfinalinthashCode(){ return Objects.hashCode(key) ^ Objects.hashCode(value);//^表示相同返回0,不同返回1 //Objects.hashCode(o)————>return o != null ? o.hashCode() : 0; } publicfinal V setValue(V newValue){ V oldValue = value; value = newValue; return oldValue; } publicfinalbooleanequals(Object o){ if (o == this) returntrue; if (o instanceof Map.Entry) { Map.Entry e = (Map.Entry)o; //Objects.equals(1,b)————> return (a == b) || (a != null && a.equals(b)); if (Objects.equals(key, e.getKey()) && Objects.equals(value, e.getValue())) returntrue; } returnfalse; } }总结:

默认初始容量为 16,默认负载因子为 0.75

threshold = 数组长度 * loadFactor,当元素个数超过threshold(容量阈值)时,HashMap 会进行扩容操作

table 数组中存放指向链表的引用

这里需要注意的一点是 table 数组并不是在构造方法里面初始化的,它是在 resize(扩容)方法里进行初始化的。

table 数组长度永远为 2 的幂次方

总所周知,HashMap 数组长度永远为 2 的幂次方(指的是 table 数组的大小),那你有想过为什么吗?

首先我们需要知道 HashMap 是通过一个名为 tableSizeFor 的方法来确保 HashMap 数组长度永远为2的幂次方的,源码如下:

/*找到大于或等于 cap 的最小2的幂,用来做容量阈值*/staticfinalinttableSizeFor(int cap){ int n = cap - 1; n |= n >>> 1; n |= n >>> 2; n |= n >>> 4; n |= n >>> 8; n |= n >>> 16; return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1; }tableSizeFor 的功能(不考虑大于最大容量的情况)是返回大于等于输入参数且最近的 2 的整数次幂的数。比如 10,则返回 16。

该算法让最高位的 1 后面的位全变为 1。最后再让结果 n+1,即得到了 2 的整数次幂的值了。

让 cap-1 再赋值给 n 的目的是另找到的目标值大于或等于原值。例如二进制 1000,十进制数值为 8。如果不对它减1而直接操作,将得到答案 10000,即 16。显然不是结果。减 1 后二进制为 111,再进行操作则会得到原来的数值 1000,即 8。通过一系列位运算大大提高效率。

那在什么地方会用到 tableSizeFor 方法呢?

答案就是在构造方法里面调用该方法来设置 threshold,也就是容量阈值。

这里你可能又会有一个疑问:为什么要设置为 threshold 呢?

因为在扩容方法里第一次初始化 table 数组时会将 threshold 设置数组的长度,后续在讲扩容方法时再介绍。推荐阅读:HashMap 面试 21 问,这次要跪了!

/*传入初始容量和负载因子*/publicHashMap(int initialCapacity, float loadFactor){ if (initialCapacity < 0) thrownew IllegalArgumentException("Illegal initial capacity: " +initialCapacity); if (initialCapacity > MAXIMUM_CAPACITY) initialCapacity = MAXIMUM_CAPACITY; if (loadFactor <= 0 || Float.isNaN(loadFactor)) thrownew IllegalArgumentException("Illegal load factor: " +loadFactor); this.loadFactor = loadFactor; this.threshold = tableSizeFor(initialCapacity); }那么为什么要把数组长度设计为 2 的幂次方呢?

我个人觉得这样设计有以下几个好处:

1. 当数组长度为 2 的幂次方时,可以使用位运算来计算元素在数组中的下标

HashMap 是通过 index=hash&(table.length-1) 这条公式来计算元素在 table 数组中存放的下标,就是把元素的 hash 值和数组长度减1的值做一个与运算,即可求出该元素在数组中的下标,这条公式其实等价于 hash%length,也就是对数组长度求模取余,只不过只有当数组长度为 2 的幂次方时,hash&(length-1) 才等价于 hash%length,使用位运算可以提高效率。

2. 增加 hash 值的随机性,减少 hash 冲突

如果 length 为 2 的幂次方,则 length-1 转化为二进制必定是 11111……的形式,这样的话可以使所有位置都能和元素 hash 值做与运算,如果是如果 length 不是 2 的次幂,比如 length 为 15,则 length-1 为 14,对应的二进制为 1110,在和 hash 做与运算时,最后一位永远都为 0 ,浪费空间。HashMap 容量为什么总是为 2 的次幂?推荐看下。

扩容

HashMap 每次扩容都是建立一个新的 table 数组,长度和容量阈值都变为原来的两倍,然后把原数组元素重新映射到新数组上,具体步骤如下:

1. 首先会判断 table 数组长度,如果大于 0 说明已被初始化过,那么按当前 table 数组长度的 2 倍进行扩容,阈值也变为原来的 2 倍

2. 若 table 数组未被初始化过,且 threshold(阈值)大于 0 说明调用了 HashMap(initialCapacity, loadFactor) 构造方法,那么就把数组大小设为 threshold

3. 若 table 数组未被初始化,且 threshold 为 0 说明调用 HashMap() 构造方法,那么就把数组大小设为 16,threshold 设为 16*0.75

4. 接着需要判断如果不是第一次初始化,那么扩容之后,要重新计算键值对的位置,并把它们移动到合适的位置上去,如果节点是红黑树类型的话则需要进行红黑树的拆分。

这里有一个需要注意的点就是在 JDK1.8 HashMap 扩容阶段重新映射元素时不需要像 1.7 版本那样重新去一个个计算元素的 hash 值,而是通过 hash & oldCap 的值来判断,若为 0 则索引位置不变,不为 0 则新索引=原索引+旧数组长度,为什么呢?具体原因如下:

因为我们使用的是 2 次幂的扩展(指长度扩为原来 2 倍),所以,元素的位置要么是在原位置,要么是在原位置再移动 2 次幂的位置。因此,我们在扩充 HashMap 的时候,不需要像 JDK1.7 的实现那样重新计算 hash,只需要看看原来的 hash 值新增的那个 bit 是 1 还是 0 就好了,是 0 的话索引没变,是 1 的话索引变成“原索引 +oldCap

这点其实也可以看做长度为 2 的幂次方的一个好处,也是 HashMap 1.7 和 1.8 之间的一个区别,具体源码如下:

/*扩容*/final Node[] resize() { Node[] oldTab = table; int oldCap = (oldTab == null) ? 0 : oldTab.length; int oldThr = threshold; int newCap, newThr = 0; //1、若oldCap>0 说明hash数组table已被初始化 if (oldCap > 0) { if (oldCap >= MAXIMUM_CAPACITY) { threshold = Integer.MAX_VALUE; return oldTab; }//按当前table数组长度的2倍进行扩容,阈值也变为原来的2倍 elseif ((newCap = oldCap << 1) < MAXIMUM_CAPACITY && oldCap >= DEFAULT_INITIAL_CAPACITY) newThr = oldThr << 1; }//2、若数组未被初始化,而threshold>0说明调用了HashMap(initialCapacity)和HashMap(initialCapacity, loadFactor)构造器 elseif (oldThr > 0) newCap = oldThr;//新容量设为数组阈值 else { //3、若table数组未被初始化,且threshold为0说明调用HashMap()构造方法 newCap = DEFAULT_INITIAL_CAPACITY;//默认为16 newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);//16*0.75 } //若计算过程中,阈值溢出归零,则按阈值公式重新计算 if (newThr == 0) { float ft = (float)newCap * loadFactor; newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ? (int)ft : Integer.MAX_VALUE); } threshold = newThr; //创建新的hash数组,hash数组的初始化也是在这里完成的 Node[] newTab = (Node[])new Node[newCap]; table = newTab; //如果旧的hash数组不为空,则遍历旧数组并映射到新的hash数组 if (oldTab != null) { for (int j = 0; j < oldCap; ++j) { Node e; if ((e = oldTab[j]) != null) { oldTab[j] = null;//GC if (e.next == null)//如果只链接一个节点,重新计算并放入新数组 newTab[e.hash & (newCap - 1)] = e; //若是红黑树,则需要进行拆分 elseif (e instanceof TreeNode) ((TreeNode)e).split(this, newTab, j, oldCap); else { //rehash————>重新映射到新数组 Node loHead = null, loTail = null; Node hiHead = null, hiTail = null; Node next; do { next = e.next; /*注意这里使用的是:e.hash & oldCap,若为0则索引位置不变,不为0则新索引=原索引+旧数组长度*/if ((e.hash & oldCap) == 0) { if (loTail == null) loHead = e; else loTail.next = e; loTail = e; } else { if (hiTail == null) hiHead = e; else hiTail.next = e; hiTail = e; } } while ((e = next) != null); if (loTail != null) { loTail.next = null; newTab[j] = loHead; } if (hiTail != null) { hiTail.next = null; newTab[j + oldCap] = hiHead; } } } } } return newTab; }在扩容方法里面还涉及到有关红黑树的几个知识点:

链表树化

指的就是把链表转换成红黑树,树化需要满足以下两个条件:

链表长度大于等于 8table 数组长度大于等于 64为什么 table 数组容量大于等于 64 才树化?

因为当 table 数组容量比较小时,键值对节点 hash 的碰撞率可能会比较高,进而导致链表长度较长。这个时候应该优先扩容,而不是立马树化。

红黑树拆分

拆分就是指扩容后对元素重新映射时,红黑树可能会被拆分成两条链表。

由于篇幅有限,有关红黑树这里就不展开了。

查找

HashMap 的查找是非常快的,要查找一个元素首先得知道 key 的 hash 值,在 HashMap 中并不是直接通过 key 的 hashcode 方法获取哈希值,而是通过内部自定义的 hash 方法计算哈希值,我们来看看其实现:

staticfinalinthash(Object key){ int h; return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16); }(h = key.hashCode()) ^ (h >>> 16) 是为了让高位数据与低位数据进行异或,变相的让高位数据参与到计算中,int 有 32 位,右移 16 位就能让低 16 位和高 16 位进行异或,也是为了增加 hash 值的随机性。

知道如何计算 hash 值后我们来看看 get 方法

public V get(Object key) { Node e; return (e = getNode(hash(key), key)) == null ? null : e.value;//hash(key)不等于key.hashCode } final Node getNode(int hash, Object key) { Node[] tab; //指向hash数组 Node first, e; //first指向hash数组链接的第一个节点,e指向下一个节点 int n;//hash数组长度 K k; /*(n - 1) & hash ————>根据hash值计算出在数组中的索引index(相当于对数组长度取模,这里用位运算进行了优化)*/if ((tab = table) != null && (n = tab.length) > 0 && (first = tab[(n - 1) & hash]) != null) { //基本类型用==比较,其它用euqals比较 if (first.hash == hash && ((k = first.key) == key || (key != null && key.equals(k)))) return first; if ((e = first.next) != null) { //如果first是TreeNode类型,则调用红黑树查找方法 if (first instanceof TreeNode) return ((TreeNode)first).getTreeNode(hash, key); do {//向后遍历 if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k)))) return e; } while ((e = e.next) != null); } } returnnull; }`这里要注意的一点就是在 HashMap 中用 (n - 1) & hash 计算 key 所对应的索引 index(相当于对数组长度取模,这里用位运算进行了优化),这点在上面已经说过了,就不再废话了。

插入

我们先来看看插入元素的步骤:

1. 当 table 数组为空时,通过扩容的方式初始化 table

2. 通过计算键的 hash 值求出下标后,若该位置上没有元素(没有发生 hash 冲突),则新建 Node 节点插入

3. 若发生了 hash 冲突,遍历链表查找要插入的 key 是否已经存在,存在的话根据条件判断是否用新值替换旧值

4. 如果不存在,则将元素插入链表尾部,并根据链表长度决定是否将链表转为红黑树

5. 判断键值对数量是否大于阈值,大于的话则进行扩容操作

先看完上面的流程,再来看源码会简单很多,源码如下:

public V put(K key, V value) { return putVal(hash(key), key, value, false, true); } final V putVal(int hash, K key, V value, boolean onlyIfAbsent,boolean evict) { Node[] tab;//指向hash数组 Node p;//初始化为table中第一个节点 int n, i;//n为数组长度,i为索引 //tab被延迟到插入新数据时再进行初始化 if ((tab = table) == null || (n = tab.length) == 0) n = (tab = resize()).length; //如果数组中不包含Node引用,则新建Node节点存入数组中即可 if ((p = tab[i = (n - 1) & hash]) == null) tab[i] = newNode(hash, key, value, null);//new Node<>(hash, key, value, next) else { Node e; //如果要插入的key-value已存在,用e指向该节点 K k; //如果第一个节点就是要插入的key-value,则让e指向第一个节点(p在这里指向第一个节点) if (p.hash == hash && ((k = p.key) == key || (key != null && key.equals(k)))) e = p; //如果p是TreeNode类型,则调用红黑树的插入操作(注意:TreeNode是Node的子类) elseif (p instanceof TreeNode) e = ((TreeNode)p).putTreeVal(this, tab, hash, key, value); else { //对链表进行遍历,并用binCount统计链表长度 for (int binCount = 0; ; ++binCount) { //如果链表中不包含要插入的key-value,则将其插入到链表尾部 if ((e = p.next) == null) { p.next = newNode(hash, key, value, null); //如果链表长度大于或等于树化阈值,则进行树化操作 if (binCount >= TREEIFY_THRESHOLD - 1) treeifyBin(tab, hash); break; } //如果要插入的key-value已存在则终止遍历,否则向后遍历 if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k)))) break; p = e; } } //如果e不为null说明要插入的key-value已存在 if (e != null) { V oldValue = e.value; //根据传入的onlyIfAbsent判断是否要更新旧值 if (!onlyIfAbsent || oldValue == null) e.value = value; afterNodeAccess(e); return oldValue; } } ++modCount; //键值对数量超过阈值时,则进行扩容 if (++size > threshold) resize(); afterNodeInsertion(evict);//也是空函数?回调?不知道干嘛的 returnnull; }从源码也可以看出 table 数组是在第一次调用 put 方法后才进行初始化的。

删除

HashMap 的删除操作并不复杂,仅需三个步骤即可完成。

1. 定位桶位置

2. 遍历链表找到相等的节点

3. 第三步删除节点

public V remove(Object key) { Node e; return (e = removeNode(hash(key), key, null, false, true)) == null ? null : e.value; } final Node removeNode(int hash, Object key, Object value,boolean matchValue, boolean movable) { Node[] tab; Node p; int n, index; //1、定位元素桶位置 if ((tab = table) != null && (n = tab.length) > 0 && (p = tab[index = (n - 1) & hash]) != null) { Node node = null, e; K k; V v; // 如果键的值与链表第一个节点相等,则将 node 指向该节点 if (p.hash == hash && ((k = p.key) == key || (key != null && key.equals(k)))) node = p; elseif ((e = p.next) != null) { // 如果是 TreeNode 类型,调用红黑树的查找逻辑定位待删除节点 if (p instanceof TreeNode) node = ((TreeNode)p).getTreeNode(hash, key); else { // 2、遍历链表,找到待删除节点 do { if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k)))) { node = e; break; } p = e; } while ((e = e.next) != null); } } // 3、删除节点,并修复链表或红黑树 if (node != null && (!matchValue || (v = node.value) == value || (value != null && value.equals(v)))) { if (node instanceof TreeNode) ((TreeNode)node).removeTreeNode(this, tab, movable); elseif (node == p) tab[index] = node.next; else p.next = node.next; ++modCount; --size; afterNodeRemoval(node); return node; } } returnnull; }注意:删除节点后可能破坏了红黑树的平衡性质,removeTreeNode 方法会对红黑树进行变色、旋转等操作来保持红黑树的平衡结构,这部分比较复杂。

遍历

在工作中 HashMap 的遍历操作也是非常常用的,也许有很多小伙伴喜欢用 for-each 来遍历,但是你知道其中有哪些坑吗?

看下面的例子,当我们在遍历 HashMap 的时候,若使用 remove 方法删除元素时会抛出 ConcurrentModificationException 异常

Map map = new HashMap<>(); map.put("1", 1); map.put("2", 2); map.put("3", 3); for (String s : map.keySet()) { if (s.equals("2")) map.remove("2"); }这就是常说的 fail-fast(快速失败)机制,这个就需要从一个变量说起

transientint modCount;在 HashMap 中有一个名为 modCount 的变量,它用来表示集合被修改的次数,修改指的是插入元素或删除元素,可以回去看看上面插入删除的源码,在最后都会对 modCount 进行自增。

当我们在遍历 HashMap 时,每次遍历下一个元素前都会对 modCount 进行判断,若和原来的不一致说明集合结果被修改过了,然后就会抛出异常,这是 Java 集合的一个特性,我们这里以 keySet 为例,看看部分相关源码:

public Set keySet(){ Set ks = keySet; if (ks == null) { ks = new KeySet(); keySet = ks; } return ks; } finalclassKeySetextendsAbstractSet { publicfinal Iterator iterator(){ returnnew KeyIterator(); } // 省略部分代码 } finalclassKeyIteratorextendsHashIteratorimplementsIterator { publicfinal K next(){ return nextNode().key; } } /*HashMap迭代器基类,子类有KeyIterator、ValueIterator等*/abstractclassHashIterator{ Node next; //下一个节点 Node current; //当前节点 int expectedModCount; //修改次数 int index; //当前索引 //无参构造 HashIterator() { expectedModCount = modCount; Node[] t = table; current = next = null; index = 0; //找到第一个不为空的桶的索引 if (t != null && size > 0) { do {} while (index < t.length && (next = t[index++]) == null); } } //是否有下一个节点 publicfinalbooleanhasNext(){ return next != null; } //返回下一个节点 final Node nextNode(){ Node[] t; Node e = next; if (modCount != expectedModCount) thrownew ConcurrentModificationException();//fail-fast if (e == null) thrownew NoSuchElementException(); //当前的链表遍历完了就开始遍历下一个链表 if ((next = (current = e).next) == null && (t = table) != null) { do {} while (index < t.length && (next = t[index++]) == null); } return e; } //删除元素 publicfinalvoidremove(){ Node p = current; if (p == null) thrownew IllegalStateException(); if (modCount != expectedModCount) thrownew ConcurrentModificationException(); current = null; K key = p.key; removeNode(hash(key), key, null, false, false);//调用外部的removeNode expectedModCount = modCount; } }相关代码如下,可以看到若 modCount 被修改了则会抛出 ConcurrentModificationException 异常。

if (modCount != expectedModCount) thrownew ConcurrentModificationException();那么如何在遍历时删除元素呢?

我们可以看看迭代器自带的 remove 方法,其中最后两行代码如下:

`removeNode(hash(key), key, null, false, false);//调用外部的removeNode expectedModCount = modCount;`意思就是会调用外部 remove 方法删除元素后,把 modCount 赋值给 expectedModCount,这样的话两者一致就不会抛出异常了,所以我们应该这样写:

Map map = new HashMap<>(); map.put("1", 1); map.put("2", 2); map.put("3", 3); Iterator iterator = map.keySet().iterator(); while (iterator.hasNext()){ if (iterator.next().equals("2")) iterator.remove(); }这里还有一个知识点就是在遍历 HashMap 时,我们会发现遍历的顺序和插入的顺序不一致,这是为什么?

在 HashIterator 源码里面可以看出,它是先从桶数组中找到包含链表节点引用的桶。然后对这个桶指向的链表进行遍历。遍历完成后,再继续寻找下一个包含链表节点引用的桶,找到继续遍历。找不到,则结束遍历。这就解释了为什么遍历和插入的顺序不一致,不懂的同学请看下图:

equasl 和 hashcode

为什么添加到 HashMap 中的对象需要重写 equals() 和 hashcode() 方法?

简单看个例子,这里以 Person 为例:

publicclassPerson{ Integer id; String name; publicPerson(Integer id, String name){ this.id = id; this.name = name; } @Overridepublicbooleanequals(Object obj){ if (obj == null) returnfalse; if (obj == this) returntrue; if (obj instanceof Person) { Person person = (Person) obj; if (this.id == person.id) returntrue; } returnfalse; } publicstaticvoidmain(String[] args){ Person p1 = new Person(1, "aaa"); Person p2 = new Person(1, "bbb"); HashMap map = new HashMap<>(); map.put(p1, "这是p1"); System.out.println(map.get(p2)); } }原生的 equals 方法是使用 == 来比较对象的原生的 hashCode 值是根据内存地址换算出来的一个值

Person 类重写 equals 方法来根据 id 判断是否相等,当没有重写 hashcode 方法时,插入 p1 后便无法用 p2 取出元素,这是因为 p1 和 p2 的哈希值不相等。

HashMap 插入元素时是根据元素的哈希值来确定存放在数组中的位置,因此HashMap 的 key 需要重写 equals 和 hashcode 方法。

总结

本文描述了 HashMap 的实现原理,并结合源码做了进一步的分析,后续有空的话会聊聊有关 HashMap 的线程安全问题,希望本篇文章能帮助到大家,同时也欢迎讨论指正,谢谢支持!

作者:超大只乌龟https://segmentfault.com/a/1190000022184751

END

阅读剩余内容
网友评论
相关内容
延伸阅读
小编推荐

大家都在看

五年级作文小草 作文家乡的端午节450字 游泳作文600字 我眼中的高中作文 蚂蚁作文500字 以什么为乐的作文 友情作文题记 最美环卫工人作文600字 我想当老师作文600字 描写秋雨作文 断舍离 作文 老师不在时作文 有母亲陪伴的日子作文 围棋选手小柯作文800字 难忘的什么之旅作文 有关人的作文600字 一次爬山的经历作文 雅思小作文图表题 作文题目空几个格 关于学习的作文500字 五年级下册语文作文第二单元 关于重阳节的作文300字 青春恰自来作文800字 爱国事例作文 写做菜的作文 面对灾难作文 写辣椒的作文 作文我的老师三年级 小学三年级作文题目大全 我与什么作文