HashMap源码解析(JDK8为主)

HashMap

Posted by Jay on March 31, 2019

HashMap源码解析(JDK8为主)

HashMap根据键的hashCode值存储数据,大多数情况下可以直接定位到它的值,因而具有很快的访问速度`O(1)`,但遍历顺序却是不确定的。HashMap非线程安全,即任一时刻可以有多个线程同时写HashMap,可能会导致数据的不一致。如果需要满足线程安全,可以用Collections`synchronizedMap`方法使HashMap具有线程安全的能力,或者使用`ConcurrentHashMap`

// 在初始化HashMap时,将输入的容量任意值转化为大于等于此值的2的幂次方	
static final int tableSizeFor(int cap) {
    int n = cap - 1;
    n |= n >>> 1;
    n |= n >>> 2;
    n |= n >>> 4;
    n |= n >>> 8;
    n |= n >>> 16;
    return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}

一、存储结构——字段

从结构实现来讲,HashMap数组+链表+红黑树(JDK1.8增加了红黑树部分)实现的,如下图所示。

(1)数据底层存储的数据结构——Node[] table,即哈希桶数组,它是一个Node的数组。

static class Node<K,V> implements Map.Entry<K,V> {
    final int hash;   //用来定位数组索引位置
    final K key;
    V data;
    Node<K,V> next;   //链表的下一个Node

    Node(int hash, K key, V data, Node<K,V> next) {
        this.hash = hash;
        this.key = key;
        this.data = data;
        this.next = next;
    }

    public final K getKey()        { return key; }
    public final V getValue()      { return data; }
    public final String toString() { return key + "=" + data; }

    public final int hashCode() {}

    public final V setValue(V newValue) {}

    public final boolean equals(Object o) {}
}

(2)HashMap底层使用数组+链表+红黑树这样的存储结构的优点(哈希表):

哈希表为解决冲突,可以采用开放地址法链地址法等来解决问题,Java中HashMap采用了链地址法。链地址法,简单来说,就是数组加链表的结合。在每个数组元素上都有一个链表结构,当数据被Hash后,得到数组下标,把数据放在对应下标元素的链表上。

map.put("杭州","西湖");

系统将调用”杭州”这个key的hashCode()方法得到其hashCode 值(该方法适用于每个Java对象),然后再通过Hash算法的后两步运算(高位运算和取模运算,下文有介绍)来定位该键值对的存储位置,有时两个key会定位到相同的位置,表示发生了Hash碰撞。当然Hash算法计算结果越分散均匀,Hash碰撞的概率就越小,map的存取效率就会越高。

(3)HashMap的字段

int threshold;             // 所能容纳的key-value对阈值
final float loadFactor;    // 负载因子
int modCount;              // 结构性修改次数
int size;									 // key-value对个数
  • Node[] table的初始化长度length(默认值是16),loadFactor为负载因子(默认值是0.75),threshold是HashMap所能容纳的最大数据量的Node(键值对)个数。threshold = length * Load factor。也就是说,在数组定义好长度之后,负载因子越大,所能容纳的键值对个数越多

  • 结合负载因子的定义公式可知,threshold就是在此loadFactor和length(数组长度)对应下允许的最大元素数目,超过这个数目就重新resize(扩容),扩容后的HashMap容量是之前容量的两倍。默认的负载因子0.75是对空间和时间效率的一个平衡选择,建议不要修改,除非在时间和空间比较特殊的情况下,如果内存空间很多而又对时间效率要求很高,可以降低负载因子Load factor的值;相反,如果内存空间紧张而对时间效率要求不高,可以增加负载因子loadFactor的值,这个值可以大于1。

  • modCount字段主要用来记录HashMap内部结构发生变化的次数,主要用于迭代的快速失败。强调一点,**内部结构发生变化指的是结构发生变化,例如put新键值对,但是某个key对应的value值被覆盖(更新)不属于结构变化。**

  • 特别要指出:在HashMap中,哈希桶数组table的长度length大小必须为2的n次方(一定是合数),这是一种非常规的设计,常规的设计是把桶的大小设计为素数。相对来说素数导致冲突的概率要小于合数。HashMap采用这种非常规设计,**主要是为了在取模和扩容时做优化;同时为了减少冲突,HashMap定位哈希桶索引位置时,也加入了高位参与运算的过程。**

(4)JDK1.8引入红黑树 即使负载因子和Hash算法设计的再合理,也免不了会出现拉链过长的情况,一旦出现拉链过长,则会严重影响HashMap的性能。于是,在JDK1.8版本中,对数据结构做了进一步的优化,引入了红黑树。而当链表长度太长(默认超过8)时,链表就转换为红黑树,利用红黑树快速增删改查的特点提高HashMap的性能,其中会用到红黑树的插入、删除、查找等算法

二、功能实现——方法

主要分析:①根据key获取哈希桶数组索引位置;②put方法的详细执行;③get方法解析④扩容过程

1.确定哈希桶数组索引位置

不管增加、删除、查找键值对,定位到哈希桶数组的位置都是很关键的第一步。

方法一
static final int hash(Object key) {   //jdk1.8源码,jdk1.7类似
 int h;
 // h = key.hashCode() 为第一步 取hashCode值,通用
 // h ^ (h >>> 16)  为第二步 高位参与运算,减少碰撞冲突
 return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
方法二
static int indexFor(int h, int length) {  //jdk1.7的源码,jdk1.8没有这个方法,但是实现原理一样的
 return h & (length-1);  //第三步 取模运算,确定数组索引位置。这样分布比较均匀
}

可以看到,确定索引位置有三步:取key的hashCode值、高位运算、取模运算。

(a)方法二很巧妙,它通过h & (table.length -1)来得到该对象的保存位置,而HashMap底层数组的长度总是2的n次方,这是HashMap在速度上的优化(取模)。当length总是2的n次方时,h& (length-1)运算等价于对length取模,也就是h%length,但是&比%具有更高的效率。 (b)在JDK1.8的实现中,优化了高位运算的算法,通过hashCode()的高16位异或低16位实现的:(h = k.hashCode()) ^ (h »> 16),主要是从速度、功效、质量来考虑的,这么做可以在数组table的length比较小的时候,也能保证考虑到高低Bit都参与到Hash的计算中(减少冲突,分布均匀),同时不会有太大的开销。

举例如下(n为table长度,n=16):

2.put(K key, V data)方法

流程:

第一步: 判断键值对数组table[i]是否为null或长度为0,否则执行resize()进行扩容(或者称之为初始化);

第二步: 根据键key计算hash值得到插入的数组索引i,如果table[i]==null,直接新建节点添加,进入第五步;否则进入第三步; 第三步: 如果table[i]!=null,判断table[i]的首个元素的键key是否和传入的key一样,如果相同直接覆盖value,这里的相同指的是hashCode以及equals;否则,进入第四步; 第四步: 首先判断该链表是否已经是红黑树,如果是红黑树,则直接在树中插入键值对;否则遍历table[i],如果未找到存在的key,则直接在尾部插入,并根据需要转为红黑树结构;如果是已经存在原key,则直接更新,并返回旧值; 第五步: 操作完成后,如果结果是插入成功,则检查实际存在的键值对数量size是否超过了阈值threshold,如果超过,进行扩容。

public V put(K key, V data) {
		//hash(key) 对key进行hash操作,计算hash值(包括高16位亦或运算)
    return putVal(hash(key), key, data, false, true);
}
final V putVal(int hash, K key, V data, boolean onlyIfAbsent,
               boolean evict) {
    Node<K,V>[] tab; Node<K,V> p; int n, i;
		//第一步:table为空,则创建初始化,分配内存
    if ((tab = table) == null || (n = tab.length) == 0)
        n = (tab = resize()).length;
		//第二步:计算出索引i, 若table[i]==null,直接添加新节点,直接进入第五步
    if ((p = tab[i = (n - 1) & hash]) == null)
        tab[i] = newNode(hash, key, data, null);
    else {
				//第三步:否则,判断table[i]的首个元素是否和key一样,如果相同,直接覆盖value
        Node<K,V> e; K k;
        if (p.hash == hash &&
            ((k = p.key) == key || (key != null && key.equals(k))))
            e = p;
				//第四步:该链表是红黑树,直接在红黑树中插入键值对
        else if (p instanceof TreeNode)
            e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, data);
        else {
						//这是一条普通链表,执行遍历操作
            for (int binCount = 0; ; ++binCount) {
                if ((e = p.next) == null) { //未找到key相等的Node,执行尾部插入
                    p.next = newNode(hash, key, data, null);
                    //若节点插入后链表长度大于8,转换为红黑树
                    if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                        treeifyBin(tab, hash);
                    break;
                }
								//key已存在,直接覆盖更新
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    break;
                p = e;
            }
        }
      	// key已存在时,直接覆盖、更新
        if (e != null) { // existing mapping for key
            V oldValue = e.data;
            if (!onlyIfAbsent || oldValue == null)
                e.data = data;
            afterNodeAccess(e);
            return oldValue;
        }
    }
		//第五步,如果是插入成功操作,检测是否需要扩容
    ++modCount;
    if (++size > threshold)
        resize();
    afterNodeInsertion(evict);
    return null;
}
3.get()方法

流程:

第一步: 首先计算hash值,然后调用getNode()方法; 第二步: 先判断table是否null,为空直接返回null;否则,计算数组索引位置i,判断该索引位置处table[i]如果为null,直接返回null;否则,进入下面判断; 第三步: 判断table[i]的首个元素的键key是否和传入的key一样,如果相同,直接返回table[i];否则,进入第四步; 第四步: 如果为红黑树结构,直接使用红黑树方式查找; 第五步: 如果为普通链表,直接遍历查找,找到返回;找不到,返回null。

public V get(Object key) {
    Node<K,V> e;
		//首先计算hash值,然后调用getNode()方法
    return (e = getNode(hash(key), key)) == null ? null : e.data;
}
final Node<K,V> getNode(int hash, Object key) {
    Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
		//先判断table是否null,为空直接返回null;否则,计算数组索引位置i,判断该索引位置处table[i]如果为null,直接返回null;否则,进入下面判断
    if ((tab = table) != null && (n = tab.length) > 0 &&
        (first = tab[(n - 1) & hash]) != null) {
				//判断table[i]的首个元素的键key是否和传入的key一样,如果相同直接返回table[i]
        if (first.hash == hash && // always check first node
            ((k = first.key) == key || (key != null && key.equals(k))))
            return first;
				//查找
        if ((e = first.next) != null) {
						//如果为红黑树结构,直接使用红黑树方式查找
            if (first instanceof TreeNode)
                return ((TreeNode<K,V>)first).getTreeNode(hash, key);
            do {
								//普通链表,直接遍历查找,找到返回;找不到,返回null
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    return e;
            } while ((e = e.next) != null);
        }
    }
    return null;
}
4.扩容机制resize()

当向HashMap对象里不停的添加元素,且size大于阈值threshold(JDK8;JDK7是在size等于threshold且插入元素之前进行扩容),就需要扩大数组的长度,以便能装入更多的元素。方法是使用一个新的数组代替已有的容量小的数组,就像用一个小桶装水,如果想装更多的水,就得换大水桶。

鉴于JDK1.8融入了红黑树,较复杂,为了便于理解仍然使用JDK1.7的代码进行分析,好理解一些,本质上区别不大。

// jdk1.7扩容
void resize(int newCapacity) {   //传入新的容量
	Entry[] oldTable = table;    //引用扩容前的Entry数组
	int oldCapacity = oldTable.length;         
	if (oldCapacity == MAXIMUM_CAPACITY) {  //扩容前的数组大小如果已经达到最大(2^30)了
		threshold = Integer.MAX_VALUE; //修改阈值为int的最大值(2^31-1),这样以后就不会扩容了
		return;
	}
 		
	Entry[] newTable = new Entry[newCapacity];  //初始化一个新的Entry数组
	transfer(newTable);                         //!!将数据转移到新的Entry数组里
	table = newTable;                           //HashMap的table属性引用新的Entry数组
	threshold = (int)(newCapacity * loadFactor);//修改阈值
}

这里就是使用一个容量更大的数组来代替已有的容量小的数组,transfer()方法将原有Entry数组的元素拷贝到新的Entry数组里。

// jdk1.7 转移
void transfer(Entry[] newTable) {
	Entry[] src = table;                   //src引用了旧的Entry数组
	int newCapacity = newTable.length;
	for (int j = 0; j < src.length; j++) { //遍历旧的Entry数组
		Entry<K,V> e = src[j];             //取得旧Entry数组的每个元素
		if (e != null) {
			src[j] = null;//释放旧Entry数组的对象引用(for循环后,旧的Entry数组不再引用任何对象)
			do {
				Entry<K,V> next = e.next;
				int i = indexFor(e.hash, newCapacity); //!!重新计算每个元素在数组中的位置
				e.next = newTable[i]; //头插法
				newTable[i] = e;      //将元素放在数组上
				e = next;             //访问下一个Entry元素
			} while (e != null);
		}
	}
}

newTable[i]的引用赋给了e.next,也就是使用了单链表的头插入方式,同一位置上新元素总会被放在链表的头部位置;这样先放在一个索引上的元素终会被放到Entry链的尾部(如果发生了hash冲突的话),这一点和Jdk1.8有区别在旧数组中同一条Entry链上的元素,通过重新计算索引位置后,有可能被放到了新数组的不同位置上。

下面举个例子说明下扩容过程。假设我们的hash算法就是简单的用key mod 一下表的大小(也就是数组的长度)。其中哈希桶数组table的长度n=2,key = 3、7、5,put顺序依次为 5、7、3。在mod 2以后都冲突在table[1]这里了。这里假设负载因子 loadFactor=1,即当要插入key=5时,且此时键值对的实际大小size 等于 table的实际大小,然后进行扩容。接下来的三个步骤是哈希桶数组 resize成4,然后key为3、7对应的Node重新计算在新数组中的位置的过程并移动,以及扩容后插入key5。(JDK7)

JDK1.8优化:

经过观测可以发现,我们使用的是2次幂的扩展(指长度扩为原来2倍),所以,元素的位置要么是在原位置,要么是在原位置再移动2次幂的位置。看下图可以明白这句话的意思,n为table的长度,图(a)表示扩容前的key1和key2两种key确定索引位置的示例,图(b)表示扩容后key1和key2两种key确定索引位置的示例,其中hash1是key1对应的哈希与高位运算结果。

因为数组长度n变为2倍,那么n-1的mask范围在高位多1bit(红色),因此元素新的index就会发生这样的变化: 因此,我们在扩充HashMap的时候,不需要像JDK1.7的实现那样重新计算元素索引位置,只需要看看原来的hash值新增的那个bit是1还是0就好了,是0的话索引没变,是1的话索引变成“原索引+oldCap”,如下图

这个设计确实非常的巧妙,既省去了重新计算元素在新数组中索引的时间,而且同时,由于新增的1bit是0还是1可以认为是随机的,因此resize的过程,均匀的把之前的冲突的节点分散到新的bucket了。这一块就是JDK1.8新增的优化点。有一点注意区别,JDK1.7中resize的时候,旧链表迁移新链表的时候,如果在新表的数组索引位置相同,则链表元素会倒置,但是从上图可以看出,JDK1.8不会倒置。JDK1.8的resize源码如下:

// JDK1.8扩容过程
final Node<K,V>[] resize() {
    Node<K,V>[] oldTab = table;
    int oldCap = (oldTab == null) ? 0 : oldTab.length; // 原容量
    int oldThr = threshold; // 原阈值
    int newCap, newThr = 0; // 新容量、新阈值
    if (oldCap > 0) {
        // 容量已超过最大值就不再扩充了,就只好随你碰撞去吧
        if (oldCap >= MAXIMUM_CAPACITY) {
            threshold = Integer.MAX_VALUE;
            return oldTab;
        }
        // 没超过最大值,就扩充为原来的2倍
        else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                 oldCap >= DEFAULT_INITIAL_CAPACITY)
            newThr = oldThr << 1; // double threshold
    }
  	// oldThr变量保存着初始容量
    else if (oldThr > 0) // initial capacity was placed in threshold
        newCap = oldThr;
    else {               // zero initial threshold signifies using defaults
      	// oldThr、oldCap都为null,表示使用默认值
        newCap = DEFAULT_INITIAL_CAPACITY;
        newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
    }
    // 计算新的阈值
    if (newThr == 0) {
        float ft = (float)newCap * loadFactor;
        newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                  (int)ft : Integer.MAX_VALUE);
    }
    threshold = newThr;
    @SuppressWarnings({"rawtypes""unchecked"})
    Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap]; // 创建新table
    table = newTab;
    if (oldTab != null) {
        // 把每个bucket中的节点都移动到新的table中
        for (int j = 0; j < oldCap; ++j) {
            Node<K,V> e;
            if ((e = oldTab[j]) != null) {
                oldTab[j] = null;
                if (e.next == null) // 当前bucket只有一个节点
                    newTab[e.hash & (newCap - 1)] = e;
                else if (e instanceof TreeNode) // 当前bucket已经是红黑树结构,直接操作红黑树
                    ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                else { // 普通链表,则将该链表分为原索引,原索引+oldCap两个位置的两条链表
                    Node<K,V> loHead = null, loTail = null;
                    Node<K,V> hiHead = null, hiTail = null;
                    Node<K,V> next;
                    do {
                        next = e.next;
                        // 原索引
                        if ((e.hash & oldCap) == 0) {
                            if (loTail == null)
                                loHead = e;
                            else
                                loTail.next = e;
                            loTail = e;
                        }
                        // 原索引+oldCap
                        else {
                            if (hiTail == null)
                                hiHead = e;
                            else
                                hiTail.next = e;
                            hiTail = e;
                        }
                    } while ((e = next) != null);
                    // 原索引放到bucket里,节点相对位置不变
                    if (loTail != null) {
                        loTail.next = null;
                        newTab[j] = loHead;
                    }
                    // 原索引+oldCap放到bucket里,节点相对位置不变
                    if (hiTail != null) {
                        hiTail.next = null;
                        newTab[j + oldCap] = hiHead;
                    }
                }
            }
        }
    }
    return newTab;
}

三、HashMap在JDK8与JDK7中实现的不同点

  • 存储结构:JDK8中使用了数组+链表+红黑树的形式,JDK7中为数组+链表,无红黑树;
  • put方法:JDK8添加新元素是添加到链表尾部,JDK7是头插法;
  • resize:
    • JDK7:需要重新计算元素在新数组中的位置,并且原来在同一数组索引中的元素,若扩容后仍然在同一索引处,相对位置会颠倒(头插法);
    • JDK8:不需要重新计算元素在新数组中的索引,并且原来在同一数组索引中的元素,若扩容后仍然在同一数组索引处,相对位置不变。

四、为什么JDK8中链表转为红黑树的阈值是8

源码说明(Implementation notes.):

TreeNodes占用空间是普通Nodes的两倍,所以只有当bin包含足够多的节点时才会转成TreeNodes,而是否足够多就是由TREEIFY_THRESHOLD的值决定的。当bin中节点数变少时,又会转成普通的bin。并且我们查看源码的时候发现,链表长度达到8就转成红黑树,当长度降到6就转成普通bin。

这就解析了为什么不是一开始就将其转换为TreeNodes,而是需要一定节点数才转为TreeNodes,就是trade-off,空间和时间的权衡:

Because TreeNodes are about twice the size of regular nodes, we
use them only when bins contain enough nodes to warrant use
(see TREEIFY_THRESHOLD). And when they become too small (due to
removal or resizing) they are converted back to plain bins.  In
usages with well-distributed user hashCodes, tree bins are
rarely used.  Ideally, under random hashCodes, the frequency of
nodes in bins follows a Poisson distribution
(http://en.wikipedia.org/wiki/Poisson_distribution) with a
parameter of about 0.5 on average for the default resizing
threshold of 0.75, although with a large variance because of
resizing granularity. Ignoring variance, the expected
occurrences of list size k are (exp(-0.5) * pow(0.5, k) /
factorial(k)). The first values are:
0:    0.60653066
1:    0.30326533
2:    0.07581633
3:    0.01263606
4:    0.00157952
5:    0.00015795
6:    0.00001316
7:    0.00000094
8:    0.00000006
more: less than 1 in ten million

这段内容说到:当hashCode离散性很好的时候,树型bin用到的概率非常小,因为数据均匀分布在每个bin中,几乎不会有bin中链表长度会达到阈值。但是在随机hashCode下,离散性可能会变差,然而JDK又不能阻止用户实现这种不好的hash算法,因此就可能导致不均匀的数据分布。不过理想情况下随机hashCode算法下所有bin中节点的分布频率会遵循泊松分布,可以看到,一个bin中链表长度达到8个元素的概率为0.00000006,几乎是不可能事件。所以之所以选择8,是根据概率统计决定的。

五、HashMap的死循环问题

由于HashMap并非是线程安全的,所以在高并发的情况下必然会出现问题,这是一个普遍的问题。如果是在单线程下使用HashMap,是没有问题的,如果后期由于代码优化,这段逻辑引入了多线程并发执行,在一个未知的时间点,会发现CPU占用100%,居高不下,通过查看堆栈,会惊讶的发现,线程都Hang在hashMap的get()方法上,服务重启之后,问题消失,过段时间可能又复现了。

案例分析(以JDK7为例)

假设HashMap初始化大小为4,插入个3节点,不巧的是,这3个节点都hash到同一个位置,使用默认的负载因子0.75。即当插入第4个节点时,需要扩容。

void transfer(Entry[] newTable, boolean rehash) {
    int newCapacity = newTable.length;
    for (Entry<K,V> e : table) {
        while(null != e) {
            Entry<K,V> next = e.next;
            if (rehash) {
                e.hash = null == e.key ? 0 : hash(e.key);
            }
            int i = indexFor(e.hash, newCapacity);
            e.next = newTable[i];
            newTable[i] = e;
            e = next;
        }
    }
}

以上是节点移动的相关逻辑。

插入第4个节点时,发生rehash(扩容),假设现在有两个线程同时进行,线程1和线程2,两个线程都会新建新的数组。

假设 线程2 在执行到Entry<K,V> next = e.next;之后,cpu时间片用完了,这时变量e指向节点a,变量next指向节点b。

线程1继续执行,很不巧,a、b、c节点rehash之后又是在同一个位置7,开始移动节点

第一步,移动节点a

第二步,移动节点b

注意,这里的顺序是反过来的,继续移动节点c

这个时候 线程1 的时间片用完,内部的table还没有设置成新的newTable, 线程2 开始执行,这时内部的引用关系如下:

这时,在 线程2 中,变量e指向节点a,变量next指向节点b,开始执行循环体的剩余逻辑。

Entry<K,V> next = e.next;
int i = indexFor(e.hash, newCapacity);
e.next = newTable[i];
newTable[i] = e;
e = next;

执行之后的引用关系如下图

执行后,变量e指向节点b,因为e不是null,则继续执行循环体,执行后的引用关系

变量e又重新指回节点a,只能继续执行循环体,这里仔细分析下: 1、执行完Entry<K,V> next = e.next;,目前节点a没有next,所以变量next指向null; 2、e.next = newTable[i]; 其中 newTable[i] 指向节点b,那就是把a的next指向了节点b,这样a和b就相互引用了,形成了一个环; 3、newTable[i] = e 把节点a放到了数组i位置; 4、e = next; 把变量e赋值为null,因为第一步中变量next就是指向null;

所以最终的引用关系是这样的:

节点a和b互相引用,形成了一个环,当在数组该位置get寻找对应的key时,就发生了死循环。

另外,如果线程2把newTable设置成内部的table,节点c的数据就丢了,因此还有数据遗失的问题

总结

所以在并发的情况,发生扩容时,可能会产生循环链表,在执行get的时候,会触发死循环,引起CPU的100%问题,所以一定要避免在并发环境下使用HashMap,要并发就用ConcurrentHashmap。

参考文章