注:此文针对jdk1.8下的源码进行分析,不同jdk版本下的HashMap会略有不同
背景介绍
哈希表的实现主要分为两大类:开放寻址法和拉链法。
而在Java源码中,HashMap的实现可归为拉链法这一大类中。
本文将依照Java源码,将jdk1.8实现的HashMap的种种细节进行分析。
源码分析
/**
* The default initial capacity - MUST be a power of two.
*/
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16
/**
* The maximum capacity, used if a higher value is implicitly specified
* by either of the constructors with arguments.
* MUST be a power of two <= 1<<30.
*/
static final int MAXIMUM_CAPACITY = 1 << 30;
/**
* The load factor used when none specified in constructor.
*/
static final float DEFAULT_LOAD_FACTOR = 0.75f;
/**
* The bin count threshold for using a tree rather than list for a
* bin. Bins are converted to trees when adding an element to a
* bin with at least this many nodes. The value must be greater
* than 2 and should be at least 8 to mesh with assumptions in
* tree removal about conversion back to plain bins upon
* shrinkage.
*/
static final int TREEIFY_THRESHOLD = 8;
/**
* The bin count threshold for untreeifying a (split) bin during a
* resize operation. Should be less than TREEIFY_THRESHOLD, and at
* most 6 to mesh with shrinkage detection under removal.
*/
static final int UNTREEIFY_THRESHOLD = 6;
/**
* The smallest table capacity for which bins may be treeified.
* (Otherwise the table is resized if too many nodes in a bin.)
* Should be at least 4 * TREEIFY_THRESHOLD to avoid conflicts
* between resizing and treeification thresholds.
*/
static final int MIN_TREEIFY_CAPACITY = 64;
/**
* Basic hash bin node, used for most entries. (See below for
* TreeNode subclass, and in LinkedHashMap for its Entry subclass.)
*/
在这段源码中涉及到了6个变量
DEFAULT_INITIAL_CAPACITY
- 变量含义:默认初始化容量
- 变量值:16
如果HashMap初始时未指定容量
HashMap<Integer, Integer> map = new HashMap<>();
那么该map的容量会被初始化为16
需要注意的是,建议在构造HashMap时对其指定大小,如果指定大小不为2的整数次幂的话,会通过函数变为比这个值大的2的整数次幂
MAXIMUM_CAPACITY
- 变量含义:最大容量
- 变量值:1 << 30
HashMap的最大容量不能超过1 << 30
DEFAULT_LOAD_FACTOR
- 变量含义:扩容加载因子
- 变量值:0.75f
当HashMap构造时并没有指定容量并且此时的元素个数已达到容量的0.75倍时,HashMap会进行扩容
TREEIFY_THRESHOLD、UNTREEIFY_THRESHOLD、MIN_TREEIFY_CAPACITY
这三个变量需要一起介绍,因为他们都牵扯到Java HashMap的底层实现。
正如上文所说,Java的HashMap可归为拉链法这一大类,但它的设计远不止普通的拉链法那么简单,而是十分精妙。
最朴素的拉链法是指在哈希表发生哈希冲突的时候,将Node[]数组中冲突的Node后连接一个链表,使其形如
图中展示的为Node[1]在遭遇哈希冲突时的处理,它会向Node[1]节点下延伸出一条链表
可能聪明的读者看到这里会有疑问了,如果发生大量的哈希冲突,是不是所有节点都会变成一条很长的链表,那如此一来,查询效率岂不是会大大降低?
正是考虑到了这个原因,Java在设计HashMap时对这种朴素的拉链法做了改进,当这条链表变得很长时,它会进化为红黑树,而TREEIFY_THRESHOLD、UNTREEIFY_THRESHOLD、MIN_TREEIFY_CAPACITY这三个变量正是控制红黑树和链表之间的转换。
TREEIFY_THRESHOLD的值为8,代表当链表长度大于8时,这条链表将会变为红黑树
UNTREEIFY_THRESHOLD的值为6,代表红黑树中的节点小于等于6时,它会重新变回链表
MIN_TREEIFY_CAPACITY的值为64,代表当发生哈希冲突且哈希表的容量小于64时,它首先会选择扩容,而不是直接采取拉链法。
总结
HashMap中的实现决定了它的取与存的效率都极高,其时间复杂度可被认为是O(1),当需要Key-Value形式的存储且key唯一时,采用HashMap无疑是极佳的选择。