A. HashMap是什麼東西
HashMap,中文名哈希映射,HashMap是一個用於存儲Key-Value鍵值對的集合,每一個鍵值對也叫做Entry。這些個鍵值對(Entry)分散存儲在一個數組當中,這個數組就是HashMap的主幹。HashMap數組每一個元素的初始值都是Null。
HashMap是基於哈希表的 Map 介面的實現。此實現提供所有可選的映射操作,並允許使用 null 值和 null 鍵。(除了非同步和允許使用 null 之外,HashMap 類與 Hashtable 大致相同。)此類不保證映射的順序,特別是它不保證該順序恆久不變。
(1)hashmap源碼設計目標擴展閱讀:
因為HashMap的長度是有限的,當插入的Entry越來越多時,再完美的Hash函數也難免會出現index沖突的情況。
HashMap數組的每一個元素不止是一個Entry對象,也是一個鏈表的頭節點。每一個Entry對象通過Next指針指向它的下一個Entry節點。當新來的Entry映射到沖突的數組位置時,只需要插入到對應的鏈表即可。
B. 深入淺出的分析 Set集合
Set集合的特點主要有:元素不重復、存儲無序的特點。
打開 Set 集合,主要實現類有 HashSet、LinkedHashSet 、TreeSet 、EnumSet( RegularEnumSet、JumboEnumSet )等等,總結 Set 介面實現類,圖如下:
由圖中的繼承關系,可以知道,Set 介面主要實現類有 AbstractSet、HashSet、LinkedHashSet 、TreeSet 、EnumSet( RegularEnumSet、JumboEnumSet ),其中 AbstractSet、EnumSet 屬於抽象類,EnumSet 是在 jdk1.5 中新增的,不同的是 EnumSet 集合元素必須是枚舉類型。
HashSet 是一個輸入輸出無序的集合,集合中的元素基於 HashMap 的 key 實現,元素不可重復;
LinkedHashSet 是一個輸入輸出有序的集合,集合中的元素基於 LinkedHashMap 的 key 實現,元素也不可重復;
TreeSet 是一個排序的集合,集合中的元素基於 TreeMap 的 key 實現,同樣元素不可重復;
EnumSet 是一個與枚舉類型一起使用的專用 Set 集合,其中 RegularEnumSet 和 JumboEnumSet 不能單獨實例化,只能由 EnumSet 來生成,同樣元素不可重復;
下面咱們來對各個主要實現類進行一一分析!
HashSet 是一個輸入輸出無序的集合,底層基於 HashMap 來實現,HashSet 利用 HashMap 中的key元素來存放元素,這一點我們可以從源碼上看出來,閱讀源碼如下:
public class HashSet<E>
extends AbstractSet<E>
implements Set<E>, Cloneable, java.io.Serializable{
}
打開HashSet的add()方法,源碼如下:
public boolean add(E e) {
//向 HashMap 中添加元素
return map.put(e, PRESENT)==null;
}
其中變數PRESENT,是一個非空對象,源碼部分如下:
private static final Object PRESENT = new Object();
可以分析出,當進行add()的時候,等價於
HashMap map = new HashMap<>();
map.put(e, new Object());//e 表示要添加的元素
在之前的集合文章中,咱們了解到 HashMap 在添加元素的時候 ,通過equals()和hashCode()方法來判斷傳入的key是否相同,如果相同,那麼 HashMap 認為添加的是同一個元素,反之,則不是。
從源碼分析上可以看出,HashSet 正是使用了 HashMap 的這一特性,實現存儲元素下標無序、元素不會重復的特點。
HashSet 的刪除方法,同樣如此,也是基於 HashMap 的底層實現,源碼如下:
public boolean remove(Object o) {
//調用HashMap 的remove方法,移除元素
return map.remove(o)==PRESENT;
}
HashSet 沒有像 List、Map 那樣提供 get 方法,而是使用迭代器或者 for 循環來遍歷元素,方法如下:
public static void main(String[] args) {
Set<String> hashSet = new HashSet<String>();
System.out.println("HashSet初始容量大小:"+hashSet.size());
hashSet.add("1");
hashSet.add("2");
hashSet.add("3");
hashSet.add("3");
hashSet.add("2");
hashSet.add(null);
}
輸出結果:
HashSet初始容量大小:0
HashSet容量大小:4
null,1,2,3,
===========
null,1,2,3,
需要注意的是,HashSet 允許添加為null的元素。
LinkedHashSet 是一個輸入輸出有序的集合,繼承自 HashSet,但是底層基於 LinkedHashMap 來實現。
如果你之前了解過 LinkedHashMap,那麼你一定知道,它也繼承自 HashMap,唯一有區別的是,LinkedHashMap 底層數據結構基於循環鏈表實現,並且數組指定了頭部和尾部,雖然數組的下標存儲無序,但是卻可以通過數組的頭部和尾部,加上循環鏈表,依次可以查詢到元素存儲的過程,從而做到輸入輸出有序的特點。
如果還不了解 LinkedHashMap 的實現過程,可以參閱集合系列中關於 LinkedHashMap 的實現過程文章。
閱讀 LinkedHashSet 的源碼,類定義如下:
public class LinkedHashSet<E>
extends HashSet<E>
implements Set<E>, Cloneable, java.io.Serializable {
}
查詢源碼,super調用的方法,源碼如下:
HashSet(int initialCapacity, float loadFactor, boolean mmy) {
//初始化一個 LinkedHashMap
map = new LinkedHashMap<>(initialCapacity, loadFactor);
}
LinkedHshSet沒有重寫add方法,而是直接調用HashSet的add()方法,因為map的實現類是LinkedHashMap,所以此處是向LinkedHashMap中添加元素,當進行add()的時候,等價於
HashMap map = new LinkedHashMap<>();
map.put(e, new Object());//e 表示要添加的元素
LinkedHashSet也沒有重寫remove方法,而是直接調用HashSet的刪除方法,因為LinkedHashMap沒有重寫remove方法,所以調用的也是HashMap的remove方法,源碼如下:
public boolean remove(Object o) {
//調用HashMap 的remove方法,移除元素
return map.remove(o)==PRESENT;
}
同樣的,LinkedHashSet 沒有提供 get 方法,使用迭代器或者 for 循環來遍歷元素,方法如下:
public static void main(String[] args) {
Set<String> linkedHashSet = new LinkedHashSet<String>();
System.out.println("linkedHashSet初始容量大小:"+linkedHashSet.size());
linkedHashSet.add("1");
linkedHashSet.add("2");
linkedHashSet.add("3");
linkedHashSet.add("3");
linkedHashSet.add("2");
linkedHashSet.add(null);
linkedHashSet.add(null);
}
輸出結果:
linkedHashSet初始容量大小:0
linkedHashSet容量大小:4
1,2,3,null,
===========
1,2,3,null,
可見,LinkedHashSet 與 HashSet 相比,LinkedHashSet 輸入輸出有序。
TreeSet 是一個排序的集合,實現了NavigableSet、SortedSet、Set介面,底層基於 TreeMap 來實現。TreeSet 利用 TreeMap 中的key元素來存放元素,這一點我們也可以從源碼上看出來,閱讀源碼,類定義如下:
public class TreeSet<E> extends AbstractSet<E>
implements NavigableSet<E>, Cloneable, java.io.Serializable {
}
new TreeSet<>()對象實例化的時候,表達的意思,可以簡化為如下:
NavigableMap<E,Object> m = new TreeMap<E,Object>();
因為TreeMap實現了NavigableMap介面,所以沒啥問題。
public class TreeMap<K,V>
extends AbstractMap<K,V>
implements NavigableMap<K,V>, Cloneable, java.io.Serializable{
......
}
打開TreeSet的add()方法,源碼如下:
public boolean add(E e) {
//向 TreeMap 中添加元素
return m.put(e, PRESENT)==null;
}
其中變數PRESENT,也是是一個非空對象,源碼部分如下:
private static final Object PRESENT = new Object();
可以分析出,當進行add()的時候,等價於
TreeMap map = new TreeMap<>();
map.put(e, new Object());//e 表示要添加的元素
TreeMap 類主要功能在於,給添加的集合元素,按照一個的規則進行了排序,默認以自然順序進行排序,當然也可以自定義排序,比如測試方法如下:
public static void main(String[] args) {
Map initMap = new TreeMap();
initMap.put("4", "d");
initMap.put("3", "c");
initMap.put("1", "a");
initMap.put("2", "b");
//默認自然排序,key為升序
System.out.println("默認 排序結果:" + initMap.toString());
//自定義排序,在TreeMap初始化階段傳入Comparator 內部對象
Map comparatorMap = new TreeMap<String, String>(new Comparator<String>() {
@Override
public int compare(String o1, String o2){
//根據key比較大小,採用倒敘,以大到小排序
return o2.compareTo(o1);
}
});
comparatorMap.put("4", "d");
comparatorMap.put("3", "c");
comparatorMap.put("1", "a");
comparatorMap.put("2", "b");
System.out.println("自定義 排序結果:" + comparatorMap.toString());
}
輸出結果:
默認 排序結果:{1=a, 2=b, 3=c, 4=d}
自定義 排序結果:{4=d, 3=c, 2=b, 1=a}
相信使用過TreeMap的朋友,一定知道TreeMap會自動將key按照一定規則進行排序,TreeSet正是使用了TreeMap這種特性,來實現添加的元素集合,在輸出的時候,其結果是已經排序好的。
如果您沒看過源碼TreeMap的實現過程,可以參閱集合系列文章中TreeMap的實現過程介紹,或者閱讀 jdk 源碼。
TreeSet 的刪除方法,同樣如此,也是基於 TreeMap 的底層實現,源碼如下:
public boolean remove(Object o) {
//調用TreeMap 的remove方法,移除元素
return m.remove(o)==PRESENT;
}
TreeSet 沒有重寫 get 方法,而是使用迭代器或者 for 循環來遍歷元素,方法如下:
public static void main(String[] args) {
Set<String> treeSet = new TreeSet<>();
System.out.println("treeSet初始容量大小:"+treeSet.size());
treeSet.add("1");
treeSet.add("4");
treeSet.add("3");
treeSet.add("8");
treeSet.add("5");
}
輸出結果:
treeSet初始容量大小:0
treeSet容量大小:5
1,3,4,5,8,
===========
1,3,4,5,8,
使用自定義排序,有 2 種方法,第一種在需要添加的元素類,實現Comparable介面,重寫compareTo方法來實現對元素進行比較,實現自定義排序。
/**
創建一個Person實體類,實現Comparable介面,重寫compareTo方法,通過變數age實現自定義排序 測試方法如下:
public static void main(String[] args) {
Set<Person> treeSet = new TreeSet<>();
System.out.println("treeSet初始容量大小:"+treeSet.size());
treeSet.add(new Person("李一",18));
treeSet.add(new Person("李二",17));
treeSet.add(new Person("李三",19));
treeSet.add(new Person("李四",21));
treeSet.add(new Person("李五",20));
}
輸出結果:
treeSet初始容量大小:0
treeSet容量大小:5
按照年齡從小到大,自定義排序結果:
李二:17,李一:18,李三:19,李五:20,李四:21,
第二種方法是在TreeSet初始化階段,Person不用實現Comparable介面,將Comparator介面以內部類的形式作為參數,初始化進去,方法如下:
public static void main(String[] args) {
//自定義排序
Set<Person> treeSet = new TreeSet<>(new Comparator<Person>(){
@Override
public int compare(Person o1, Person o2) {
if(o1 == null || o2 == null){
//不用比較
return 0;
}
//從小到大進行排序
return o1.getAge() - o2.getAge();
}
});
System.out.println("treeSet初始容量大小:"+treeSet.size());
treeSet.add(new Person("李一",18));
treeSet.add(new Person("李二",17));
treeSet.add(new Person("李三",19));
treeSet.add(new Person("李四",21));
treeSet.add(new Person("李五",20));
}
輸出結果:
treeSet初始容量大小:0
treeSet容量大小:5
按照年齡從小到大,自定義排序結果:
李二:17,李一:18,李三:19,李五:20,李四:21,
需要注意的是,TreeSet不能添加為空的元素,否則會報空指針錯誤!
EnumSet 是一個與枚舉類型一起使用的專用 Set 集合,繼承自AbstractSet抽象類。與 HashSet、LinkedHashSet 、TreeSet 不同的是,EnumSet 元素必須是Enum的類型,並且所有元素都必須來自同一個枚舉類型,EnumSet 定義源碼如下:
public abstract class EnumSet<E extends Enum<E>> extends AbstractSet<E>
implements Cloneable, java.io.Serializable {
......
}
EnumSet是一個虛類,不能直接通過實例化來獲取對象,只能通過它提供的靜態方法來返回EnumSet實現類的實例。
EnumSet的實現類有兩個,分別是RegularEnumSet、JumboEnumSet兩個類,兩個實現類都繼承自EnumSet。
EnumSet會根據枚舉類型中元素的個數,來決定是返回哪一個實現類,當 EnumSet元素中的元素個數小於或者等於64,就會返回RegularEnumSet實例;當EnumSet元素個數大於64,就會返回JumboEnumSet實例。
這一點,我們可以從源碼中看出,源碼如下:
public static <E extends Enum<E>> EnumSet<E> noneOf(Class<E> elementType) {
Enum<?>[] universe = getUniverse(elementType);
if (universe == null)
throw new ClassCastException(elementType + " not an enum");
//當元素個數小於或者等於 64 的時候,返回 RegularEnumSet
if (universe.length <= 64)
return new RegularEnumSet<>(elementType, universe);
else
//大於64,返回 JumboEnumSet
return new JumboEnumSet<>(elementType, universe);
}
noneOf是EnumSet中一個靜態方法,用於判斷是返回哪一個實現類。
我們來看看當元素個數小於等於64的時候,使用RegularEnumSet的類,源碼如下:
class RegularEnumSet<E extends Enum<E>> extends EnumSet<E> {
}
RegularEnumSet 通過二進制運算得到結果,直接使用long來存放元素。
我們再來看看當元素個數大於64的時候,使用JumboEnumSet的類,源碼如下:
class JumboEnumSet<E extends Enum<E>> extends EnumSet<E> {
}
JumboEnumSet 也是通過二進制運算得到結果,使用long來存放元素,但是它是使用數組來存放元素。
二者相比,RegularEnumSet 效率比 JumboEnumSet 高些,因為操作步驟少,大多數情況下返回的是 RegularEnumSet,只有當枚舉元素個數超過 64 的時候,會使用 JumboEnumSet。
添加元素:
//新建一個EnumEntity的枚舉類型,定義2個參數
public enum EnumEntity {
WOMAN,MAN;
}
創建一個空的 EnumSet:
//創建一個 EnumSet,內容為空
EnumSet<EnumEntity> noneSet = EnumSet.noneOf(EnumEntity.class);
System.out.println(noneSet);
輸出結果:
[]
創建一個 EnumSet,並將枚舉類型的元素全部添加進去:
//創建一個 EnumSet,將EnumEntity 元素內容添加到EnumSet中
EnumSet<EnumEntity> allSet = EnumSet.allOf(EnumEntity.class);
System.out.println(allSet);
輸出結果:
[WOMAN, MAN]
創建一個 EnumSet,添加指定的枚舉元素:
//創建一個 EnumSet,添加 WOMAN 到 EnumSet 中
EnumSet<EnumEntity> customSet = EnumSet.of(EnumEntity.WOMAN);
System.out.println(customSet);
查詢元素
EnumSet與HashSet、LinkedHashSet、TreeSet一樣,通過迭代器或者 for 循環來遍歷元素,方法如下:
EnumSet<EnumEntity> allSet = EnumSet.allOf(EnumEntity.class);
for (EnumEntity enumEntity : allSet) {
System.out.print(enumEntity + ",");
}
輸出結果:
WOMAN,MAN,
HashSet 是一個輸入輸出無序的 Set 集合,元素不重復,底層基於 HashMap 的 key 來實現,元素可以為空,如果添加的元素為對象,對象需要重寫 equals() 和 hashCode() 方法來約束是否為相同的元素。
LinkedHashSet 是一個輸入輸出有序的 Set 集合,繼承自 HashSet,元素不重復,底層基於 LinkedHashMap 的 key來實現,元素也可以為空,LinkedHashMap 使用循環鏈表結構來保證輸入輸出有序。
TreeSet 是一個排序的 Set 集合,元素不可重復,底層基於 TreeMap 的 key來實現,元素不可以為空,默認按照自然排序來存放元素,也可以使用 Comparable 和 Comparator 介面來比較大小,實現自定義排序。
EnumSet 是一個與枚舉類型搭配使用的專用 Set 集合,在 jdk1.5 中加入。EnumSet 是一個虛類,有2個實現類 RegularEnumSet、JumboEnumSet,不能顯式的實例化改類,EnumSet 會動態決定使用哪一個實現類,當元素個數小於等於64的時候,使用 RegularEnumSet;大於 64的時候,使用JumboEnumSet類,EnumSet 其內部使用位向量實現,擁有極高的時間和空間性能,如果元素是枚舉類型,推薦使用 EnumSet。
1、JDK1.7&JDK1.8 源碼
2、程序園 - java集合-EnumMap與EnumSet
3、 Java極客技術 - https://blog.csdn.net/javageektech/article/details/103077788
C. HashMap擴容機制
之前寫過一篇專門介紹HashMap的文章,反響很不錯,不過在留言區問得最多的問題就是HashMap的負載因子初始值為什麼是0.75,私下又好好地研究了一番,總結了這篇文章。
本篇文章基於JDK1.8,特在此說明。
OK。下面我們就開始進行分析。
HashMap源碼分析(jdk1.8,保你能看懂)
一、負載因子的作用
對於HashMap的研究,我之前一直停留在考慮源碼是如何實現的,現在當我重新再來看的時候,才發現,系統默認的各種參數值,才是HashMap的精華所在。
負載因子是和擴容機制有關的,意思是如果當前容器的容量,達到了我們設定的最大值,就要開始執行擴容操作。舉個例子來解釋,避免小白聽不懂:
比如說當前的容器容量是16,負載因子是0.75,16*0.75=12,也就是說,當容量達到了12的時候就會進行擴容操作。
他的作用很簡單,相當於是一個擴容機制的閾值。當超過了這個閾值,就會觸發擴容機制。HashMap源碼已經為我們默認指定了負載因子是0.75。
我截取了部分源碼,從這里可以看出,系統默認的負載因子值就是0.75,而且我們還可以在構造方法中去指定。下面我們就正式來分析一下為什麼是默認的0.75。
二、原因解釋(重點)
我們在考慮HashMap的時候,首先要想到的是HashMap只是一個數據結構,既然是數據結構最主要的就是節省時間和空間。負載因子的作用肯定也是節省時間和空間。為什麼節省呢?我們考慮兩種極端情況。
1、負載因子是1.0
我們先看HashMap的底層數據結構
我們的數據一開始是保存在數組裡面的,當發生了Hash碰撞的時候,就是在這個數據節點上,生出一個鏈表,當鏈表長度達到一定長度的時候,就會把鏈表轉化為紅黑樹。
當負載因子是1.0的時候,也就意味著,只有當數組的8個值(這個圖表示了8個)全部填充了,才會發生擴容。這就帶來了很大的問題,因為Hash沖突時避免不了的。當負載因子是1.0的時候,意味著會出現大量的Hash的沖突,底層的紅黑樹變得異常復雜。對於查詢效率極其不利。這種情況就是犧牲了時間來保證空間的利用率。
因此一句話總結就是負載因子過大,雖然空間利用率上去了,但是時間效率降低了。
2、負載因子是0.5
負載因子是0.5的時候,這也就意味著,當數組中的元素達到了一半就開始擴容,既然填充的元素少了,Hash沖突也會減少,那麼底層的鏈表長度或者是紅黑樹的高度就會降低。查詢效率就會增加。
但是,兄弟們,這時候空間利用率就會大大的降低,原本存儲1M的數據,現在就意味著需要2M的空間。
一句話總結就是負載因子太小,雖然時間效率提升了,但是空間利用率降低了。
3、負載因子0.75
經過前面的分析,基本上為什麼是0.75的答案也就出來了,這是時間和空間的權衡。當然這個答案不是我自己想出來的。答案就在源碼上,我們可以看看:
大致意思就是說負載因子是0.75的時候,空間利用率比較高,而且避免了相當多的Hash沖突,使得底層的鏈表或者是紅黑樹的高度比較低,提升了空間效率。
OK,寫到這答案基本上就出來了,一句話能總結的寫成了一篇文章。如有問題,還請批評指正。