文章詳情頁

詳解Java分布式系統(tǒng)中一致性哈希算法

瀏覽：25日期：2022-08-13 18:47:05

業(yè)務場景

近年來B2C、O2O等商業(yè)概念的提出和移動端的發(fā)展，使得分布式系統(tǒng)流行了起來。分布式系統(tǒng)相對于單系統(tǒng)，解決了流量大、系統(tǒng)高可用和高容錯等問題。功能強大也意味著實現(xiàn)起來需要更多技術的支持。例如系統(tǒng)訪問層的負載均衡，緩存層的多實例主從復制備份，數(shù)據層的分庫分表等。

我們以負載均衡為例，常見的負載均衡方法有很多，但是它們的優(yōu)缺點也都很明顯：

隨機訪問策略。系統(tǒng)隨機訪問，缺點：可能造成服務器負載壓力不均衡，俗話講就是撐的撐死，餓的餓死。輪詢策略。請求均勻分配，如果服務器有性能差異，則無法實現(xiàn)性能好的服務器能夠多承擔一部分。權重輪詢策略。權值需要靜態(tài)配置，無法自動調節(jié)，不適合對長連接和命中率有要求的場景。 Hash取模策略。不穩(wěn)定，如果列表中某臺服務器宕機，則會導致路由算法產生變化，由此導致命中率的急劇下降。一致性哈希策略。

以上幾個策略，排除本篇介紹的一致性哈希，可能使用最多的就是 Hash取模策略了。Hash取模策略的缺點也是很明顯的，這種缺點也許在負載均衡的時候不是很明顯，但是在涉及數(shù)據訪問的主從備份和分庫分表中就體現(xiàn)明顯了。

使用Hash取模的問題1.負載均衡

負載均衡時，假設現(xiàn)有3臺服務器(編號分別為0、1、2)，使用哈希取模的計算方式則是：對訪問者的IP，通過固定算式hash(IP) % N（N為服務器的個數(shù)），使得每個IP都可以定位到特定的服務器。

例如現(xiàn)有IP地址 10.58.34.31，對IP哈希取模策時，計算結果為2，即訪問編號為2的服務器：

String ip = '10.58.34.31';int v1 = hash(ip) % 3;System.out.println('訪問服務器：' + v1);// 訪問服務器：2

如果此時服務器2宕機了，則會導致所有計算結果為2的 IP 對應的用戶都訪問異常（包括上例中的IP）。或者你新增了一臺服務器3，這時不修改N值的話那么服務器3永遠不會被訪問到。

詳解Java分布式系統(tǒng)中一致性哈希算法

當然如果你能動態(tài)獲取到當前可用服務器的個數(shù)，亦即N值是根據當前可用服務器個數(shù)動態(tài)來變化的，則可解決此問題。但是對于類似要在特定地區(qū)或特定IP來訪問特定服務器的這種需求就會造成訪問偏差。

2.分庫分表

負載均衡中有這種問題，那么分庫分表中同樣也有這樣的問題。例如隨著業(yè)務的飛速增長，我們的注冊用戶也越來越多，單個用戶表數(shù)量已經達到千萬級甚至更大。由于Mysql的單表建議百萬級數(shù)據存儲，所以這時為了保證系統(tǒng)查詢和運行效率，肯定會考慮到分庫分表。

對于分庫分表，數(shù)據的分配是個重要的問題，你需要保證數(shù)據分配在這個服務器，那么在查詢時也需要到該服務器上來查詢，否則會造成數(shù)據查詢丟失的問題。

通常是根據用戶的 ID 哈希取模得到的值然后路由到對應的存儲位置，計算公式為：hash(userId) % N，其中N為分庫或分表的個數(shù)。

例如分庫數(shù)為2時，計算結果為1，則ID為1010的用戶存儲在編號為1對應的庫中：

String userId = '1010';int v1 = hash(userId) % 2;System.out.println('存儲：' + v1);// 存儲：1

詳解Java分布式系統(tǒng)中一致性哈希算法

之后業(yè)務數(shù)量持續(xù)增長，又新增一臺用戶服務庫，當我們根據ID=1010去查詢數(shù)據時，路由計算方式為：

int v2 = hash(userId) % 3;System.out.println('存儲：' + v2);// 存儲：0

我們得到的路由值是0，最后的結果就不用說了，存在編號1上的數(shù)據我們去編號為0的庫上去查詢肯定是得不到查詢結果的。

詳解Java分布式系統(tǒng)中一致性哈希算法

為了數(shù)據可用，你需要做數(shù)據遷移，按照新的路由規(guī)則對所有用戶重新分配存儲地址。每次的庫或表的數(shù)量改變你都需要做一次全部用戶信息數(shù)據的遷移。不用想這其中的工作量是有多費時費力了。

是否有某種方法，有效解決這種分布式存儲結構下動態(tài)增加或刪除節(jié)點所帶來的問題，能保證這種不受實例數(shù)量變化影響而準確路由到正確的實例上的算法或實現(xiàn)機制呢？解決這些問題，一致性哈希算法誕生了。

基本思想原理

一致性哈希算法在1997年由麻省理工學院的Karger等人在解決分布式Cache中提出的，設計目標是為了解決因特網中的熱點(Hot spot)問題，初衷和CARP十分類似。一致性哈希修正了CARP使用的簡單哈希算法帶來的問題，使得DHT可以在P2P環(huán)境中真正得到應用。

上面說的哈希取模方法，它是針對一個點的，業(yè)務布局嚴重依賴于這個計算的點值結果。你結算的結果是2，那么就對應到編號為2的服務器上。這樣的映射就造成了業(yè)務容錯性和可擴展性極低。

我們思考下，是否可以將這個計算結果的點值賦予范圍的意義？我們知道Hash取模之后得到的是一個 int 型的整值。

//Objects 類中默認的 hash 方法 public static int hash(Object... values) { return Arrays.hashCode(values);}

既然 hash的計算結果是 int 類型，而 java 中 int 的最小值是-2^31，最大值是2^31-1。意味著任何通過哈希取模之后的無符號值都會在 0 ~ 2^31-1范圍之間，共2^32個數(shù)。那我們是否可以不對服務器的數(shù)量進行取模而是直接對2^32取模。這就形成了一致性哈希的基本算法思想，什么意思呢？

這里需要注意一點：

默認的 hash 方法結果是有負值的情況，因此需要我們重寫hash方法，保證哈希值的非負性。

簡單來說，一致性Hash算法將整個哈希值空間組織成一個虛擬的圓環(huán)，如假設某哈希函數(shù) H 的值空間為 0 ~ 2^32-1（即哈希值是一個32位無符號整形），整個哈希環(huán)如下：

詳解Java分布式系統(tǒng)中一致性哈希算法

整個空間圓按順時針方向布局，圓環(huán)的正上方的點代表0，0點右側的第一個點代表1。以此類推2、3、4、5、6……直到232-1，也就是說0點左側的第一個點代表232-1， 0和2^32-1在零點中方向重合，我們把這個由2^32個點組成的圓環(huán)稱為 Hash環(huán)。

那么，一致性哈希算法與上圖中的圓環(huán)有什么關系呢？仍然以之前描述的場景為例，假設我們有4臺服務器，服務器0、服務器1、服務器2，服務器3，那么，在生產環(huán)境中，這4臺服務器肯定有自己的 IP 地址或主機名，我們使用它們各自的 IP 地址或主機名作為關鍵字進行哈希計算，使用哈希后的結果對2^32取模，可以使用如下公式示意：

hash（服務器的IP地址） % 2^32

最后會得到一個 [0, 2^32-1]之間的一個無符號整形數(shù)，這個整數(shù)就代表服務器的編號。同時這個整數(shù)肯定處于[0, 2^32-1]之間，那么，上圖中的 hash 環(huán)上必定有一個點與這個整數(shù)對應。那么這個服務器就可以映射到這個環(huán)上。

多個服務器都通過這種方式進行計算，最后都會各自映射到圓環(huán)上的某個點，這樣每臺機器就能確定其在哈希環(huán)上的位置，如下圖所示。

詳解Java分布式系統(tǒng)中一致性哈希算法

如何提高容錯性和擴展性的

那么用戶訪問，如何分配訪問的服務器呢？我們根據用戶的 IP 使用上面相同的函數(shù) Hash 計算出哈希值，并確定此數(shù)據在環(huán)上的位置，從此位置沿環(huán) 順時針行走，遇到的第一臺服務器就是其應該定位到的服務器。

詳解Java分布式系統(tǒng)中一致性哈希算法

從上圖可以看出用戶1 順時針遇到的第一臺服務器是服務器3 ，所以該用戶被分配給服務器3來提供服務。同理可以看出用戶2被分配給了服務器2。

1. 新增服務器節(jié)點

如果這時需要新增一臺服務器節(jié)點，一致性哈希策略是如何應對的呢？如下圖所示，我們新增了一臺服務器4，通過上述一致性哈希算法計算后得出它在哈希環(huán)的位置。

詳解Java分布式系統(tǒng)中一致性哈希算法

可以發(fā)現(xiàn)，原來訪問服務器3的用戶1現(xiàn)在訪問的對象是服務器4，用戶能正常訪問且服務不需要停機就可以自動切換。

2. 刪除服務器節(jié)點

如果這時某臺服務器異常宕機或者運維撤銷了一臺服務器，那么這時會發(fā)生什么情況呢？如下圖所示，假設我們撤銷了服務器2。

詳解Java分布式系統(tǒng)中一致性哈希算法

可以看出，我們服務仍然能正常提供服務，只不過這時用戶2會被分配到服務1上了而已。

通過一致性哈希的方式，我們提高了我們系統(tǒng)的容錯性和可擴展性，分布式節(jié)點的變動不會影響整個系統(tǒng)的運行且不需要我們做一些人為的調整策略。

Hash環(huán)的數(shù)據傾斜問題

一致性哈希雖然為我們提供了穩(wěn)定的切換策略，但是它也有一些小缺陷。因為 hash取模算法得到的結果是隨機的，我們并不能保證各個服務節(jié)點能均勻的分配到哈希環(huán)上。

例如當有4個服務節(jié)點時，我們把哈希環(huán)認為是一個圓盤時鐘，我們并不能保證4個服務節(jié)點剛好均勻的落在時鐘的 12、3、6、9點上。

分布不均勻就會產生一個問題，用戶的請求訪問就會不均勻，同時4個服務承受的壓力就會不均勻。這種問題現(xiàn)象我們稱之為，Hash環(huán)的數(shù)據傾斜問題。

詳解Java分布式系統(tǒng)中一致性哈希算法

如上圖所示，服務器0 到服務器1 之間的哈希點值占據比例最大，大量請求會集中到服務器1 上，而只有極少量會定位到服務器0 或其他幾個節(jié)點上，從而出現(xiàn) hash環(huán)偏斜的情況。

如果想要均衡的將緩存分布到每臺服務器上，最好能讓這每臺服務器盡量多的、均勻的出現(xiàn)在hash環(huán)上，但是如上圖中所示，真實的服務器資源只有4臺，我們怎樣憑空的讓它們多起來呢？

既然沒有多余的真正的物理服務器節(jié)點，我們就只能將現(xiàn)有的物理節(jié)點通過虛擬的方法復制出來。

這些由實際節(jié)點虛擬復制而來的節(jié)點被稱為 '虛擬節(jié)點'，即對每一個服務節(jié)點計算多個哈希，每個計算結果位置都放置一個此服務節(jié)點，稱為虛擬節(jié)點。具體做法可以在服務器IP或主機名的后面增加編號來實現(xiàn)。

如上圖所示，假如服務器1 的 IP 是 192.168.32.132，那么原服務器1 節(jié)點在環(huán)形空間的位置就是hash('192.168.32.132') % 2^32。

我們基于服務器1 構建兩個虛擬節(jié)點，Server1-A 和 Server1-B，虛擬節(jié)點在環(huán)形空間的位置可以利用（IP+后綴）計算，例如：

hash('192.168.32.132#A') % 2^32hash('192.168.32.132#B') % 2^32

此時，環(huán)形空間中不再有物理節(jié)點服務器1，服務器2，……，替代的是只有虛擬節(jié)點 Server1-A，Server1-B，Server2-A，Server2-B，……。

詳解Java分布式系統(tǒng)中一致性哈希算法

同時數(shù)據定位算法不變，只是多了一步虛擬節(jié)點到實際節(jié)點的映射，例如定位到 “Server1-A”、“Server1-B” 兩個虛擬節(jié)點的數(shù)據均定位到服務器1上。這樣就解決了服務節(jié)點少時數(shù)據傾斜的問題。

在實際應用中，通常將虛擬節(jié)點數(shù)設置為32甚至更大，因此即使很少的服務節(jié)點也能做到相對均勻的數(shù)據分布。由于虛擬節(jié)點數(shù)量較多，與虛擬節(jié)點的映射關系也變得相對均衡了。

總結

一致性哈希一般在分布式緩存中使用的也比較多，本篇只介紹了服務的負載均衡和分布式存儲，對于分布式緩存其實原理是類似的，讀者可以自己舉一反三來思考下。

其實，在分布式存儲和分布式緩存中，當服務節(jié)點發(fā)生變化時（新增或減少），一致性哈希算法并不能杜絕數(shù)據遷移的問題，但是可以有效避免數(shù)據的全量遷移，需要遷移的只是更改的節(jié)點和它的上游節(jié)點它們兩個節(jié)點之間的那部分數(shù)據。

另外，我們都知道 hash算法有一個避免不了的問題，就是哈希沖突。對于用戶請求IP的哈希沖突，其實只是不同用戶被分配到了同一臺服務器上，這個沒什么影響。但是如果是服務節(jié)點有哈希沖突呢？這會導致兩個服務節(jié)點在哈希環(huán)上對應同一個點，其實我感覺這個問題也不大，因為一方面哈希沖突的概率比較低，另一方面我們可以通過虛擬節(jié)點也可減少這種情況。

以上就是詳解Java分布式系統(tǒng)中一致性哈希算法的詳細內容，更多關于Java算法的資料請關注好吧啦網其它相關文章！

Java

上一條：詳解Java分布式系統(tǒng)中session一致性問題下一條：Java線程數(shù)究竟設多少合理

相關文章：

1. 如何通過vscode運行調試javascript代碼2. idea向System.getenv()添加系統(tǒng)環(huán)境變量的操作3. python b站視頻下載的五種版本4. Java操作Redis2種方法代碼詳解5. python GUI庫圖形界面開發(fā)之PyQt5信號與槽基礎使用方法與實例6. JavaScript設計模式之策略模式實現(xiàn)原理詳解7. python如何寫個俄羅斯方塊8. JAVA抽象類及接口使用方法解析9. 《CSS3實戰(zhàn)》筆記--漸變設計（一)10. python GUI庫圖形界面開發(fā)之PyQt5信號與槽的高級使用技巧裝飾器信號與槽詳細使用方法與實例

排行榜

					
					Java操作Redis2種方法代碼詳解
idea向System.getenv()添加系統(tǒng)環(huán)境變量的操作
python GUI庫圖形界面開發(fā)之PyQt5信號與槽的高級使用技巧裝飾器信號與槽詳細使用方法與實例
python GUI庫圖形界面開發(fā)之PyQt5信號與槽基礎使用方法與實例
《CSS3實戰(zhàn)》筆記--漸變設計（一)
python如何寫個俄羅斯方塊
IntelliJ IDEA安裝插件的方法步驟
JavaScript設計模式之策略模式實現(xiàn)原理詳解
如何通過vscode運行調試javascript代碼
python b站視頻下載的五種版本
JAVA抽象類及接口使用方法解析