負載均衡進階：SLB常見問題解決方法

摘要：在由雲棲社區和阿裏雲網絡團隊聯合主辦的2017阿裏雲網絡技術在線高峰論壇上，阿裏雲技術專家添毅分享了網絡產品部根據客戶和阿裏雲運維的反饋提煉出的幾大最主要和最常見的在使用SLB產品中發生的問題，並為大家介紹了針對這些常見問題的相應處理方法。

摘要：在由雲棲社區和阿裏雲網絡團隊聯合主辦的2017阿裏雲網絡技術在線高峰論壇上，阿裏雲技術專家添毅分享了網絡產品部根據客戶和阿裏雲運維的反饋提煉出的幾大最主要和最常見的在使用SLB產品中發生的問題，並為大家介紹了針對這些常見問題的相應處理方法。想知道如何借助SLB構建高可用系統以及健康檢查是如何實現的，本文不容錯過！

本文內容根據演講嘉賓分享視頻以及PPT整理而成。

本次的分享將會主要圍繞以下5個部分

基本概念回顧

如何構建高可用系統

選擇性能***享型還是性能保障型實例

為什麽健康檢查異常

為什麽負載不均衡

壹、基本概念回顧

SLB是什麽

SLB是阿裏雲推出的壹款雲負載均衡服務，其主要針對於多臺雲服務器進行流量分發，能夠將業務流量分發到由多臺雲服務器所組成的後端服務器池上去，以此來提升系統的處理能力。負載均衡所解決的問題主要包括兩點：第壹點，SLB能夠消除系統的單點故障，這是因為SLB的後面是由多臺雲服務器組成的服務器池，那麽當其中某壹臺服務器出現故障的時候並不會影響整個系統的可服務性。第二點，由於後端的雲服務器能夠橫向地進行擴展，所以也具有為海量業務提供服務的能力。那麽，為什麽要使用雲上的負載均衡呢？這是因為雲上負載均衡主要有這樣的幾個特點：高可靠、高性能、低成本、安全性、易用性。

SLB基本組件

阿裏雲的SLB主要包括了三個基本組件，這裏也進行簡單地介紹。第壹個基本組件就是實例，每個實例都唯壹地標識了雲負載均衡器，並且每個實例都對應壹個VIP，VIP唯壹地標識了負載均衡實例，也是負載均衡對外提供服務的地址。第二個組件是監聽，監聽是由VIP+端口號來唯壹標識的，壹個監聽中包含用戶定制的負載均衡策略和轉發規則。最後壹個基本組件就是後端掛載的服務器，也就是雲服務器ECS，負責處理真正的業務請求。

二、如何構建高可用系統

多層次的高可用

如下圖所示，阿裏雲的負載均衡是從四個層面上去構建高可用的。從底層往上層看，分別是應用級別的高可用、集群級別的高可用、可用區級別(AZ)的高可用以及地域級別(Region)的高可用。

應用級別的高可用主要是通過針對SLB後端的ECS實例的健康檢查來實現的。當SLB發現後端不健康的或者不能正常工作的ECS的時候，會將這些不健康的ECS從SLB的轉發路徑中剔除掉，保證業務流量能夠轉發到正常的工作服務器當中。集群級別的高可用主要是通過集群中LVS機器間的session同步來保障任何壹個用戶的業務會話都能夠在所有的LVS機器上是相互同步的，當其中某壹臺LVS出現故障時，可以由其他的LVS來接替出現故障的機器的工作。同時，由於會話保持的存在，用戶的業務是不會發生中斷的。對於可用區級別的高可用和地域級別的高可用，在本文的後面會進行更加詳細的介紹。

細說可用區級別容災

這裏詳細地介紹壹下可用區級別的容災。可用區級別容災的設計初衷是在當壹個可用區出現重大災情的時候，比如整個可用區的機房發生了掉電、光纜出現了中斷、整個可用區機房中所有的物理機都無法正常工作的時候，也就是整個可用區都宕掉了的情況下，能夠由備可用區來繼續提供服務，這就是可用區級別容災的設計初衷。可用區級別的容災並不是說某壹個可用區中的某壹個實例或者是某幾個實例出現了故障就會發生可用區的切換，實例自動從可用區A切換到可用區B，這是壹個比較常見的誤區。而針對於這樣的誤區，阿裏雲也建議用戶在構建可用區級別的高可用的時候采取以下兩個步驟：

首先，建議用戶在SLB實例的後端盡可能地去掛載多個可用區的ECS實例。SLB能夠支持跨可用區地掛載ECS雲服務器，這樣可以避免某個可用區的ECS都出現故障的情況下，還有其他可用區的ECS能夠接替工作，雖然跨可用區掛在ECS會存在大約2毫秒左右的延遲，但是卻能夠大大地提升服務的可用性。

第二步就是針對於壹些特別重要的業務，建議在不同的可用區分別地去購買SLB的實例。比如在可用區A和可用區B各自購買壹個SLB實例，在此基礎之上再使用全球負載均衡GSLB來進行實例間的調度。

跨地域容災的實現

跨地域容災這壹部分與上面介紹的可用區級別容災的第二步非常相似，也是借助於GSLB產品實現的，GSLB即智能DNS實現了針對於後端的健康檢查、路由調度的優化功能，能夠實現在地域之間的負載均衡實例的調度。關於這部分的更詳細的內容請參考：全球負載均衡跨地域容災解決方案(/ntms/act/globalslb.html)。

三、選擇性能***享型還是性能保障型實例

***享型vs保障型-WHY保障型

在如今這個***享經濟的時代，像滴滴打車這樣的模式是非常火的。但是即便是有了滴滴打車，但是還有人會去買車，這是因為會出現如下兩個大家可能曾經都碰到過的場景：

早晚高峰叫不到車？雨雪天氣路邊凍成狗？還大幅提價？

假期想遠離塵囂，找個僻靜曠野放空自我，叫個滴滴？也許有去，但保證無回！

所以說***享和保障都是客戶的需求。出於對於類似需求的考慮，阿裏雲的負載均衡也推出了性能保障型實例。以前所推出的SLB***享型實例是因為性能指標沒有辦法實現隔離，因為所有的***享型實例都處於同壹個大***享資源池中，所以在高峰期的時候就會出現資源的爭搶，這樣就無法滿足對於性能具有剛性需求的大客戶的訴求。除此之外，還有壹些體量特別大的超級用戶，他們對於性能的要求會是非常高的，但是由於***享型實例無法做到性能隔離，也支持不了大顆粒度的性能指標，所以也無法完成這樣的工作。因此，阿裏雲推出了性能保障型的負載均衡實例。

超強性能

保障型實例的性能規格如上圖所示，其並發連接數最大可以達到500萬，每秒的新建鏈接數(CPS)可以達到50萬，針對於七層負載均衡系統的QPS可以達到10萬。除此之外，性能保障型實例還具有以下的特點：

超強HTTPS性能。性能保障型實例針對於七層系統，特別是HTTPS的業務進行了優化，實現了高性能硬加解卡，並且能夠實現使HTTPS的業務單實例可達10萬QPS。

超大並發連接數。性能保障型實例的單實例的並發連接數可達500萬，所以其可承載物聯網場景的下海量連接，可以支撐***享自行車、智能手表等存在特別大量長連接的場景。

***享型實例平滑升級。原有的***享型實例可以平滑升級至性能保障型實例，而無需更換VIP。

完善的業務監控系統。在推出性能保障型實例之後，因為每個實例都有相應的性能規格和性能指標，所以阿裏雲也為用戶提供了完整的業務指標監控系統，並支持電話、短信、釘釘企業群等方式的告警。

性能規格

上圖所展現的是阿裏雲SLB性能保障型實例的規格參數。圖中的最後兩行規格7、8默認在控制臺上是無法購買的，目前只針對企業級用戶，而且需通過客戶經理申請後，通過白名單開放。

如何選擇規格

對於保障型實例而言，主要有如下幾個性能指標：

最大連接數：壹個實例可承載的最大連接數。

新建連接數：CPS表示壹個實例每秒可以新建的鏈接數。

每秒查詢數：QPS表示壹個實例7層的像HTTP或者HTTPS系統的吞吐量。

通常壹個4層SLB的性能好壞由最大連接數和新建連接數來衡量，它們表示了壹個SLB系統的並發能力和處理突發連接的能力。通常壹個7層SLB的性能好壞主要由QPS決定，QPS表示了壹個7層系統的吞吐量。這裏需要註意的是QPS是7層獨有概念。雖然每個規格都定義了三個性能指標，但是這並不代表這三個性能指標在任何壹個性能場景下或者任何壹個時刻都能夠同時達到最大值，這裏存在壹個性能指標的短木板原則。比如在某壹個應用系統中，QPS已經達到指標上限，但最大連接數還遠遠沒有達到上限，這時不論怎樣加大客戶端數量，最大連接數都會因為QPS達到上限，而無法達到最大值。

對於規格的選擇而言，需要通過之前提到的業務監控系統來獲取相關指標。如果用戶十分了解自己業務的相關指標，也就是對於高峰期的並發連接數會達到多少以及QPS會達到多少都有非常清晰的了解，也可以直接在控制臺上選購。但是如果用戶並不清楚自己的相關業務指標，可以在初期選購按量付費的較高規格的實例，並且在壹個業務周期內監控流量的峰值，在峰值確定好之後再通過變配的方式改變到比較合適的實例規格。目前性能保障型實例還處於公測階段，所以現在還沒有對於實例收取規格費用，也就是說在這個階段無論用戶選擇最小規格還是最大規格，實際上都只需要花費IP配置費和帶寬費就可以了，這樣也比較便於用戶去熟悉和使用阿裏雲的性能保障型實例。

監控和告警

前面也有所提及，在負載均衡的控制臺上面能夠直接地顯示出相應的壹些性能指標，但是在這裏只能夠實現對於性能指標的監控，卻無法進行告警。如果用戶需要進行監控告警，可以在阿裏雲所提供的雲監控控制臺進行操作。雲監控平臺可以監控阿裏雲中的所有產品並且實現業務告警的定制，並且可以選擇包括短信郵件、電話、企業釘釘群等方式進行業務的實時告警。

四、為什麽健康檢查異常

健康檢查機制

接下來分享在負載均衡的日常使用中出現的問題，特別是很多用戶都存在疑問的健康檢查部分的問題。

阿裏雲的負載均衡壹***可以支持四種協議，四層的負載均衡系統主要包括了TCP、HTTP以及UDP協議，而七層的系統則包括了HTTP和HTTPS，而由於目前HTTP和HTTPS都是使用的普通的HTTP方式，所以其實也可以歸結為三類協議。對於TCP而言，健康檢查的過程是通過發送ACK這種TCP的探測報文去探測端口是否仍然存活；對於HTTP而言，則主要使用的是HEAD的請求方式來檢查目標的頁面是否正常；UDP部分則主要借鑒了SMP協議的原理。

健康檢查部分主要會涉及到幾個指標，這些指標需要用戶在控制臺上進行設置，上圖中給出了壹些默認的建議值，比如響應的超時時間，也就是在每壹次進行健康檢查的時候，如果超過壹定時間健康檢查還沒有回應就認為這次的健康檢查是失敗的；還有健康檢查間隔，也就是兩次健康檢查之間通常需要間隔2秒鐘；而所謂的不健康閥值和健康閥值就是在網絡環境中往往會由於網絡的抖動以及其他的因素導致偶爾的壹次健康檢查失敗了，但是這時候並不能認為服務是真的失敗了，所以需要設置壹個閥值，比如3次就指的是當3次健康檢查都失敗的時候才會認為後端的服務是存在問題的，然後將其從轉發路徑中摘除掉。同樣的，當服務從不健康變為健康的時候，也需要進行連續的幾次探測，當確定處於穩定的健康狀態之後再將其加入到SLB的後端中去。

為啥會失敗(TCP)

TCP的健康檢查也經常會出現壹些失敗的情況，這裏也為大家提供了簡單的故障排查順序供參考。當出現健康檢查失敗的時候，首先可以檢查壹下後端的服務器是否已經啟動。如果後端服務器的負載是比較高的，也可能會因為沒有CPU時間去處理健檢查的回應，這樣就有可能導致健康檢查失敗。除此之外，因為對於阿裏雲的負載均衡而言，健康檢查使用的都是私網地址實現的，所以如果根本沒有監聽到私網地址或者私網地址本身存在故障也會導致健康檢查的失敗。還有服務器上可能存在防火墻，將監聽端口屏蔽掉了，導致健康檢查並未通過。此外還可能存在壹些配置方面的問題，比如提供服務的端口和做健康檢查的端口不壹致也可能存在健康檢查失敗。

針對於TCP的健康檢查而言，很多用戶會經常看到自己的後端服務器上日誌上面有很多10或者16這些網段的訪問，並且訪問流量還比較大，這是因為之前所提到的健康檢查具有壹定的間隔時間，比如2秒或者3秒壹次。這時候壹些用戶可能就會認為健康檢查會影響服務器的性能，占了很多的服務器的連接數。其實可以從上圖中左側的報文交互情況看到，當SLB對於雲服務器發起健康檢查的時候首先會發壹個SYN的請求，如果服務器端口是存活的，那麽它會回應壹個ACK，這個時候SLB端就會緊接著發送RST報文。也就是說實際上連接是並沒有建立的，所以也不會占用後端服務器的連接數的資源，並且對於性能的影響也是極為有限的。

為啥會失敗(HTTP)

HTTP常見的健康檢查失敗原因大概會有這樣的三點：最常見的情況就是有些用戶把服務器的HEAD請求方式禁掉了，因為默認在使用瀏覽器或者手機等請求壹個頁面的時候使用的都是GET方式，有時候可能需要上傳數據則會使用POST方式，雖然很多服務器都支持HEAD請求方式，但是有些服務器可能會處於安全或者其他復雜因素的考慮將HEAD請求禁掉。所以在這裏建議客戶將服務器的HEAD請求方式打開，因為阿裏雲負載均衡七層健康檢查方案就是使用的HEAD方案。另外壹種常見情況就是頁面訪問本身上就存在問題，這樣的情況下健康檢查也是無法通過的。最後壹種常見情況就是期望結果配置錯誤，針對於七層的健康檢查是通過使用HEAD請求方式去請求頁面，頁面返回碼可能會是200、300或者400以及500等，用戶可以在健康檢查的配置中設定預期的正常情況下的返回碼值，當健康檢查返回碼值與預期值不壹致就會判定健康檢查是失敗的。

為啥會失敗(UDP)

這裏介紹壹下UDP健康檢查的原理。首先，健康檢查通過SLB向後端發送UDP報文探測來獲取狀態信息。SLB會周期性地給後端ECS發送UDP報文，如果UDP端口的業務處於正常情況，則沒有任何回應。而當服務出現問題，比如指定的UDP服務端口處於不可達的情況或者無服務的狀態的時候，會回復ICMP的不可達報文。這裏也會存在壹個問題就是如果後端服務器已經變成了網絡中的孤島，比如出現了整個服務器的掉電、關機情況這樣完全不能工作的狀態，這時候的ICMP不可達報文是永遠不可能收到的，因為後端的服務器無法收到SLB發來的UDP探測報文，那麽在這種情況下，可能會出現誤認為後端健康的情況，但是實際上這個服務可能已經宕掉了。為了應對這種情況，健康檢查還提供用戶自定義UDP應答報文來實現精確的UDP健康檢查，也就是由用戶自定義指定壹個字符串，當後端的雲服務器收到UDP健康檢查的探測的時候，也回應指定的字符串，之後SLB對於這個字符串進行對比和校驗，如果匹配成功則認為服務壹定是健康的，這樣就可以實現非常精確的健康檢查。

而UDP的健康檢查失敗也有很多原因，比如在協議棧裏面有可能會有ICMP限速保護。當頻率達到壹定速率的時候，ICMP會被協議棧限制，後端無法回應ICMP不可達報文，進而導致SLB收不到ICMP的報文，出現健康檢查的失敗情況。所以這部分是需要註意的，如果可能盡量將速率限制放大壹些。

其他問題

健康檢查時好時壞的可能原因如下：

HTTP類型健康檢查目標URI響應慢。比如本身是動態頁面，會涉及到大量的計算才能夠渲染完成並返回到前端，這樣肯定就會導致健康檢查響應比較慢。如果服務器負載過高同樣也會出現這樣的問題。

未全部放開對SLB健康檢查源地址的限制導致分布式健康檢查失敗。因為阿裏雲的服務器都是分布式的部署，健康檢查也會是分布式的探測，LVS等機器在後端有不同的源去針對某壹個雲服務器進行探測的，所以如果沒有將這些源地址都放開，實際上也會影響健康檢查的效率，因為對於這麽多機器而言，只要有壹臺機器檢測到是正常的那麽就是正常的。

還可能出現直接訪問正常，但是健康檢查失敗的情況。造成這樣情況的可能原因如下：

防火墻限制。

目的端口不壹致。

檢查方法不同，可能使用瀏覽器看頁面是沒問題的，但是健康檢查卻不行，這就是因為剛才所提到的HEAD方法沒有開啟。或者七層的健康檢查配置了URL按照域名轉發，但是在瀏覽器上直接訪問則是使用域名去做的，而健康檢查是使用IP地址做的，這樣也可能出現轉發和預期結果的不同。

檢查頻率不同，ICMP限速。

五、為什麽負載不均衡

調度算法與會話保持

首先介紹壹下負載均衡的調度算法。阿裏雲的負載均衡支持三種算法，第壹種算法是單純的輪詢(RR)，也就是將業務的請求依次地分發到後端的服務器。第二種算法是加權輪詢(WRR)，也就是在處理調度的時候會根據針對於每壹臺後端服務器設置權重來進行轉發。這裏之所以設置權重是因為後端服務器的處理能力可能是不同的，如果使用相同的權重進行輪詢可能就會把後端處理能力比較弱的服務器擠爆，所以需要針對於服務器的處理能力設置壹些權重。第三種算法是針對於加權最小連接數的輪詢(WLC)，也就是除了根據每臺後端服務器設定的權重值來進行輪詢，同時還考慮後端服務器的實際負載，也就是連接數。當權重值相同時，當前連接數越小的後端服務器被輪詢到的次數也越高，這樣就能夠保證負載盡量地均衡。如果不考慮這壹點就會造成某些服務器連接數已經很高了但是流量依然還往上面分發，而另外壹些服務器卻壹直處於空閑狀態。

會話保持指的是來自同壹用戶請求始終保持分發到同壹臺後端的雲服務器上。對於同壹用戶而言，使用的是四層的負載均衡和使用七層的負載均衡在理解上是不壹樣的。如果是四層負載均衡，則會使用源IP地址標識同壹用戶，所以如果在可能會有很多辦公電腦的大型企業中，這些電腦在企業內部是通過局域網的IP進行通信的，在訪問公網的時候都是通過NAT網關處理的，所以在走到Internet的時候，源地址通常會是壹個或者很有限的幾個。在這種情況下，如果是四層的負載均衡就會把裏面所有的請求都視為來自同壹個用戶的，這種情況下如果開啟了會話保持，就會發生問題。而七層的負載均衡是根據用戶瀏覽器中的Cookie來進行唯壹識別的，對於剛才的案例在大型企業裏面因為內網訪問公網的源地址都是壹樣的，導致沒有辦法識別到底是不是同壹個用戶，此時建議使用七層的負載均衡方案解決，因為Cookie是每個瀏覽器都唯壹的。會話的保持時間是可以在控制臺上配置的，四層的負載均衡方案最大可達1小時，而七層的方案最大可達24小時。

為何不均衡

最後分享壹下不均衡的常見情況。有時候會需要新加壹個服務器進來，這時候往往到新加進來的服務器上的連接會很少，這是因為可能會存在以下原因：

存在會話保持的情況下，會話保持會讓請求停留在原有的服務器上，這樣到新加進來的服務器上的連接自然會少壹些。

權重設置不壹致，如果在權重的設置上存在區別，而新加進來的服務器的權重如果很低，連接也過不去。

應用屬於長連接類型，因為需要在TCP上復用，如果客戶端不主動斷開連接，後續所有的請求都會繼續復用當前服務器上的連接，只有新建連接才有可能到新的服務器上。

而有時候在業務量或者新建連接較少時，也會出現負載不均衡的問題。這是因為每個Core都是獨立的調度單元，因此可能存在將某個Client的多條業務經過不同core的調度後全部轉發到壹臺ECS上的情況，同時由於業務量較少，因此出現了不均衡。建議使用輪詢算法解決，在RR輪詢算法中加入了擾亂因子，可以更加有效的打散SLB到後端的轉發路徑。

原文鏈接

上一篇:合肥市通用技術學校地址在哪電話官網網址

下一篇:正整數n若是它平方數的尾部，則稱n為同構數。例如，6是其平方數36的尾部，76是其平方數5776的尾部，6與76

東北大學礦物材料與粉體技術研究中心

flac中接觸面的壹部分可以挖掉嗎

如何用圓規和壹把沒刻度的尺子，畫出壹個正十七邊形？