當前位置:編程學習大全網 - 源碼下載 - 故障恢復方法 告警

故障恢復方法 告警

測試環境中出現了壹個異常的告警現象:壹條告警通過 Thanos Ruler 的 HTTP 接口觀察到持續處於 active 狀態,但是從 AlertManager 這邊看這條告警為已解決狀態。按照 DMP 平臺的設計,告警已解決指的是告警上設置的結束時間已經過了當前時間。壹條發送至 AlertManager 的告警為已解決狀態有三種可能:1. 手動解決了告警2. 告警只產生了壹次,第二次計算告警規則時會發送壹個已解決的告警3. AlertManager 接收到的告警會帶著壹個自動解決時間,如果還沒到達自動解決時間,則將該時間重置為 24h 後首先,因為了解到測試環境沒有手動解決過異常告警,排除第壹條;其次,由於該告警持續處於 active 狀態,所以不會是因為告警只產生了壹次而接收到已解決狀態的告警,排除第二條;最後,告警的告警的產生時間與自動解決時間相差不是 24h,排除第三條。那問題出在什麽地方呢?

分析

下面我們開始分析這個問題。綜合第壹節的描述,初步的猜想是告警在到達 AlertManager 前的某些階段的處理過程太長,導致告警到達 AlertManager 後就已經過了自動解決時間。我們從分析平臺裏壹條告警的流轉過程入手,找出告警在哪個處理階段耗時過長。首先,壹條告警的產生需要兩方面的配合:

metric 數據

告警規則

將 metric 數據輸入到告警規則進行計算,如果符合條件則產生告警。DMP 平臺集成了 Thanos 的相關組件,數據的提供和計算則會分開,數據還是由 Prometheus Server 提供,而告警規則的計算則交由 Thanos Rule(下文簡稱 Ruler)處理。下圖是 Ruler 組件在集群中所處的位置:

看來,想要弄清楚現告警的產生到 AlertManager 之間的過程,需要先弄清除 Ruler 的大致機制。官方文檔對 Ruler 的介紹是:You can think of Rule as a simplified Prometheus that does not require a sidecar and does not scrape and do PromQL evaluation (no QueryAPI)。

不難推測,Ruler 應該是在 Prometheus 上封裝了壹層,並提供壹些額外的功能。通過翻閱資料大致了解,Ruler 使用 Prometheus 提供的庫計算告警規則,並提供壹些額外的功能。下面是 Ruler 中告警流轉過程:

請點擊輸入圖片描述

請點擊輸入圖片描述

請點擊輸入圖片描述

首先,圖中每個告警規則 Rule 都有壹個 active queue(下面簡稱本地隊列),用來保存壹個告警規則下的活躍告警。

其次,從本地隊列中取出告警,發送至 AlertManager 前,會被放入 Thanos Rule Queue(下面簡稱緩沖隊列),該緩沖隊列有兩個屬性:

capacity(默認值為 10000):控制緩沖隊列的大小,

maxBatchSize(默認值為 100):控制單次發送到 AlertManager 的最大告警數

了解了上述過程,再通過翻閱 Ruler 源碼發現,壹條告警在放入緩沖隊列前,會為其設置壹個默認的自動解決時間(當前時間 + 3m),這裏是影響告警自動解決的開始時間,在這以後,有兩個階段可能影響告警的處理:1.?緩沖隊列階段2.?出緩沖隊列到 AlertManager 階段(網絡延遲影響)由於測試環境是局域網環境,並且也沒在環境上發現網絡相關的問題,我們初步排除第二個階段的影響,下面我們將註意力放在緩沖隊列上。通過相關源碼發現,告警在緩沖隊列中的處理過程大致如下:如果本地隊列中存在壹條告警,其上次發送之間距離現在超過了 1m(默認值,可修改),則將該告警放入緩沖隊列,並從緩沖隊列中推送最多 maxBatchSize 個告警發送至 AlertManager。反之,如果所有本地隊列中的告警,在最近 1m 內都有發送過,那麽就不會推送緩沖隊列中的告警。也就是說,如果在壹段時間內,產生了大量重復的告警,緩沖隊列的推送頻率會下降。隊列的生產方太多,消費方太少,該隊列中的告警就會產生堆積的現象。因此我們不難猜測,問題原因很可能是是緩沖隊列推送頻率變低的情況下,單次推送的告警數量太少,導致緩沖隊列堆積。下面我們通過兩個方面驗證上述猜想:首先通過日誌可以得到隊列在大約 20000s 內推送了大約 2000 次,即平均 10s 推送壹次。結合緩沖隊列的具體屬性,壹條存在於隊列中的告警大約需要 (capacity/maxBatchSize)*10s = 16m,AlertManager 在接收到告警後早已超過了默認的自動解決時間(3m)。其次,Ruler 提供了 3 個 metric 的值來監控緩沖隊列的運行情況:

thanos_alert_queue_alerts_dropped_total

thanos_alert_queue_alerts_pushed_total

thanos_alert_queue_alerts_popped_total

通過觀察 thanos_alert_queue_alerts_dropped_total 的值,看到存在告警丟失的總數,也能佐證了緩沖隊列在某些時刻存在已滿的情況。

解決通過以上的分析,我們基本確定了問題的根源:Ruler 組件內置的緩沖隊列堆積造成了告警發送的延遲。針對這個問題,我們選擇調整隊列的 maxBatchSize 值。下面介紹壹下這個值如何設置的思路。由於每計算壹次告警規則就會嘗試推送壹次緩沖隊列,我們通過估計壹個告警數量的最大值,得到 maxBatchSize 可以設置的最小值。假設妳的業務系統需要監控的實體數量分別為 x1、x2、x3、...、xn,實體上的告警規則數量分別有 y1、y2、y3、...、yn,那麽壹次能產生的告警數量最多是(x1 * y2 + x2 * y2 + x3 * y3 + ... + xn * yn),最多推送(y1 + y2 + y3 + ... + yn)次,所以要使緩沖隊列不堆積,maxBatchSize 應該滿足:maxBatchSize >= (x1 * y2 + x2 * y2 + x3 * y3 + ... + xn * yn) / (y1 + y2 + y3 + ... + yn),假設 x = max(x1,x2, ...,xn), 將不等式右邊適當放大後為 x,即 maxBatchSize 的最小值為 x。也就是說,可以將 maxBatchSize 設置為系統中數量最大的那壹類監控實體,對於 DMP 平臺,壹般來說是 MySQL 實例。

註意事項

上面的計算過程只是提供壹個參考思路,如果最終計算出該值過大,很有可能對 AlertManager 造成壓力,因而失去緩沖隊列的作用,所以還是需要結合實際情況,具體分析。因為 DMP 將 Ruler 集成到了自己的組件中,所以可以比較方便地對這個值進行修改。如果是依照官方文檔的介紹使用的 Ruler 組件,那麽需要對源碼文件進行定制化修改。

  • 上一篇:VC++如何改變按鈕背景色
  • 下一篇:原碼,補碼和反碼在計算機中的作用
  • copyright 2024編程學習大全網