故障恢復方法告警

測試環境中出現了壹個異常的告警現象：壹條告警通過 Thanos Ruler 的 HTTP 接口觀察到持續處於 active 狀態，但是從 AlertManager 這邊看這條告警為已解決狀態。按照 DMP 平臺的設計，告警已解決指的是告警上設置的結束時間已經過了當前時間。壹條發送至 AlertManager 的告警為已解決狀態有三種可能：1. 手動解決了告警2. 告警只產生了壹次，第二次計算告警規則時會發送壹個已解決的告警3. AlertManager 接收到的告警會帶著壹個自動解決時間，如果還沒到達自動解決時間，則將該時間重置為 24h 後首先，因為了解到測試環境沒有手動解決過異常告警，排除第壹條；其次，由於該告警持續處於 active 狀態，所以不會是因為告警只產生了壹次而接收到已解決狀態的告警，排除第二條；最後，告警的告警的產生時間與自動解決時間相差不是 24h，排除第三條。那問題出在什麽地方呢？

分析

下面我們開始分析這個問題。綜合第壹節的描述，初步的猜想是告警在到達 AlertManager 前的某些階段的處理過程太長，導致告警到達 AlertManager 後就已經過了自動解決時間。我們從分析平臺裏壹條告警的流轉過程入手，找出告警在哪個處理階段耗時過長。首先，壹條告警的產生需要兩方面的配合：

metric 數據

告警規則

將 metric 數據輸入到告警規則進行計算，如果符合條件則產生告警。DMP 平臺集成了 Thanos 的相關組件，數據的提供和計算則會分開，數據還是由 Prometheus Server 提供，而告警規則的計算則交由 Thanos Rule（下文簡稱 Ruler）處理。下圖是 Ruler 組件在集群中所處的位置：

看來，想要弄清楚現告警的產生到 AlertManager 之間的過程，需要先弄清除 Ruler 的大致機制。官方文檔對 Ruler 的介紹是：You can think of Rule as a simplified Prometheus that does not require a sidecar and does not scrape and do PromQL evaluation (no QueryAPI)。

不難推測，Ruler 應該是在 Prometheus 上封裝了壹層，並提供壹些額外的功能。通過翻閱資料大致了解，Ruler 使用 Prometheus 提供的庫計算告警規則，並提供壹些額外的功能。下面是 Ruler 中告警流轉過程：

請點擊輸入圖片描述

首先，圖中每個告警規則 Rule 都有壹個 active queue（下面簡稱本地隊列），用來保存壹個告警規則下的活躍告警。

其次，從本地隊列中取出告警，發送至 AlertManager 前，會被放入 Thanos Rule Queue（下面簡稱緩沖隊列），該緩沖隊列有兩個屬性：

capacity（默認值為 10000）：控制緩沖隊列的大小，

maxBatchSize（默認值為 100）：控制單次發送到 AlertManager 的最大告警數

了解了上述過程，再通過翻閱 Ruler 源碼發現，壹條告警在放入緩沖隊列前，會為其設置壹個默認的自動解決時間（當前時間 + 3m），這裏是影響告警自動解決的開始時間，在這以後，有兩個階段可能影響告警的處理：1.?緩沖隊列階段2.?出緩沖隊列到 AlertManager 階段（網絡延遲影響）由於測試環境是局域網環境，並且也沒在環境上發現網絡相關的問題，我們初步排除第二個階段的影響，下面我們將註意力放在緩沖隊列上。通過相關源碼發現，告警在緩沖隊列中的處理過程大致如下：如果本地隊列中存在壹條告警，其上次發送之間距離現在超過了 1m（默認值，可修改），則將該告警放入緩沖隊列，並從緩沖隊列中推送最多 maxBatchSize 個告警發送至 AlertManager。反之，如果所有本地隊列中的告警，在最近 1m 內都有發送過，那麽就不會推送緩沖隊列中的告警。也就是說，如果在壹段時間內，產生了大量重復的告警，緩沖隊列的推送頻率會下降。隊列的生產方太多，消費方太少，該隊列中的告警就會產生堆積的現象。因此我們不難猜測，問題原因很可能是是緩沖隊列推送頻率變低的情況下，單次推送的告警數量太少，導致緩沖隊列堆積。下面我們通過兩個方面驗證上述猜想：首先通過日誌可以得到隊列在大約 20000s 內推送了大約 2000 次，即平均 10s 推送壹次。結合緩沖隊列的具體屬性，壹條存在於隊列中的告警大約需要 (capacity/maxBatchSize)*10s = 16m，AlertManager 在接收到告警後早已超過了默認的自動解決時間（3m）。其次，Ruler 提供了 3 個 metric 的值來監控緩沖隊列的運行情況：

thanos_alert_queue_alerts_dropped_total

thanos_alert_queue_alerts_pushed_total

thanos_alert_queue_alerts_popped_total

通過觀察 thanos_alert_queue_alerts_dropped_total 的值，看到存在告警丟失的總數，也能佐證了緩沖隊列在某些時刻存在已滿的情況。

解決通過以上的分析，我們基本確定了問題的根源：Ruler 組件內置的緩沖隊列堆積造成了告警發送的延遲。針對這個問題，我們選擇調整隊列的 maxBatchSize 值。下面介紹壹下這個值如何設置的思路。由於每計算壹次告警規則就會嘗試推送壹次緩沖隊列，我們通過估計壹個告警數量的最大值，得到 maxBatchSize 可以設置的最小值。假設妳的業務系統需要監控的實體數量分別為 x1、x2、x3、...、xn，實體上的告警規則數量分別有 y1、y2、y3、...、yn，那麽壹次能產生的告警數量最多是(x1 * y2 + x2 * y2 + x3 * y3 + ... + xn * yn)，最多推送（y1 + y2 + y3 + ... + yn）次，所以要使緩沖隊列不堆積，maxBatchSize 應該滿足：maxBatchSize >= (x1 * y2 + x2 * y2 + x3 * y3 + ... + xn * yn) / (y1 + y2 + y3 + ... + yn)，假設 x = max(x1,x2, ...,xn), 將不等式右邊適當放大後為 x，即 maxBatchSize 的最小值為 x。也就是說，可以將 maxBatchSize 設置為系統中數量最大的那壹類監控實體，對於 DMP 平臺，壹般來說是 MySQL 實例。

註意事項

上面的計算過程只是提供壹個參考思路，如果最終計算出該值過大，很有可能對 AlertManager 造成壓力，因而失去緩沖隊列的作用，所以還是需要結合實際情況，具體分析。因為 DMP 將 Ruler 集成到了自己的組件中，所以可以比較方便地對這個值進行修改。如果是依照官方文檔的介紹使用的 Ruler 組件，那麽需要對源碼文件進行定制化修改。

上一篇:VC++如何改變按鈕背景色

下一篇:原碼,補碼和反碼在計算機中的作用

誰可以給我講壹下＜冬日戀歌＞的情節～具體壹點

財務管理的目標可以通過股東財富最大化來表達。衡量股東財富的指標是什麽？

故障恢復方法 告警

故障恢復方法告警