分析
下面我們開始分析這個問題。綜合第壹節的描述,初步的猜想是告警在到達 AlertManager 前的某些階段的處理過程太長,導致告警到達 AlertManager 後就已經過了自動解決時間。我們從分析平臺裏壹條告警的流轉過程入手,找出告警在哪個處理階段耗時過長。首先,壹條告警的產生需要兩方面的配合:
metric 數據
告警規則
將 metric 數據輸入到告警規則進行計算,如果符合條件則產生告警。DMP 平臺集成了 Thanos 的相關組件,數據的提供和計算則會分開,數據還是由 Prometheus Server 提供,而告警規則的計算則交由 Thanos Rule(下文簡稱 Ruler)處理。下圖是 Ruler 組件在集群中所處的位置:
看來,想要弄清楚現告警的產生到 AlertManager 之間的過程,需要先弄清除 Ruler 的大致機制。官方文檔對 Ruler 的介紹是:You can think of Rule as a simplified Prometheus that does not require a sidecar and does not scrape and do PromQL evaluation (no QueryAPI)。
不難推測,Ruler 應該是在 Prometheus 上封裝了壹層,並提供壹些額外的功能。通過翻閱資料大致了解,Ruler 使用 Prometheus 提供的庫計算告警規則,並提供壹些額外的功能。下面是 Ruler 中告警流轉過程:
請點擊輸入圖片描述
請點擊輸入圖片描述
請點擊輸入圖片描述
首先,圖中每個告警規則 Rule 都有壹個 active queue(下面簡稱本地隊列),用來保存壹個告警規則下的活躍告警。
其次,從本地隊列中取出告警,發送至 AlertManager 前,會被放入 Thanos Rule Queue(下面簡稱緩沖隊列),該緩沖隊列有兩個屬性:
capacity(默認值為 10000):控制緩沖隊列的大小,
maxBatchSize(默認值為 100):控制單次發送到 AlertManager 的最大告警數
了解了上述過程,再通過翻閱 Ruler 源碼發現,壹條告警在放入緩沖隊列前,會為其設置壹個默認的自動解決時間(當前時間 + 3m),這裏是影響告警自動解決的開始時間,在這以後,有兩個階段可能影響告警的處理:1.?緩沖隊列階段2.?出緩沖隊列到 AlertManager 階段(網絡延遲影響)由於測試環境是局域網環境,並且也沒在環境上發現網絡相關的問題,我們初步排除第二個階段的影響,下面我們將註意力放在緩沖隊列上。通過相關源碼發現,告警在緩沖隊列中的處理過程大致如下:如果本地隊列中存在壹條告警,其上次發送之間距離現在超過了 1m(默認值,可修改),則將該告警放入緩沖隊列,並從緩沖隊列中推送最多 maxBatchSize 個告警發送至 AlertManager。反之,如果所有本地隊列中的告警,在最近 1m 內都有發送過,那麽就不會推送緩沖隊列中的告警。也就是說,如果在壹段時間內,產生了大量重復的告警,緩沖隊列的推送頻率會下降。隊列的生產方太多,消費方太少,該隊列中的告警就會產生堆積的現象。因此我們不難猜測,問題原因很可能是是緩沖隊列推送頻率變低的情況下,單次推送的告警數量太少,導致緩沖隊列堆積。下面我們通過兩個方面驗證上述猜想:首先通過日誌可以得到隊列在大約 20000s 內推送了大約 2000 次,即平均 10s 推送壹次。結合緩沖隊列的具體屬性,壹條存在於隊列中的告警大約需要 (capacity/maxBatchSize)*10s = 16m,AlertManager 在接收到告警後早已超過了默認的自動解決時間(3m)。其次,Ruler 提供了 3 個 metric 的值來監控緩沖隊列的運行情況:
thanos_alert_queue_alerts_dropped_total
thanos_alert_queue_alerts_pushed_total
thanos_alert_queue_alerts_popped_total
通過觀察 thanos_alert_queue_alerts_dropped_total 的值,看到存在告警丟失的總數,也能佐證了緩沖隊列在某些時刻存在已滿的情況。
解決通過以上的分析,我們基本確定了問題的根源:Ruler 組件內置的緩沖隊列堆積造成了告警發送的延遲。針對這個問題,我們選擇調整隊列的 maxBatchSize 值。下面介紹壹下這個值如何設置的思路。由於每計算壹次告警規則就會嘗試推送壹次緩沖隊列,我們通過估計壹個告警數量的最大值,得到 maxBatchSize 可以設置的最小值。假設妳的業務系統需要監控的實體數量分別為 x1、x2、x3、...、xn,實體上的告警規則數量分別有 y1、y2、y3、...、yn,那麽壹次能產生的告警數量最多是(x1 * y2 + x2 * y2 + x3 * y3 + ... + xn * yn),最多推送(y1 + y2 + y3 + ... + yn)次,所以要使緩沖隊列不堆積,maxBatchSize 應該滿足:maxBatchSize >= (x1 * y2 + x2 * y2 + x3 * y3 + ... + xn * yn) / (y1 + y2 + y3 + ... + yn),假設 x = max(x1,x2, ...,xn), 將不等式右邊適當放大後為 x,即 maxBatchSize 的最小值為 x。也就是說,可以將 maxBatchSize 設置為系統中數量最大的那壹類監控實體,對於 DMP 平臺,壹般來說是 MySQL 實例。
註意事項
上面的計算過程只是提供壹個參考思路,如果最終計算出該值過大,很有可能對 AlertManager 造成壓力,因而失去緩沖隊列的作用,所以還是需要結合實際情況,具體分析。因為 DMP 將 Ruler 集成到了自己的組件中,所以可以比較方便地對這個值進行修改。如果是依照官方文檔的介紹使用的 Ruler 組件,那麽需要對源碼文件進行定制化修改。