如何配置ACK One ArgoCD告警
ACK One的艦隊監(jiān)控基于可觀測監(jiān)控Prometheus版的監(jiān)控指標,提供了艦隊自身的監(jiān)控大盤,您可以根據(jù)自身需求自定義告警規(guī)則,實時監(jiān)控相關指標。本文介紹如何配置ACK One ArgoCD告警。
前提條件
已開啟艦隊監(jiān)控。具體操作,請參見開啟艦隊監(jiān)控。
已創(chuàng)建通知對象。相關信息,請參見告警通知對象。
說明若您通知對象配置為釘釘,需要在釘釘機器人安全設置中添加自定義關鍵詞告警。相關信息,請參見釘釘官方文檔。
配置ACK One ArgoCD告警
登錄ACK One控制臺,在左側(cè)導航欄選擇 。
在艦隊監(jiān)控頁面右上角,單擊報警設置,進入Prometheus告警規(guī)則頁面。
單擊創(chuàng)建Prometheus告警規(guī)則,完成下列配置后單擊完成。更多詳細信息,請參見Prometheus告警規(guī)則模板。
配置信息
說明
示例
告警名稱
自定義告警的名稱。
ACK One ArgoCD Pod內(nèi)存告警。
檢測類型
可選靜態(tài)閾值、自定義PromQL。
選擇靜態(tài)閾值。
Prometheus實例
填入您的ACK One艦隊名稱。
text-XXXX。
告警分組
您環(huán)境所需監(jiān)控的Kubernetes分組。
Kubernetes負載。
告警指標
請根據(jù)實際需求選擇。重點關注容器內(nèi)存使用率和容器CPU使用率。
容器內(nèi)存使用率。
告警條件
基于告警指標預置內(nèi)容設置告警事件產(chǎn)生條件。
當容器CPU使用率
大于
80%時,滿足告警條件。篩選條件
根據(jù)告警指標,設置當前配置的告警規(guī)則所適用的范圍,即所有符合篩選條件的資源滿足此條告警規(guī)則時,均會產(chǎn)生告警事件。
可選篩選條件包括:
遍歷:告警規(guī)則適用于當前Prometheus實例下的所有資源。篩選條件默認為遍歷。
等于:選擇該條件后,需繼續(xù)輸入具體資源名稱。所創(chuàng)建的告警規(guī)則將僅適用于對應資源。不支持同時填寫多個資源。
不等于:選擇該條件后,需繼續(xù)輸入具體資源名稱。所創(chuàng)建的告警規(guī)則將適用于除該資源之外的其他資源。不支持同時填寫多個資源。
正則匹配:選擇該條件后,按需輸入正則表達式匹配相應的資源名稱。所創(chuàng)建的告警規(guī)則將適用于符合該正則表達式的所有資源。
正則不匹配:選擇該條件后,按需輸入正則表達式匹配相應的資源名稱。所創(chuàng)建的告警規(guī)則將過濾符合該正則表達式的所有資源。
命名空間等于argocd,Pod:遍歷,容器:遍歷。
持續(xù)時間
當告警條件滿足時,直接產(chǎn)生告警事件:任何一個數(shù)據(jù)點滿足閾值,就會產(chǎn)生告警事件。
當告警條件滿足持續(xù)N分鐘時,才產(chǎn)生告警事件:即只有當滿足閾值的時間大于等于N分鐘時,才產(chǎn)生告警事件。
當告警條件滿足持續(xù)1分鐘時,才產(chǎn)生告警事件。
告警等級
自定義告警等級。默認告警等級為默認,告警嚴重程度從默認、P4、P3、P2、P1逐級上升。
P1。
告警內(nèi)容
用戶收到的告警信息。您可以使用Go template語法在告警內(nèi)容中自定義告警參數(shù)變量。
命名空間:{{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器:{{$labels.container}} CPU使用率{{$labels.metrics_params_opt_label_value}} {{$labels.metrics_params_value}}%, 當前值{{ printf "%.2f" $value }}%
告警通知
可選極簡模式或普通模式。
選擇極簡模式。
通知對象
請根據(jù)實際需求選擇告警通知對象。
釘釘告警。
通知時段
請根據(jù)實際需求填寫告警通知時間段。
23:00至01:00。
重復策略
請根據(jù)實際需求填寫每隔幾分鐘,進行告警重復通知。
告警每隔10分鐘重復通知。
配置完成后,觸發(fā)告警條件,可在告警通知對象側(cè)查看告警信息。
說明可通過Prometheus控制臺查看告警發(fā)送歷史,具體信息,請參見查看告警發(fā)送歷史。