本文介紹日志服務告警功能的基本概念。

術語說明
日志存儲(Logstore)日志服務提供Logstore用于存儲日志類型的數據,并在日志存儲的基礎上提供查詢和分析(SQL92語法)功能。告警監控任務依賴于查詢與分析功能。
時序存儲(MetricStore)日志服務提供MetricStore用于存儲時序數據,并在時序數據存儲的基礎上提供查詢和分析(SQL92語法、PromQL語法)功能。告警監控任務依賴于查詢與分析功能。
告警(Alert)獨立表達時,代表一個告警事件(Alert event)。例如告警監控規則觸發一個或多個告警后,通過告警管理系統傳遞給通知管理系統。

當告警與其他詞組合時,代表告警功能對應的子系統、功能、實體、模塊等。例如告警監控系統、告警監控規則等。

告警監控(Alert monitoring)告警子系統,負責產生告警。告警監控系統由告警監控規則和資源數據等組成。

通過告警監控規則定期檢查評估,根據監控編排邏輯評估查詢和分析結果,觸發告警或恢復通知,發送給告警管理系統。

告警管理(Alert management)告警子系統,負責管理告警降噪和告警狀態。告警管理系統由告警策略、告警事務管理和告警態勢大盤等組成。

告警管理系統通過告警策略對所接收到的告警進行路由分派、去重、靜默、合并等操作,然后發送給通知(行動)管理系統。告警管理系統還支持設置告警事務階段和處理人。

通知(行動)管理(Action management)告警子系統,負責管理告警的通知渠道和對象。通知(行動)管理系統由行動策略、內容模板、日歷、用戶、用戶組、值班組和渠道額度等組成。

通知(行動)管理系統通過行動策略將告警動態分派給特定的通知渠道,再通知給目標用戶、用戶組或值班組。通知(行動)管理系統還支持自定義告警通知內容等操作。

告警監控

告警監控系統負責產生告警,由告警監控規則和資源數據等組成。告警監控系統的架構圖如下所示:

告警監控
術語說明
告警監控規則(Alert monitoring rule)告警監控規則包括告警監控相關的配置,例如查詢和分析語句、查詢和分析的對象(日志庫、時序庫和資源數據)以及相關的監控編排等配置項。更多信息,請參見創建日志告警監控規則
資源數據(Resource data)日志服務提供獨立的、可修改的、表格形式的存儲結構,用于存儲告警系統所使用的各個資源配置和自定義的數據。資源數據主要用于告警監控的關聯查詢,例如黑白名單場景。

更多信息,請參見創建資源數據。

告警嚴重度(Alert severity)告警的非標識性屬性,表示告警嚴重程度,包括嚴重、高、中、低和報告。更多信息,請參見設置告警嚴重度
分組評估分組評估是告警監控規則中的一個參數。當告警監控系統對查詢和分析結果進行計算時,可基于特定字段進行分組,每個分組單獨評估觸發條件并觸發告警。即您可以使用一條告警監控規則同時監控多個目標,并對每個分組進行獨立的告警管理和事務管理。更多信息,請參見分組評估。
評估表達式評估表達式是一個支持特定評估語法的計算表達式,用于配置告警觸發條件或者動態評估告警的嚴重度。

評估表達式支持使用查詢和分析結果中的字段進行邏輯比較和判斷計算。當結果為true時,表示匹配。更多信息,請參見評估表達式語法。

告警標簽(Alert label)告警的標識性屬性,鍵值對格式。例如您可以在告警監控規則中自定義標簽,觸發后的告警將被附加對應的標簽信息。標簽可在告警內容模板中被引用,也可在告警管理和行動管理中作為告警屬性進行告警管理和通知渠道分派。
  • 您在監控時序庫時,如果按照標簽進行分組評估,日志服務會自動將時序庫中的查詢和分析結果的標簽作為觸發告警的標簽。
  • 您在監控日志庫時,如果選擇特定一個或多個字段做分組評估,日志服務會自動將該分組字段的鍵值對作為告警的標簽。

更多信息,請參見標簽。

告警標注(Alert annotation)告警的非標識屬性,鍵值對格式。例如您可以在告警監控規則中自定義標注,觸發后的告警將被附加對應的標注信息。標注可在告警內容模板中被引用,也可在告警管理和行動管理中作為告警屬性進行告警管理和通知分派。更多信息,請參見標注。
恢復通知(Resolved alert)恢復通知是特殊的告警通知,其告警狀態為恢復,普通告警的狀態為觸發。當您開啟該功能后,如果告警監控系統上次執行檢查時查詢和分析結果觸發了告警,而本次檢查時查詢和分析結果不滿足觸發條件,則會發送一條恢復通知。在密集監控場景中,您可以開啟恢復通知功能,便于及時感知異?;謴颓闆r。更多信息,請參見恢復通知。

告警管理

告警管理系統負責管理告警降噪和告警狀態,由告警策略、告警事務管理和告警態勢大盤等組成。告警管理系統的架構圖如下所示:

告警管理
術語說明
告警策略(Alert policy)告警策略是告警管理系統的配置實體,也是告警監控規則中的一個參數。當告警管理系統接收到告警(包括恢復通知)時,自動根據告警策略進行告警降噪與合并控制,將合并后的告警集合發送給通知(行動)管理系統進行告警通知。
告警指紋(Alert fingerprint)告警管理系統在處理告警時,為每個告警計算一個指紋信息,擁有相同指紋的告警被認為是同一條告警。告警的指紋信息計算依賴于告警的標識性屬性,包括所屬阿里云賬號ID、告警所在項目、告警規則ID和告警標簽。更多信息,請參見基于告警指紋去重。
告警靜默(Alert silence)告警策略的配置項,也是告警管理中的一個步驟。告警管理系統根據靜默策略,忽略靜默時間內符合條件的告警,即不發送告警通知。更多信息,請參見告警靜默機制。
告警合并告警策略的配置項,也是告警管理中的一個步驟。告警管理系統接收到告警后,按照告警策略中的合并策略,對符合條件的告警進行合并分組,并歸到合并集合中。合并集合在經過延遲、去重等操作后,被發送到行動(通知)管理系統中進行告警通知。更多信息,請參見多種告警分組合并
合并集合用于存放被合并分組后的告警數據,包含一個或多個不同指紋的告警。在經過延遲、去重等操作后,合并集合被發送到通知(行動)管理系統中進行告警通知。
告警事務(Alert incident)合并集合中的告警被發送到告警管理系統中,通過告警策略進行處理(路由合并)時,自動創建一條對應的告警事務。您可以在控制臺上設置告警事務的階段和處理人。告警事務階段包括確認、解決、忽略和待確認等。更多信息,請參見告警事務階段切換。

日志服務支持與告警事務相關聯的告警的狀態自動同步。

通知(行動)管理

通知(行動)管理系統負責管理告警的通知渠道和對象,由行動策略、內容模板、日歷、用戶、用戶組、值班組和渠道額度等組成。通知(行動)管理系統的架構圖如下所示:

通知管理
術語說明
行動策略行動策略是通知(行動)管理系統的配置實體。告警管理系統接收到告警合并集合(包括恢復通知)后,將每個告警合并集合發送給通知(行動)管理系統,根據通知(行動)管理系統中的行動策略動態分派給特定通知渠道,再通知給目標用戶、用戶組或值班組。

如何創建行動策略,請參見創建行動策略。

Webhook集成Webhook集成用于管理Webhook通知渠道,您可以在行動策略中直接使用已創建的Webhook。目前,日志服務支持釘釘、企業微信、飛書、Slack以及自定義的通用Webhook。更多信息,請參見Webhook集成
內容模板日志服務按照內容模板中定義的內容給您發送告警內容。內容模板針對每個主要渠道提供對應的文字模板,支持通過變量引用告警屬性。對于WebHook渠道,還可額外配置消息實體的格式,以便適配特定的協議。例如企業微信的格式要求。更多信息,請參見創建內容模板。
日歷通知(行動)管理系統中獨立的資產配置。包括全局默認日歷和自定義日歷。
  • 全局默認日歷定義了全局的日歷信息,包括時區、節假日同步國家、每周工作日以及工作日的具體時段。

    行動策略中發送時段基于全局默認日歷判斷工作日、非工作日、工作時間和非工作時間。

  • 自定義日歷用于自定義工作日和節假日的時間段,是值班組獨有的工作日歷。
用戶代表具體接收人的配置實體,包含用戶ID、用戶名、電話號碼和郵箱等信息。您可以通過行動策略,將目標告警通知發送給目標用戶。您還可以在告警事務管理中,將事務處理人設置為目標用戶。

如何創建用戶,請參見創建用戶

用戶組代表用戶的虛擬集合的配置實體,包含用戶組標識符、組名和用戶列表等信息。一個用戶組可包含一個或多個用戶。您可以通過行動策略,將目標告警通知發送給目標用戶組。

如何創建用戶組,請參見創建用戶組。

值班組代表用戶、用戶組值班集合的配置實體,包含值班組標識符、組名、輪崗配置、代班配置以及關聯的日歷等信息。一個值班組可包含一個或多個用戶或用戶組。您可以通過行動策略,將目標告警通知發送給目標值班組。

如何創建值班組,請參見創建值班組。

輪崗值班組中的配置項,用于設置用戶或用戶組的輪崗計劃。一個值班組中可添加多條輪崗計劃。輪崗支持非連續的時間段排班,支持動態按照日歷進行交班。

更多信息,請參見輪崗與代班場景。

代班值班組中的配置項,用于設置用戶或用戶組的代班計劃。一個值班組中可添加多條代班計劃。

更多信息,請參見輪崗與代班場景。

渠道額度日志服務支持配置短信、語音和郵件渠道的日額度。當接收人的日渠道額度被用完后,當天將不再通過該渠道發送告警通知。其具體粒度為每個接收人每天的額度。

如何配置渠道額度,請參見配置渠道額度。