本文介紹數據加工(新版)任務運行的指標詳情,如何查看數據加工儀表盤、以及配置任務監控。
指標數據
數據加工(新版)任務的運行指標需要開啟SLS任務運行日志,開啟任務運行日志請參見管理服務日志。
儀表盤
創建數據加工任務后,日志服務默認為每個加工任務創建一個儀表盤,位于數據加工任務詳情頁面。您可以在儀表盤中查看數據加工任務運行指標。
操作步驟
登錄日志服務控制臺。
在Project列表區域,單擊目標Project。
在左側導航欄中,選擇
。單擊目標數據加工任務,在執行狀態區域,查看儀表盤信息。
總覽指標
總覽指標信息如下所示。
加工速率:默認時間周期為1小時,統計窗口為1分鐘,速率為數據條目數/秒。
ingest:從源Logstore的各個shard中讀到的數據條數。
deliver:成功寫入到目標Logstore的數據條數。
failed:從源Logstore的各個shard中讀取,在加工過程中發生失敗的數據條數。
讀取日志數總計:從源Logstore的各個shard中讀取到的數據條數總計,默認時間周期為1天。
寫出日志數總計:成功寫入到所有目標Logstore的數據條數總計,默認時間周期為1天。
失敗日志數總計:從源Logstore的各個shard中讀取、并在加工過程中發生失敗的數據條數總計,默認時間周期為1天。
寫出日志數占比:成功投遞到目標Logstore的數據條數占源Logstore讀取到數據條數的比例,默認時間周期為1天。
Shard詳情分析
統計每分鐘窗口內,加工任務讀取源Logstore數據時,每個Shard的指標。
Shard消費延遲(s):每一個Shard中寫入的最后一數據的接收時間,與數據加工中該Shard正在處理的數據接收時間之差,單位為秒。
活躍Shard統計:默認統計周期為1小時。
shard: 指定統計的Shard編號。
ingest:從該Shard中讀到的原始數據條數。
failed:從該Shard中讀到原始數據,并在加工過程中發生失敗的數據條數。
運行異常
您可以根據message字段,查看運行報錯的細節。
告警規則
監控數據加工(新版)任務,依賴于任務運行指標,請參見指標數據。可以使用日志服務告警功能實現任務監控,請參見告警。這里介紹如下的數據加工(新版)告警規則:處理延遲監控、處理異常報錯監控、處理流量(絕對值)監控、處理流量(同比)監控。創建告警規則請參見創建日志告警規則。
創建數據加工(新版)告警規則添加的查詢統計的項目和日志庫為該項目任務運行日志保存的項目和日志庫。任務運行日志保存請參見管理服務日志。
處理延遲監控
項目 | 說明 |
作用 | 用于監控數據加工任務中Shard消費延遲情況。當加工延遲時長大于規則參數中延遲監控閾值時觸發告警。 |
關聯儀表盤 | 請參見Shard消息延遲。 |
分析SQL樣例 | 以下模板
|
監控規則 |
說明 為了避免數據加工(新版)按1分鐘周期更新處理指標,以及數據洪峰導致的延遲情況,導致的告警誤報,建議按照以上規則配置。 |
消除方法 | 請按照如下原則進行處理:
|
處理異常報錯監控
項目 | 說明 |
作用 | 用于監控數據加工任務中異常報錯。當數據加工出現異常報錯時觸發告警。 |
關聯儀表盤 | 請參見運行異常。 |
分析SQL樣例 | 以下模板
|
監控規則 |
|
消除方法 | 請按照如下對應報錯信息進行處理:
|
寫出數據量占比(同比)監控
項目 | 說明 |
作用 | 用于監控數據加工任務寫出至目標Logstore的處理結果數據量,與從源Logstore讀取的原始數據量的比例,相比昨日、以及上一周的增長閾值和下跌閾值情況。當增長大于規則參數中日/周同比增長閾值或下跌超過規則參數中日/周同比下跌閾值時觸發告警。 |
關聯儀表盤 | 寫出日志數占比:成功投遞到目標Logstore的數據條數占源Logstore讀取到數據條數的比例,默認時間周期為1天。 |
分析SQL樣例 | 創建告警規則的查詢統計對話框中輸入以下SQL。 以下模板
|
監控規則 |
說明 為了避免原始數據流量的周期性波動導致的告警誤報,建議日/周同比增長閾值和日/周同比下跌閾值設置不小于20%,或者調整同比周期,使其與原始數據流量的周期匹配。 |
消除方法 | 請按照如下原則進行處理:
|
讀取源數據量(同比)監控
項目 | 說明 |
作用 | 用于監控數據加工任務讀取數據量相比昨日、以及上一周的增長閾值和下跌閾值情況。當增長大于規則參數中日/周同比增長閾值或下跌超過規則參數中日/周同比下跌閾值時觸發告警。 |
關聯儀表盤 | 讀取日志數總計:從源Logstore的各個shard中讀取到的數據條數總計,默認時間周期為1天。 |
分析SQL樣例 | 創建告警規則的查詢統計對話框中輸入以下SQL。 以下模板
|
監控規則 |
說明 為了避免原始數據流量的周期性波動導致的告警誤報,建議日/周同比增長閾值和日/周同比下跌閾值設置不小于20%,或者調整同比周期,使其與原始數據流量的周期匹配。 |
消除方法 | 請按照如下原則進行處理:
|
寫出結果量(同比)監控
項目 | 說明 |
作用 | 用于監控數據加工任務寫出數據量相比昨日、以及上一周的增長閾值和下跌閾值情況。當增長大于規則參數中日/周同比增長閾值或下跌超過規則參數中日/周同比下跌閾值時觸發告警。 |
關聯儀表盤 | 寫出日志數總計:成功寫入到所有目標Logstore的數據條數總計,默認時間周期為1天。 |
分析SQL樣例 | 創建告警規則的查詢統計對話框中輸入以下SQL。 以下模板
|
監控規則 |
說明 為了避免原始數據流量的周期性波動導致的告警誤報,建議日/周同比增長閾值和日/周同比下跌閾值設置不小于20%,或者調整同比周期,使其與原始數據流量的周期匹配。 |
消除方法 | 請按照如下原則進行處理:
|