日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

觀測與監控數據加工(新版)任務

本文介紹數據加工(新版)任務運行的指標詳情,如何查看數據加工儀表盤、以及配置任務監控。

指標數據

數據加工(新版)任務的運行指標需要開啟SLS任務運行日志,開啟任務運行日志請參見管理服務日志

儀表盤

創建數據加工任務后,日志服務默認為每個加工任務創建一個儀表盤,位于數據加工任務詳情頁面。您可以在儀表盤中查看數據加工任務運行指標。

操作步驟

  1. 登錄日志服務控制臺

  2. 在Project列表區域,單擊目標Project。

    image

  3. 在左側導航欄中,選擇任務管理 > 數據加工

  4. 單擊目標數據加工任務,在執行狀態區域,查看儀表盤信息。

總覽指標

總覽指標信息如下所示。

image.png

  • 加工速率:默認時間周期為1小時,統計窗口為1分鐘,速率為數據條目數/秒。

    • ingest:從源Logstore的各個shard中讀到的數據條數。

    • deliver:成功寫入到目標Logstore的數據條數。

    • failed:從源Logstore的各個shard中讀取,在加工過程中發生失敗的數據條數。

  • 讀取日志數總計:從源Logstore的各個shard中讀取到的數據條數總計,默認時間周期為1天。

  • 寫出日志數總計:成功寫入到所有目標Logstore的數據條數總計,默認時間周期為1天。

  • 失敗日志數總計:從源Logstore的各個shard中讀取、并在加工過程中發生失敗的數據條數總計,默認時間周期為1天。

  • 寫出日志數占比:成功投遞到目標Logstore的數據條數占源Logstore讀取到數據條數的比例,默認時間周期為1天。

Shard詳情分析

統計每分鐘窗口內,加工任務讀取源Logstore數據時,每個Shard的指標。

image.png

  • Shard消費延遲(s):每一個Shard中寫入的最后一數據的接收時間,與數據加工中該Shard正在處理的數據接收時間之差,單位為秒。

  • 活躍Shard統計:默認統計周期為1小時。

    • shard: 指定統計的Shard編號。

    • ingest:從該Shard中讀到的原始數據條數。

    • failed:從該Shard中讀到原始數據,并在加工過程中發生失敗的數據條數。

運行異常

您可以根據message字段,查看運行報錯的細節。

image.png

告警規則

監控數據加工(新版)任務,依賴于任務運行指標,請參見指標數據。可以使用日志服務告警功能實現任務監控,請參見告警。這里介紹如下的數據加工(新版)告警規則:處理延遲監控、處理異常報錯監控、處理流量(絕對值)監控、處理流量(同比)監控。創建告警規則請參見創建日志告警規則

重要

創建數據加工(新版)告警規則添加的查詢統計的項目和日志庫為該項目任務運行日志保存的項目和日志庫。任務運行日志保存請參見管理服務日志

image

處理延遲監控

項目

說明

作用

用于監控數據加工任務中Shard消費延遲情況。當加工延遲時長大于規則參數中延遲監控閾值時觸發告警。

關聯儀表盤

請參見Shard消息延遲

分析SQL樣例

以下模板{job_name}替換為需要監控的數據加工(新版)任務名稱。

__topic__: etl_metrics and 
job_name: {job_name} and
"_etl_:connector_meta.action": ingest
| select
  split_part(
    "_etl_:connector_meta.task_name",
    '#',
    2
  ) as shard,
  max_by("_etl_:connector_metrics.lags", __time__) as lags
group by
  shard
having
  shard is not null
limit
  all

監控規則

  • 觸發條件選擇有數據匹配,評估表達式為:lags>120,延遲監控閾值為120秒。

  • 查詢區間為:5分鐘。

  • 檢查頻率為:5分鐘。

說明

為了避免數據加工(新版)按1分鐘周期更新處理指標,以及數據洪峰導致的延遲情況,導致的告警誤報,建議按照以上規則配置。

消除方法

請按照如下原則進行處理:

  1. 如果該數據加工任務處理歷史數據,且剛創建,需要一段時間完成歷史數據,請先觀察1小時,看延遲是否降到告警范圍以內。若否,則進行下一步。

  2. 如果源Logstore的數據量明顯增長:

    • 加工速率 (events/s)速度同時提高,而且Shard消費延遲(s)出現下降趨勢,則說明由于源Logstore數據增長,數據加工任務在自動擴容資源。請先觀察5分鐘,看延遲是否降到告警范圍以內。若否,則進行下一步。

    • 加工速率 (events/s)速度沒有提高,或者Shard消費延遲(s)還處于上漲趨勢,則說明可能是源Logstore的Shard數目不足,導致數據加工資源擴展受限,您需要手動分裂源Logstore的Shard。具體操作,請參見管理Shard。完成分裂后,請先觀察5分鐘,看延遲是否降到告警范圍以內。若否,則進行下一步。

  3. 如果存在數據加工異常報錯監控,請優先處理。處理完成后,請先觀察5分鐘,看延遲是否降到告警范圍以內。若否,則進行下一步。

  4. 如果告警無法處理,請準備Project、Logstore和數據加工任務ID信息,提工單聯系阿里云技術支持。

處理異常報錯監控

項目

說明

作用

用于監控數據加工任務中異常報錯。當數據加工出現異常報錯時觸發告警。

關聯儀表盤

請參見運行異常

分析SQL樣例

以下模板{job_name}替換為需要監控的數據加工(新版)任務名稱。

__topic__: etl_metrics and 
job_name: {job_name} and 
"_etl_:connector_metrics.error": *
| select
  distinct "_etl_:connector_metrics.error" as errors

監控規則

  • 觸發條件選擇有數據

  • 查詢區間為:10分鐘

  • 檢查頻率為:10分鐘。

消除方法

請按照如下對應報錯信息進行處理:

  • 錯誤信息中包含Invalid SPL query,則說明數據加工任務配置的SPL規則存在語法錯誤,需要參照報錯信息進行修改。更多信息,請參見SPL語法

  • 錯誤信息中包含Unauthorized、InvalidAccessKeyId或SignatureNotMatch,則說明數據加工任務讀取源Logstore數據、或者寫入目標Logstore權限不足。更多信息,請參見授權概述

  • 錯誤信息中包含ProjectNotExist或LogStoreNotExist,則說明數據加工任務涉及的Project或Logstore不存在。請登錄 日志服務控制臺 檢查并處理。

  • 如果告警無法處理,請準備Project、Logstore和數據加工任務ID信息,提工單聯系阿里云技術支持。

寫出數據量占比(同比)監控

項目

說明

作用

用于監控數據加工任務寫出至目標Logstore的處理結果數據量,與從源Logstore讀取的原始數據量的比例,相比昨日、以及上一周的增長閾值和下跌閾值情況。當增長大于規則參數中日/周同比增長閾值或下跌超過規則參數中日/周同比下跌閾值時觸發告警。

關聯儀表盤

寫出日志數占比:成功投遞到目標Logstore的數據條數占源Logstore讀取到數據條數的比例,默認時間周期為1天。

分析SQL樣例

創建告警規則的查詢統計對話框中輸入以下SQL。

以下模板{job_name}替換為需要監控的數據加工(新版)任務名稱。

__topic__: etl_metrics and 
job_name: {job_name}
| select
  round(diff [1], 1) as percent,
  round(coalesce(diff [3], 0), 1) as ratio_1d,
  round(coalesce(diff [5], 0), 1) as ratio_1w
from(
    select
      compare(percent, 86400, 604800) as diff
    FROM      (
        select
          deliver /(ingest + 0.0001) as percent
        from(
            select
              sum(
                if(
                  "_etl_:connector_meta.action" = 'ingest',
                  "_etl_:connector_metrics.native_bytes",
                  0
                )
              ) as ingest,
              sum(
                if(
                  "_etl_:connector_meta.action" = 'deliver',
                  "_etl_:connector_metrics.native_bytes",
                  0
                )
              ) as deliver
            FROM              log
          )
      )
  )

監控規則

  • 觸發條件選擇有數據匹配,評估表達式為:(ratio_1d>120 || ratio_1d<80) && (ratio_1w>120 || ratio_1w<80) ,日/周同比增長和下跌閾值均為20%。

  • 查詢區間為:1小時

  • 檢查頻率為:1小時。

說明

為了避免原始數據流量的周期性波動導致的告警誤報,建議日/周同比增長閾值和日/周同比下跌閾值設置不小于20%,或者調整同比周期,使其與原始數據流量的周期匹配。

消除方法

請按照如下原則進行處理:

  1. 如果源Logstore的數據量存在變化,請先檢查是否有新數模式的數據接入、或者某些模式的數據斷流。如果存在該情況,且由此導致的數據變化與當前規則對應的指標一致,則說明是由于源Logstore數據模式變化導致的。否則,進行下一步。

  2. 如果存在數據加工延遲監控、或者處理異常報錯監控,請優先處理。處理完成后,請先觀察15分鐘,如果數據加工延遲已經回到1分鐘以內,但是加工數據量與源Logstore數據量增加(減少)趨勢不一致,則進行下一步。

  3. 如果告警無法處理,請準備Project、Logstore和數據加工任務ID信息,提工單聯系阿里云技術支持。

讀取源數據量(同比)監控

項目

說明

作用

用于監控數據加工任務讀取數據量相比昨日、以及上一周的增長閾值和下跌閾值情況。當增長大于規則參數中日/周同比增長閾值或下跌超過規則參數中日/周同比下跌閾值時觸發告警。

關聯儀表盤

讀取日志數總計:從源Logstore的各個shard中讀取到的數據條數總計,默認時間周期為1天。

分析SQL樣例

創建告警規則的查詢統計對話框中輸入以下SQL。

以下模板{job_name}替換為需要監控的數據加工(新版)任務名稱。

__topic__: etl_metrics and 
job_name: {job_name} and
"_etl_:connector_meta.action": ingest
| select
  diff [1] as events,
  round(coalesce(diff [3], 0),  1) as ratio_1d,
  round(coalesce(diff [5], 0),  1) as ratio_1w
from(
    select
      compare(events, 86400, 604800) as diff
    FROM      (
        select
          sum("_etl_:connector_metrics.events") as events
        FROM          log
      )
  )

監控規則

  • 觸發條件選擇有數據匹配,評估表達式為:(ratio_1d>120 || ratio_1d<80) && (ratio_1w>120 || ratio_1w<80) ,日/周同比增長和下跌閾值均為20%。

  • 查詢區間為:1小時

  • 檢查頻率為:1小時。

說明

為了避免原始數據流量的周期性波動導致的告警誤報,建議日/周同比增長閾值和日/周同比下跌閾值設置不小于20%,或者調整同比周期,使其與原始數據流量的周期匹配。

消除方法

請按照如下原則進行處理:

  1. 如果該值變化趨勢與源Logstore的數據量增長(減少)趨勢一致,則說明是由于源Logstore數據量導致的。否則,進行下一步。

  2. 如果存在數據加工延遲監控、或者處理異常報錯監控,請優先處理。處理完成后,請先觀察15分鐘,如果數據加工延遲已經回到1分鐘以內,但是加工數據量與源Logstore數據量增加(減少)趨勢不一致,則進行下一步。

  3. 如果告警無法處理,請準備Project、Logstore和數據加工任務ID信息,提工單聯系阿里云技術支持。

寫出結果量(同比)監控

項目

說明

作用

用于監控數據加工任務寫出數據量相比昨日、以及上一周的增長閾值和下跌閾值情況。當增長大于規則參數中日/周同比增長閾值或下跌超過規則參數中日/周同比下跌閾值時觸發告警。

關聯儀表盤

寫出日志數總計:成功寫入到所有目標Logstore的數據條數總計,默認時間周期為1天。

分析SQL樣例

創建告警規則的查詢統計對話框中輸入以下SQL。

以下模板{job_name}替換為需要監控的數據加工(新版)任務名稱。

__topic__: etl_metrics and 
job_name: {job_name} and
"_etl_:connector_meta.action": deliver
| select
  diff [1] as events,
  round(coalesce(diff [3], 0),  1) as ratio_1d,
  round(coalesce(diff [5], 0),  1) as ratio_1w
from(
    select
      compare(events, 86400, 604800) as diff
    FROM      (
        select
          sum("_etl_:connector_metrics.events") as events
        FROM          log
      )
  )

監控規則

  • 觸發條件選擇有數據匹配,評估表達式為:(ratio_1d>120 || ratio_1d<80) && (ratio_1w>120 || ratio_1w<80) ,日/周同比增長和下跌閾值均為20%。

  • 查詢區間為:1小時

  • 檢查頻率為:1小時。

說明

為了避免原始數據流量的周期性波動導致的告警誤報,建議日/周同比增長閾值和日/周同比下跌閾值設置不小于20%,或者調整同比周期,使其與原始數據流量的周期匹配。

消除方法

請按照如下原則進行處理:

  1. 如果該值變化趨勢與源Logstore的數據量增長(減少)趨勢一致,則說明是由于源Logstore數據量導致的。若否,則進行下一步。

  2. 如果存在數據加工延遲監控、或者處理異常報錯監控,請優先處理。處理完成后,請先觀察15分鐘,如果數據加工延遲已經回到1分鐘以內,但是加工數據量與源Logstore數據量增加(減少)趨勢不一致,則進行下一步。

  3. 如果告警無法處理,請準備Project、Logstore和數據加工任務ID信息,提工單聯系阿里云技術支持。