日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

配置實時監(jiān)控報警規(guī)則

為了及時發(fā)現(xiàn)并處理任務(wù)運行過程中的異常,Dataphin支持批量為任務(wù)配置報警規(guī)則,便于您及時發(fā)現(xiàn)并處理異常,同時提高了為任務(wù)配置監(jiān)控報警規(guī)則的效率。本文為您介紹如何為實時任務(wù)配置監(jiān)控告警規(guī)則。

背景信息

Dataphin支持批量配置監(jiān)控報警規(guī)則,包括為批量任務(wù)或字段配置相同的監(jiān)控報警規(guī)則、為單個任務(wù)或字段配置批量監(jiān)控報警規(guī)則,提高了配置監(jiān)控報警規(guī)則的效率。

同時,Dataphin支持為單個監(jiān)控報警規(guī)則配置不同的接收人,并且給不同接收人可以指定不同的接收方式,以實現(xiàn)某任務(wù)相關(guān)人員都能收到報警信息。例如:

  • 為值班人配置電話告警,這樣能在第一時間及時接收到告警信息并處理,盡量減少對下游任務(wù)的影響。

  • 為責(zé)任人配置短信或郵件告警,這樣責(zé)任人能了解所負責(zé)的任務(wù)的運行概況,但是不用第一時間進行處理。

  • 為項目管理員配置釘釘群機器人告警,這樣項目管理員能通過群消息了解所管理的項目全局任務(wù)的整體運行情況,便于后續(xù)統(tǒng)計分析。

前提條件

在執(zhí)行操作前,請確認您已滿足如下條件:

  • 已提交Basic項目中的任務(wù)至生產(chǎn)環(huán)境。

  • 已發(fā)布Dev項目中的任務(wù)至生產(chǎn)環(huán)境。具體操作,請參見管理發(fā)布任務(wù)

使用限制

  • 僅支持針對生產(chǎn)環(huán)境的任務(wù)進行配置監(jiān)控報警規(guī)則。

  • 單擊配置最多支持選擇100個監(jiān)控項。監(jiān)控項包括任務(wù)和邏輯表字段。

  • Ververica Flink不支持告警配置。

批量為任務(wù)配置相同的監(jiān)控規(guī)則

  1. 請參見運維中心入口,進入運維中心。

  2. 按照下圖操作指引,進入新建實時任務(wù)監(jiān)控配置(批量監(jiān)控項配置)對話框。

    image..png

  3. 新建實時任務(wù)監(jiān)控配置(批量監(jiān)控項配置)對話框,配置參數(shù)。

    1. 配置報警原因頁面,選擇報警原因。

      不同實時計算引擎支持的報警規(guī)則不同,請以實際頁面顯示為準。

      image..png

      報警規(guī)則說明如下表所示。

      報警原因

      報警規(guī)則

      運行失敗

      當(dāng)任務(wù)運行失敗時,即觸發(fā)報警。

      業(yè)務(wù)延時過高

      當(dāng)任務(wù)運行過程中的延時超過設(shè)定時間后,即觸發(fā)報警。

      TPS超過范圍

      當(dāng)任務(wù)運行過程中的TPS(Transaction Per Second)超過設(shè)定的范圍后,即觸發(fā)報警。

      失敗頻率超過配置

      當(dāng)任務(wù)運行過程中的失敗頻率超過設(shè)定的頻率后,即觸發(fā)報警。

      數(shù)據(jù)滯留超過配置

      當(dāng)任務(wù)運行過程中的數(shù)據(jù)滯留超過設(shè)定的時間后,即觸發(fā)報警。

      checkpoint失敗配置

      當(dāng)任務(wù)運行過程中的checkpoint連續(xù)失敗超過設(shè)定的次數(shù)后,即觸發(fā)報警。

    2. 根據(jù)您選擇的報警原因,配置實時任務(wù)監(jiān)控規(guī)則的監(jiān)控區(qū)間、接收配置等參數(shù)。

      image..png

      參數(shù)

      描述

      報警原因

      為您展示上一步中已選擇的報警原因。同時您也可以修改報警原因。

      規(guī)則配置

      根據(jù)報警原因,配置報警規(guī)則:

      • 運行失敗:運行失敗即報警。

      • 業(yè)務(wù)延時過高:需要指定業(yè)務(wù)延時超過多少時間后報警。

      • TPS超過范圍:需要指定TPS超過那個范圍后報警。

      • 失敗頻率超過配置:需要指定失敗頻率超過多少次每分鐘后報警。

      • 數(shù)據(jù)滯留超過配置:需要指定數(shù)據(jù)滯留超過多少秒后報警。

      • checkpoint失敗配置:需要指定checkpoint連續(xù)失敗幾次后報警。

      報警頻率

      通知報警信息給接收對象的頻率。頻率范圍為1~59分鐘/次。

      監(jiān)控區(qū)間

      設(shè)置實時任務(wù)監(jiān)控規(guī)則任務(wù)運行情況的時間區(qū)間。您可以選擇全天監(jiān)控,也可以自定義監(jiān)控時間段。

      接收配置

      配置報警信息的接收人和接收方式。您可以在單個監(jiān)控規(guī)則中配置不同的接收人,并且給不同接收人指定不同的接收方式:

      • 接收人包括責(zé)任人值班表自定義

        • 責(zé)任人:適用于需要報警給任務(wù)負責(zé)人的場景。

        • 值班表:適用于需要報警給值班人員的場景,以便及時處理異常。

          需要您提前完成值班表的創(chuàng)建,詳情請參見管理值班表

        • 自定義:適用于需要報警給非責(zé)任人和值班人員的場景,例如需要報警給項目管理員。

      • 接收方式包括釘釘、短信、電話和郵件。

        重要

        選擇接收人對應(yīng)的聯(lián)系方式。如何為接收人配置聯(lián)系方式,請參見添加Dataphin成員

      例如,一個任務(wù)觸發(fā)失敗告警,希望該任務(wù)相關(guān)人都能收到告警信息,但是告警強度有所區(qū)別,您可以采用如下配置:

      • 為值班人配置電話告警,這樣能在第一時間及時接收到告警信息并處理,盡量減少對下游任務(wù)的影響。

      • 為責(zé)任人配置短信或郵件告警,這樣責(zé)任人能了解所負責(zé)的任務(wù)的運行概況,但是不用第一時間進行處理。

      • 為項目管理員配置釘釘群機器人告警,這樣項目管理員能通過群消息了解所管理的項目全局任務(wù)的整體運行情況,便于后續(xù)統(tǒng)計分析。

    3. 選擇監(jiān)控項頁簽,選擇需要配置監(jiān)控規(guī)則的監(jiān)控項。

      image..png

      重要

      單次配置最多支持選擇100個監(jiān)控項。監(jiān)控項包括任務(wù)和邏輯表的字段。

為單個任務(wù)配置批量監(jiān)控報警規(guī)則

  1. 請參見運維中心入口,進入運維中心。

  2. 按照下圖操作指引,進入新建實時任務(wù)監(jiān)控(批量監(jiān)控規(guī)則配置)對話框。

    image..png

  3. 新建實時任務(wù)監(jiān)控(批量監(jiān)控規(guī)則配置)對話框,按照如下步驟配置參數(shù)。

    image..png

    1. 在①區(qū)域選擇需要配置監(jiān)控規(guī)則的實時任務(wù)。

    2. 在②區(qū)域選擇報警原因。報警原因及觸發(fā)報警規(guī)則詳細說明如下。

      不同實時計算引擎支持的報警規(guī)則不同,請以實際頁面顯示為準。

      報警原因

      報警規(guī)則

      運行失敗

      當(dāng)任務(wù)運行失敗時,即觸發(fā)報警。

      業(yè)務(wù)延時過高

      當(dāng)任務(wù)運行過程中的延時超過設(shè)定時間后,即觸發(fā)報警。

      TPS超過范圍

      當(dāng)任務(wù)運行過程中的TPS(Transaction Per Second)超過設(shè)定的范圍后,即觸發(fā)報警。

      失敗頻率超過配置

      當(dāng)任務(wù)運行過程中的失敗頻率超過設(shè)定的頻率后,即觸發(fā)報警。

      數(shù)據(jù)滯留超過配置

      當(dāng)任務(wù)運行過程中的數(shù)據(jù)滯留超過設(shè)定的時間后,即觸發(fā)報警。

      checkpoint失敗配置

      當(dāng)任務(wù)運行過程中的checkpoint連續(xù)失敗超過設(shè)定的次數(shù)后,即觸發(fā)報警。

    3. 在③區(qū)域配置監(jiān)控區(qū)間、接收配置等參數(shù)。

      參數(shù)

      描述

      報警原因

      為您展示區(qū)域②中已選擇的報警原因,并為報警原因配置報警規(guī)則。

      報警頻率

      通知報警信息給接收對象的頻率。頻率范圍為1~59分鐘/次。

      監(jiān)控區(qū)間

      設(shè)置任務(wù)監(jiān)控規(guī)則任務(wù)運行情況的時間區(qū)間。您可以選擇全天監(jiān)控,也可以自定義監(jiān)控時間段。

      接收配置

      配置報警信息的接收人和接收方式。您可以在單個監(jiān)控規(guī)則中配置不同的接收人,并且給不同接收人指定不同的接收方式:

      • 接收人包括責(zé)任人值班表自定義

        • 責(zé)任人:適用于需要報警給任務(wù)負責(zé)人的場景。

        • 值班表:適用于需要報警給值班人員的場景,以便及時處理異常。

        • 需要您提前完成值班表的創(chuàng)建,詳情請參見管理值班表

        • 自定義:適用于需要報警給非責(zé)任人和值班人員的場景,例如需要報警給項目管理員。

      • 接收方式包括釘釘、短信、電話和郵件。

        重要

        選擇接收人對應(yīng)的聯(lián)系方式。如何為接收人配置聯(lián)系方式,請參見添加Dataphin成員

      • 為值班人配置電話告警,這樣能在第一時間及時接收到告警信息并處理,盡量減少對下游任務(wù)的影響。

      • 為責(zé)任人配置短信或郵件告警,這樣責(zé)任人能了解所負責(zé)的任務(wù)的運行概況,但是不用第一時間進行處理。

      • 為項目管理員配置釘釘群機器人告警,這樣項目管理員能通過群消息了解所管理的項目全局任務(wù)的整體運行情況,便于后續(xù)統(tǒng)計分析。

  4. 單擊確定

查看及管理已生成的監(jiān)控報警規(guī)則

實時監(jiān)控頁面展示已配置的實時監(jiān)控的任務(wù)名稱和ID、報警原因、創(chuàng)建人、接收方式、接收人、最后修改時間、監(jiān)控開關(guān)的狀態(tài)信息。image..png

區(qū)域

描述

篩選及搜索區(qū)

您可以指定報警原因、接收方式、創(chuàng)建人或接收人作為篩選條件,快速高效的定位目標,查看監(jiān)控配置的詳情。

篩選項包括:

  • 報警原因:包括業(yè)務(wù)延時過高、TPS超過范圍、失敗頻率超過配置、數(shù)據(jù)滯留超過配置和checkpoint失敗配置。

  • 接收方式:包括電話、短信、釘釘和郵件。

  • 創(chuàng)建人:即創(chuàng)建該條監(jiān)控規(guī)則的用戶。

  • 接收人:即每條監(jiān)控規(guī)則中配置的告警接收對象。

如果您需要重新篩選,則單擊重置,即可快速清空所有篩選條件,恢復(fù)系統(tǒng)默認。

監(jiān)控項操作區(qū)

您可以編輯、刪除監(jiān)控規(guī)則和開啟或關(guān)閉監(jiān)控開關(guān)。

批量操作區(qū)

您可以批量刪除監(jiān)控報警規(guī)則、開啟或關(guān)閉監(jiān)控開關(guān)。同時您可以單擊接收人顯示框后,新增、刪除和替換自定義接收人及修改接收配置。

批量操作的權(quán)限限制,請參見調(diào)度運維權(quán)限列表

后續(xù)步驟

您可以在告警中心查看所有的告警事件。如何查看告警事件,請參見告警事件