為了及時發現并處理任務運行過程中的異常,Dataphin支持批量為任務配置報警規則,便于您及時發現并處理異常,同時提高了為任務配置監控報警規則的效率。本文為您介紹如何為任務和邏輯表字段配置監控報警規則。
背景信息
Dataphin支持批量配置監控報警規則,包括為批量任務或字段配置相同的監控報警規則、為單個任務或字段配置批量監控報警規則,提高了配置監控報警規則的效率。
同時,Dataphin支持為單個監控報警規則配置不同的接收人,并且給不同接收人可以指定不同的接收方式,以實現某任務相關人員都能收到報警信息。例如:
為值班人配置電話告警,這樣能在第一時間及時接收到告警信息并處理,盡量減少對下游任務的影響。
為責任人配置短信或郵件告警,這樣責任人能了解所負責的任務的運行概況,但是不用第一時間進行處理。
為項目管理員配置釘釘群機器人告警,這樣項目管理員能通過群消息了解所管理的項目全局任務的整體運行情況,便于后續統計分析。
前提條件
在執行操作前,請確認您已滿足以下條件中的任意一個:
已提交Basic項目中的任務至生產環境。
已發布Dev項目中的任務至生產環境。具體操作,請參見發布任務。
使用限制
僅支持針對生產環境的任務進行配置監控報警規則。
為批量任務或字段配置相同的監控報警規則
請參見運維中心入口,進入運維中心。
按照下圖指引,進入新建離線任務監控對話框。
在新建離線任務監控對話框,配置參數。
在配置報警原因頁面,選擇報警原因。
報警原因及觸發報警規則詳細說明如下。
報警原因
報警規則及適用場景
完成
當任務完成運行后,即可觸發報警。適用于監控任務是否運行完成。
出錯
當任務運行過程中出錯后,即可觸發報警。適用于監控任務運行過程中是否出錯。
說明Dataphin會自動重試運行任務,直至重試次數耗盡。如果任務運行仍然出錯,才會觸發告警。
運行超時
當任務運行超過設定的時長后,即可觸發報警。適用于監控任務需要在指定時長內完成運行。
未完成
當任務運行在指定的時間點未完成運行,即可觸發報警。適用于監控任務需要在指定的時間點前完成運行。
數據延遲
當任務未完成數據延遲處理時,即可觸發報警。適用對已配置數據延遲的事實邏輯表進行監控。
根據您選擇的報警原因,配置對應的監控報警規則后,單擊下一步。
參數
描述
報警原因
為您展示上一步中已選擇的報警原因。如果上一步中您選擇了運行超過或未完成,則需要指定時間:
運行超過:設置運行總時長,超過改時長未運行完成則告警。
未完成:設置預計運行完成的時間點,超過該時間點未運行完成則告警。
說明針對未完成的監控報警,更改監控任務的調度周期為小時或分鐘,將會導致對應監控規則失效。
報警頻率
告警信息發送的頻率。頻率范圍為1~59分鐘/次。
監控區間
設置監控生效的時間區間。您可以選擇全天監控,也可以指定具體時間段。
接收配置
配置報警信息的接收人以及對應的接收方式。您可以在單個監控規則中配置不同的接收人,并且給不同接收人指定不同的接收方式:
接收人包括責任人、值班表和自定義:
責任人:適用于需要報警給任務負責人的場景。
值班表:適用于需要報警給值班人員的場景,以便及時處理異常。
需要您提前完成值班表的創建,詳情請參見新建值班表。
自定義:適用于需要報警給非責任人和值班人員的場景,例如需要報警給項目管理員。
接收方式包括釘釘、短信、電話和郵件。
重要選擇接收人對應的聯系方式。如何為接收人配置聯系方式,請參見添加、配置及管理Dataphin成員。
例如,一個任務觸發失敗告警,希望該任務相關人都能收到告警信息,但是告警強度有所區別,您可以采用如下配置:
為值班人配置電話告警,這樣能在第一時間及時接收到告警信息并處理,盡量減少對下游任務的影響。
為責任人配置短信或郵件告警,這樣責任人能了解所負責的任務的運行概況,但是不用第一時間進行處理。
為項目管理員配置釘釘群機器人告警,這樣項目管理員能通過群消息了解所管理的項目全局任務的整體運行情況,便于后續統計分析。
發送次數
設置每個報警信息最多給接收人發送幾次報警通知。
配置告警規則之后,您需要在選擇監控項頁簽,按照下圖指引,選擇需要按照該告警規則監控的任務后,單擊確定。
重要單次配置最多支持選擇20個監控項。監控項包括任務和邏輯表的字段。
為一個任務或字段配置批量監控報警規則
請參見運維中心入口,進入運維中心。
在運維中心,按照下圖指引,進入新建離線任務監控對話框。
在新建離線任務監控對話框,按照下圖指引,選擇需要監控的任務及配置監控報警規則后,單擊確定。
在①區域選擇需要配置監控規則的任務或邏輯表字段。
在②區域添加多個報警原因。報警原因及觸發報警規則詳細說明如下。
報警原因
報警規則及適用場景
完成
當任務完成運行后,即可觸發報警。適用于監控任務是否運行完成。
出錯
當任務運行過程中出錯后,即可觸發報警。適用于監控任務運行過程中是否出錯。
說明Dataphin會自動重試運行任務,直至重試次數耗盡。如果任務運行仍然出錯,才會觸發告警。
運行超時
當任務運行超過設定的時長后,即可觸發報警。適用于監控任務需要在指定時長內完成運行。
未完成
當任務運行在指定的時間點未完成運行,即可觸發報警。適用于監控任務需要在指定的時間點前完成運行。
數據延遲
當任務未完成數據延遲處理時,即可觸發報警。適用對已配置數據延遲的事實邏輯表進行監控。
在③區域配置監控區間、接收配置等參數。
參數
描述
報警原因
為您展示區域②中已選擇的報警原因,并為報警原因配置報警規則。
報警頻率
通知報警信息給接收對象的頻率。頻率范圍為1~59分鐘/次。
監控區間
設置離線任務監控規則任務運行情況的時間區間。您可以選擇全天監控,也可以自定義監控時間段。
接收配置
配置報警信息的接收人以及對應的接收方式。您可以在單個監控規則中配置不同的接收人,并且給不同接收人指定不同的接收方式:
接收人包括責任人、值班表和自定義:
責任人:適用于需要報警給任務負責人的場景。
值班表:適用于需要報警給值班人員的場景,以便及時處理異常。
需要您提前完成值班表的創建,詳情請參見新建值班表。
自定義:適用于需要報警給非責任人和值班人員的場景,例如需要報警給項目管理員。
接收方式包括釘釘、短信、電話和郵件。
重要選擇接收人對應的聯系方式。如何為接收人配置聯系方式,請參見添加、配置及管理Dataphin成員。
查看及管理已生成的監控報警規則
在離線監控配置頁面,您可以單擊任務監控和字段監控頁簽,查看已生成的監控報警規則。
任務監控頁面
任務監控頁面展示已配置的任務監控的監控項(監控任務名稱和ID)、報警原因、創建人、接收方式、接收人、最后修改時間、監控開關的狀態信息。
操作
描述
篩選
在上圖的模塊①區域,您可以指定報警原因、接收方式、創建人或接收人作為篩選條件,快速高效的定位目標,查看監控配置的詳情。
篩選項包括:
報警原因:包括出錯、完成、運行超時和未完成。
接收方式:包括電話、短信、釘釘和郵件。
創建人:即創建該條監控規則的用戶。
接收人:即每條監控規則中配置的告警接收對象。
如果您需要重新篩選,則單擊重置,即可快速清空所有篩選條件,恢復系統默認。
單節點操作
在圖的模塊②區域,編輯、刪除監控規則和開啟或關閉監控開關。
批量操作
在圖的模塊③區域,批量刪除監控報警規則、開啟或關閉監控開關。同時您可以單擊接收人顯示框后,新增、刪除和替換自定義接收人及修改接收配置。
批量操作的權限限制,請參見調度運維權限列表。
字段監控頁面
任務監控頁面展示已配置的字段監控的邏輯表、監控項、報警原因、創建人、接收方式、接收人、最后修改時間、監控開關的狀態信息。
操作
描述
篩選
在上圖的模塊①區域,您可以指定邏輯表、監控項、接收方式、創建人或接收人作為篩選條件,快速高效的定位目標,查看監控配置的詳情。
篩選項包括:
邏輯表:選擇已配置監控的邏輯表。
監控項:選擇已配置監控的字段。
接收方式:包括電話、短信、釘釘和郵件。
創建人:即創建該條監控規則的用戶。
接收人:即每條監控規則中配置的告警接收對象。
如果您需要重新篩選,則單擊重置,即可快速清空所有篩選條件,恢復系統默認。
單節點操作
在上圖的模塊②區域,編輯、刪除監控規則和開啟或關閉監控開關。
批量操作
在上圖的模塊③區域,批量刪除監控報警規則、開啟或關閉監控開關。同時您可以單擊接收人顯示框后,新增、刪除和替換自定義接收人及修改接收配置。
批量操作的權限限制,請參見調度運維權限列表。
后續步驟
您可以在報警中心查看所有的報警事件。如何查看報警事件,請參見告警事件。