將任務或明細匯總表字段添加到基線監控的保障對象后,基線監控能夠及時捕捉導致基線上的任務無法按時完成的異常情況并提前預警,保障復雜依賴場景下重要數據能在預期時間內順利產出,幫助您降低運維成本、避免無效報警、自動監控所有重要任務。
前提條件
已購買智能運維增值服務。
應用場景
管理任務優先級:在任務數量越來越多,而在資源有限的情況下,當發生資源搶占時,您可以將重要任務添加至基線上,并為基線設置較高的優先級,以保證重要的任務可以優先分配到資源。
自動推算任務預計產出時間:任務的運行受到資源和上游任務運行情況的影響,您可以將任務添加至基線上,Dataphin將計算出該任務每天或每小時的預計產出時間,便于您提前感知。
自動圈選監控范圍:添加需要保障的任務或字段后,系統將基于依賴關系自動推算需要納入監控范圍的上游節點,降低人工運維成本。
基線及事件告警:您可以將任務添加至基線上,并設置基線保障產出時間。當系統預測到基線上任務無法在保障產出時間前完成,或上游節點任務有出錯或變慢的情況時,將發送告警信息,您可以根據告警信息及時處理問題,保障任務在保障產出時間前運行完成。
關鍵路徑與關鍵實例識別:基線上需要保障的任務,其依賴關系可能錯綜復雜,Dataphin提供甘特圖功能幫助您快速定位阻塞基線上數據產出的關鍵路徑與關鍵實例,其中影響基線任務產出的多條路徑中,耗時最長的路徑為基線關鍵路徑。
名詞解釋
在使用Dataphin基線監控功能前,建議您可先理解基線監控所涉及的基本概念和術語。
基線:可以形象的理解為在高速公路上的應急車道。將任務添加到基線的保障對象后,相對于普通的任務,在基線上的任務具備更高的運行優先級,并且可以預先設置保障產出時間,系統將根據任務運行情況計算基線任務的預計完成時間。當系統判斷基線任務可能無法在承諾時間前完成,系統將發出告警。
保障對象:一個基線可以有1個或多個保障對象,保障節點支持物理任務和邏輯表字段2種。
保障產出時間:任務運行成功的最晚時間點,即任務承諾在該時間點前完成。同時您可為基線設置預警余量,則系統依此進行計算并作為觸發報警的預警時間,在任務到達預警時間且未完成時,系統將發出告警,以便在保障產出時間前存在一定的時間進行異常處理。
預警時間:即等于保障產出時間-預警余量。
歷史預計產出時間:系統根據基線任務最近7天運行成功的記錄進行推算每次運行的預計產出時間。
基線實例狀態:基線實例的狀態包括:安全、預警、破線:
安全:歷史預計產出時間<預警時間。
預警:預警時間<歷史預計產出時間<保障產出時間。
破線:預計完成時間>保障產出時間。
關鍵路徑(最長路徑):影響基線任務運行的多條路徑中,運行耗時最長的路徑。可以簡單的理解為PERT圖的關鍵路徑。
基線告警:當業務時間到達基線的預警時間且未完成時,將產生基線告警。
事件告警:基線任務及其上游任務出錯,或關鍵路徑上的任務變慢時,將產生事件告警。
功能概述
將重要任務添加到基線上后,將根據基線的優先級保障基線任務的運行,并根據基線任務的上下游依賴關系確定監控范圍,根據該監控范圍內任務的運行情況觸發基線告警或事件告警。
使用基線監控基本流程如下。
基線監控規則
在開始配置基線監控前,建議您先了解相關的基線監控規則。規則包括監控范圍規則、基線告警規則、事件告警規則、歷史預計產出時間規則、基線狀態規則。
監控范圍規則
創建基線任務后,基線會根據保障對象的依賴關系確定需要監控的范圍,劃定監控范圍規則如下:
上游任務:影響基線上任務數據產出的上游任務會被納入基線監控范圍。
上游分支任務:不影響基線任務數據產出的上游其他分支任務不會納入基線監控范圍。
下游任務:下游任務不會被納入基線監控范圍。
基線告警規則
將重要任務添加到基線上,設置基線保障產出時間和預警余量后,系統會將保障產出時間-預警余量作為預警時間,任務實際運行時,當業務時間到達基線的預警時間且基線任務未完成時,將產生基線告警。
事件告警規則
監控范圍確定后,當監控范圍內的任務出現異常時,會觸發事件告警。任務的異常包括:
出錯:任務運行失敗。
變慢:根據最近7次正常調度且運行成功的記錄推算歷史平均運行時長。若本次運行超過歷史平均運行時長的30%,則觸發變慢告警。
您可以進入告警中心查看產生的告警事件信息。
歷史預計產出時間規則
基線的歷史預計產出時間是根據添加到基線的任務,最近7天運行成功的記錄進行推算每次運行的預計產出時間,當基線有多個保障對象時,基線的歷史預計產出時間以各基線任務平均完成時間進行推算。
小時任務不會進行計算,數據不足時,可能存在誤差,僅作為參考。
基線狀態規則
設置基線保障對象、保障產出時間和預警余量后,基線將根據所設置參數決定基線狀態的時間節點,不同時間節點基線狀態不同。例如基線的預計產出時間為13:00,設置的保障產出時間為15:00,預警余量為60分鐘,即1個小時。則當業務時間在保障產出時間-預警余量=14:00之前,基線狀態為安全,12:00之后將觸發基線告警,狀態為預警。當業務時間到達保障產出時間15:00時,若基線任務仍然未完成,狀態將為破線。
基線監控入口
在Dataphin首頁,單擊頂部菜單欄的研發 > 任務運維。
在運維中心頁面,單擊側邊導航欄基線監控,進入基線監控頁面。
基線監控頁面介紹
基線監控頁面主要由搜索及篩選區、基線任務列表、批量操作區組成。您可以在基線監控頁面對創建的基線監控進行查看、編輯、變更記錄、刪除等運維操作。
區域 | 描述 |
①搜索及篩選區 | 搜索及篩選區支持通過輸入基線名稱來篩選基線監控。同時支持勾選我負責的、監控開啟或選擇基線監控負責人、基線監控優先級進行快捷篩選。
|
②操作區 |
|
③基線監控列表 | 基線監控頁面以列表形式為您展示已配置的基線監控。包括基線名稱、優先級、基線類型、監控開關、負責人、預警時間、保障時間。同時您可單擊監控開關下按鈕,開啟和關閉基線監控。 說明 基線類型包括天基線和空基線。
您可對基線監控執行運維管理,支持的操作如下:
|
④批量操作區 | 您可通過批量操作區域提供的開啟監控、關閉監控、修改負責人批量對基線監控進行批量處理,提高操作效率。 |