任務(wù)監(jiān)控
智能監(jiān)控功能支持您通過配置自定義規(guī)則,實現(xiàn)對任務(wù)運行狀態(tài)及資源使用情況的監(jiān)控;通過配置智能基線,保障復(fù)雜依賴場景下重要數(shù)據(jù)在預(yù)期時間內(nèi)正常產(chǎn)出。同時,您還可以根據(jù)業(yè)務(wù)需求自定義資源組運維規(guī)則,實現(xiàn)資源組的自動化運維。
功能介紹
各模塊功能介紹如下:
功能 | 描述 |
智能基線能夠及時捕捉導(dǎo)致基線上任務(wù)無法按時完成的異常情況并提前預(yù)警,保障復(fù)雜依賴場景下重要數(shù)據(jù)能在預(yù)期時間內(nèi)順利產(chǎn)出。 | |
您可以在規(guī)則管理界面管理全局規(guī)則,同時,還支持您根據(jù)業(yè)務(wù)需求自定義監(jiān)控規(guī)則。
| |
您可以在報警信息界面查看監(jiān)控報警信息,包括自定義規(guī)則報警信息、全局規(guī)則報警信息、智能基線報警信息等。 | |
您可以在值班表界面自定義值班表信息,以便配置監(jiān)控規(guī)則報警方式時可以選擇發(fā)送報警信息給值班表對應(yīng)的值班人。 說明 值班表支持設(shè)置主值班人和備值班人,默認報警給主值班人員,但是當(dāng)報警兩次后,第三次及之后的報警信息將同時報警給主、備值班人員。 | |
您可以根據(jù)業(yè)務(wù)需求,對獨享資源組創(chuàng)建運維規(guī)則并關(guān)聯(lián)已創(chuàng)建的監(jiān)控規(guī)則,當(dāng)關(guān)聯(lián)的監(jiān)控規(guī)則被觸發(fā)時,系統(tǒng)將對運行在目標(biāo)獨享資源組上且滿足過濾條件的任務(wù)自動執(zhí)行運維動作,以達到自動運維的目的。 說明 目前只支持關(guān)聯(lián)調(diào)度資源的監(jiān)控規(guī)則。 |
任務(wù)運行狀態(tài)監(jiān)控
監(jiān)控對象
您可以通過配置相應(yīng)的監(jiān)控規(guī)則(自定義規(guī)則、智能基線),對周期調(diào)度任務(wù)狀態(tài)、周期任務(wù)自動調(diào)度產(chǎn)生的周期實例運行狀態(tài)、實時計算任務(wù)運行狀態(tài)以及資源使用情況進行監(jiān)控。
周期任務(wù)狀態(tài)監(jiān)控
DataWorks每晚根據(jù)周期任務(wù)生成第二天待自動調(diào)度運行的周期實例,所以為保障周期任務(wù)可以正常產(chǎn)生周期實例并且自動調(diào)度運行,DataWorks內(nèi)置了全局報警規(guī)則(非空間級別報警規(guī)則)來對周期任務(wù)的狀態(tài)進行監(jiān)控,如有異常便會自動報警。報警包括孤立節(jié)點與節(jié)點成環(huán)。
規(guī)則類型
監(jiān)控對象
觸發(fā)條件
報警說明
全局規(guī)則
孤立節(jié)點:指任務(wù)展開父節(jié)點時,沒有依賴任何父節(jié)點。
孤立節(jié)點產(chǎn)生后會自動報警,如果收到孤立節(jié)點報警請及時處理。
說明在DataWorks上,除了工作空間根節(jié)點外,自定義的每個周期調(diào)度的任務(wù)都需要有父節(jié)點依賴才可以被正常調(diào)度運行。所以孤立節(jié)點不會自動調(diào)度運行,如果該孤立節(jié)點下游依賴較多,則會造成嚴(yán)重的后果。
DataWorks每天定時9點、12點、16點對周期任務(wù)狀態(tài)進行掃描,如有工作空間內(nèi)存在孤立節(jié)點或節(jié)點成環(huán)等異常現(xiàn)象,系統(tǒng)將會自動發(fā)送報警。但掃描時間點前10分鐘內(nèi)產(chǎn)生異常不會納入本次掃描,該異常將會被納入下一個周期的任務(wù)狀態(tài)掃描中進行掃描。
全局規(guī)則為系統(tǒng)內(nèi)置規(guī)則,您無須手動新建,默認以短信、郵件的方式報警給節(jié)點責(zé)任人。但您可以在規(guī)則管理頁面中針對全局規(guī)則修改報警接收人。
支持您在規(guī)則管理頁面關(guān)閉全局報警規(guī)則。
節(jié)點成環(huán):指某任務(wù)為上游任務(wù)但又同時依賴了自己的下游任務(wù),導(dǎo)致依賴關(guān)系成環(huán)。
節(jié)點成環(huán)后會自動報警,如果收到節(jié)點成環(huán)報警請及時處理。
說明節(jié)點成環(huán)后在自動調(diào)度時不會被調(diào)度調(diào)起。
周期實例運行狀態(tài)監(jiān)控
在DataWorks上,周期任務(wù)在周期性調(diào)度時將產(chǎn)生周期實例,DataWorks支持通過周期任務(wù)配置自定義監(jiān)控規(guī)則,實現(xiàn)對周期實例運行狀態(tài)的監(jiān)控,包括指定對象的自定義規(guī)則監(jiān)控報警和重要任務(wù)提前預(yù)警的基線預(yù)警功能。
規(guī)則類型
監(jiān)控對象
觸發(fā)條件
指定任務(wù)節(jié)點、基線、工作空間、業(yè)務(wù)流程上的任務(wù)。
當(dāng)任務(wù)運行完成、未完成、出錯、周期未完成、超時、自動重跑后仍出錯時,將觸發(fā)報警。
當(dāng)對象類型為工作空間時,除上述觸發(fā)條件外,還包括任務(wù)轉(zhuǎn)實例完成、實例數(shù)量波動。
基線任務(wù)及影響基線上任務(wù)數(shù)據(jù)產(chǎn)出的上游任務(wù)會被納入基線監(jiān)控范圍。
說明您可以通過設(shè)置基線優(yōu)先級來保障基線上的任務(wù)按時執(zhí)行,數(shù)據(jù)順利產(chǎn)出。
當(dāng)有任務(wù)需要重保并且上游任務(wù)依賴較為復(fù)雜時,可以使用基線功能將重要任務(wù)移到該基線上。
基線報警:
當(dāng)預(yù)測到基線上任務(wù)無法在承諾時間內(nèi)完成時,系統(tǒng)將會根據(jù)定義的報警方式發(fā)送基線報警信息。詳情請參見核心邏輯介紹:基線報警。
事件報警:
基線任務(wù)及其上游任務(wù)出錯,或關(guān)鍵路徑上的任務(wù)變慢時,會產(chǎn)生事件,并發(fā)送事件報警信息,詳情請參見:事件管理。
實時計算任務(wù)運行狀態(tài)監(jiān)控
規(guī)則類型:自定義規(guī)則。
監(jiān)控對象:實時計算任務(wù)。
觸發(fā)條件:當(dāng)任務(wù)出錯時觸發(fā)報警。
資源使用情況監(jiān)控
規(guī)則類型:自定義規(guī)則。
監(jiān)控對象:獨享調(diào)度資源組、獨享數(shù)據(jù)集成資源組。
觸發(fā)條件:
資源組使用率大于某個數(shù)值并持續(xù)指定時長時觸發(fā)報警。
資源組上等待資源的實例數(shù)大于某個數(shù)值并持續(xù)指定時長時觸發(fā)報警。
報警方式
配置監(jiān)控規(guī)則后,平臺一旦檢測到規(guī)則被觸發(fā),將會根據(jù)您設(shè)置的報警方式,通過郵件、短信、電話或釘釘群消息等形式通知您,方便您及時發(fā)現(xiàn)并處理異常問題。
規(guī)則類型 | 報警方式 | 疲勞度控制 |
自定義規(guī)則、全局規(guī)則、智能基線 |
| 支持最大報警次數(shù)、最小報警間隔與免打擾時間控制。 說明
|
資源自助運維
DataWorks的自動運維功能可以實現(xiàn)根據(jù)已設(shè)置好的監(jiān)控規(guī)則和運維規(guī)則來自動執(zhí)行任務(wù)的運維操作。
觸發(fā)條件:關(guān)聯(lián)的監(jiān)控規(guī)則被觸發(fā)。
說明目前支持對資源組利用率和資源組上等待資源的實例數(shù)進行的監(jiān)控。
目前僅支持對獨享調(diào)度資源組進行自助運維。
定位目標(biāo)實例:對滿足實例類型、實例調(diào)度周期、實例優(yōu)先級、實例狀態(tài)、實例所在工作空間等過濾條件的實例進行自助運維操作。
運維動作:終止運行實例。
說明支持單次最大終止2000個實例。
任務(wù)報警信息診斷
您可以通過任務(wù)DAG圖或運行診斷頁面,查看指定任務(wù)產(chǎn)生的報警信息。
通過任務(wù)DAG圖查看
對于配置了監(jiān)控報警且在當(dāng)前時間點24小時內(nèi)產(chǎn)生了報警的實例,您可以在周期實例頁面,打開指定實例的DAG圖,單擊實例右上角紅色告警標(biāo)識(圖中區(qū)域②),在彈出的監(jiān)控詳情窗口為您展示將當(dāng)前任務(wù)納入監(jiān)控的規(guī)則或基線列表,以及各個規(guī)則或基線的觸發(fā)情況,您可以單擊右上角的查看報警信息跳轉(zhuǎn)至報警信息頁面查看報警詳情,或單擊規(guī)則/基線名稱跳轉(zhuǎn)至該規(guī)則的配置頁面,查看規(guī)則配置詳情。
說明您可以勾選過去24h產(chǎn)生告警的節(jié)點(圖中區(qū)域①)對周期實例進行過濾。
通過任務(wù)運行診斷頁面查看
對于配置了監(jiān)控報警的任務(wù),您還可以在該任務(wù)運行診斷頁面的提示信息區(qū)域,單擊查看詳情,在彈出的監(jiān)控詳情窗口為您展示將當(dāng)前任務(wù)納入監(jiān)控的規(guī)則或基線列表,以及各個規(guī)則或基線的觸發(fā)情況,您可以單擊右上角的查看報警信息跳轉(zhuǎn)至報警信息頁面查看報警詳情,或單擊規(guī)則/基線名稱跳轉(zhuǎn)至該規(guī)則的配置頁面,查看規(guī)則配置詳情。
通過報警信息頁面查看
您也可以通過報警信息頁面查看智能監(jiān)控模塊產(chǎn)生的所有報警信息,并通過報警詳情查看報警的完整觸發(fā)流程,包括觸發(fā)該報警的監(jiān)控規(guī)則、報警觸發(fā)條件、您收到報警的原因等。詳情請參見:報警信息。