運維中心
運維中心是一站式大數(shù)據(jù)運維監(jiān)控平臺,支持實時查看任務(wù)運行狀態(tài),提供智能診斷、重跑等運維操作,幫助您對異常任務(wù)進(jìn)行基礎(chǔ)運維;提供智能基線,幫助您解決重要任務(wù)產(chǎn)出時間不可控,海量任務(wù)監(jiān)控難的問題,保障任務(wù)產(chǎn)出的時效性;提供引擎、資源、調(diào)度等多方位的運維能力。
運維中心功能模塊
在數(shù)據(jù)開發(fā)中完成任務(wù)開發(fā),提交并發(fā)布后,即可在運維中心對周期任務(wù)、手動任務(wù)以及實時任務(wù)進(jìn)行生產(chǎn)任務(wù)運行、任務(wù)運行問題定位、任務(wù)運行狀態(tài)監(jiān)控、任務(wù)運維關(guān)鍵指標(biāo)查看、引擎任務(wù)列表查看等運維操作。
注意事項
任務(wù)發(fā)布至生產(chǎn)環(huán)境后才會自動調(diào)度運行,開發(fā)環(huán)境內(nèi)的任務(wù)不會自動調(diào)度運行。
進(jìn)入運維中心
登錄DataWorks控制臺,切換至目標(biāo)地域后,單擊左側(cè)導(dǎo)航欄的 ,在下拉框中選擇對應(yīng)工作空間后單擊進(jìn)入運維中心。
任務(wù)運維
任務(wù)運維模塊包含了周期任務(wù)運維、實時任務(wù)運維以及手動任務(wù)運維三種任務(wù)類型的運維,您可通過運維大屏查看任務(wù)運行的重要指標(biāo),并利用運維助手中的補數(shù)據(jù)、智能診斷、自動運維等功能對需要運維的任務(wù)進(jìn)行多方面的運維操作。
模塊 | 說明 | 環(huán)境支持情況 | |
運維大屏以報表的形式為您展示調(diào)度任務(wù)的關(guān)鍵運維指標(biāo)統(tǒng)計與數(shù)據(jù)集成離線同步與實時同步任務(wù)運維專頁。 | 開發(fā)環(huán)境運維中心無此模塊。 | ||
周期任務(wù)運維 | 周期任務(wù)為您提供周期任務(wù)的DAG圖、任務(wù)測試、補數(shù)據(jù)等更多操作。 | 開發(fā)環(huán)境運維中心無法自動調(diào)度生成周期實例。 | |
周期實例為您展示周期任務(wù)提交至調(diào)度系統(tǒng)后生成的實例列表,在列表內(nèi)可進(jìn)行實例的DAG圖、運行診斷、重跑周期實例等更多操作。 | |||
測試實例列表為您展示周期任務(wù)執(zhí)行測試操作后生成的測試實例,您可以查看測試實例的執(zhí)行情況,在列表內(nèi)可查看實例的DAG圖、運行診斷、重跑實例等更多操作。 | |||
實時任務(wù)運維 | 實時計算任務(wù)頁面方便您對實時計算任務(wù)進(jìn)行啟動、停止、下線操作,以及設(shè)置監(jiān)控報警,保證在任務(wù)運行異常時及時發(fā)現(xiàn)并處理異常。 | - | |
實時同步任務(wù)頁面方便您對實時同步任務(wù)進(jìn)行啟動、停止、下線、修改負(fù)責(zé)人的操作,以及設(shè)置監(jiān)控報警,保證在任務(wù)運行異常時及時發(fā)現(xiàn)并處理異常。 | - | ||
手動任務(wù)運維 | 在手動任務(wù)中您可以對手動任務(wù)進(jìn)行查詢、DAG圖查看、手動運行、查看實例以及更多操作。 | - | |
在手動實例中您可以通過DAG圖的方式,快速查看實例的詳細(xì)信息并執(zhí)行查看運行日志、運行診斷、查看代碼、查看血緣等一系列相關(guān)操作。 | - | ||
運維助手 | 補數(shù)據(jù)頁面為您提供了對補數(shù)據(jù)任務(wù)進(jìn)行管理操作。 | - | |
智能診斷為您提供了對任務(wù)進(jìn)行全鏈路分析的能力,您可以使用該功能快速定位問題所在。可查看任務(wù)的運行詳情、基本信息、影響基線以及歷史實例。 | 開發(fā)環(huán)境運維中心無此模塊。 | ||
自動運維為您提供了自定義的運維規(guī)則,您可以實現(xiàn)對運行在目標(biāo)資源組上的實例定制監(jiān)控指標(biāo)與自定義運維規(guī)則,在觸發(fā)規(guī)則后,將會觸發(fā)運維動作,達(dá)成自動運維目的。 | - |
以周期實例中的任務(wù)為例,任務(wù)開始運行前需滿足以下條件:
依賴的所有父節(jié)點實例狀態(tài)都為成功狀態(tài)。
已到達(dá)任務(wù)節(jié)點設(shè)置的任務(wù)定時運行時間。
調(diào)度資源充足。
本任務(wù)不是凍結(jié)狀態(tài)。
運維中心中,不同的實例顏色代表實例處于不同的狀態(tài)中,實例運行狀態(tài)示意詳情可參考:附錄:實例運行狀態(tài)與運行診斷。
任務(wù)監(jiān)控
任務(wù)監(jiān)控模塊包含了智能基線、監(jiān)控報警功能,您可以通過配置智能基線功能來獲取任務(wù)異常情況并進(jìn)行預(yù)警,以及配置管理規(guī)則、報警信息以及值班表,實現(xiàn)對運維報警的及時處理等操作。
模塊 | 描述 | 環(huán)境支持情況 | |
智能基線能夠及時捕捉導(dǎo)致基線上的任務(wù)無法按時完成的異常情況并提前預(yù)警,重要數(shù)據(jù)能在預(yù)期時間內(nèi)順利產(chǎn)出,幫助您降低配置成本、避免無效報警、自動監(jiān)控所有重要任務(wù)。 | 開發(fā)環(huán)境運維中心無此模塊。 | ||
監(jiān)控報警 | 規(guī)則管理為您提供了自定義監(jiān)控規(guī)則的配置,您可以通過監(jiān)控規(guī)則來監(jiān)控任務(wù)運行狀態(tài)或資源使用情況,方便您及時發(fā)現(xiàn)任務(wù)異常并處理異常。 | ||
報警信息功能提供了統(tǒng)一管理任務(wù)監(jiān)控模塊產(chǎn)生的所有報警信息。其中包括智能基線產(chǎn)生的基線預(yù)警信息、事件報警信息、自定義規(guī)則報警信息以及全局規(guī)則報警產(chǎn)生的報警信息。 | |||
值班表為您提供了處理運維報警的排班情況,能確保出現(xiàn)報警或?qū)嵗枰S護(hù)時可及時響應(yīng)。配置好值班表后,DataWorks將報警信息發(fā)送給對應(yīng)的值班人員,以便值班人員及時發(fā)現(xiàn)并處理問題。 |
其他運維
DataWorks除了為您提供了任務(wù)運維和智能監(jiān)控外,還為您提供了對計算引擎(E-MapReduce)詳情的查看,對資源組使用情況的監(jiān)控運維,以及自定義調(diào)度參數(shù),為您的日常運維與工作提供更便利、更豐富運維操作。
模塊 | 描述 | 環(huán)境支持情況 | |
引擎運維為您提供了對計算引擎(E-MapReduce)作業(yè)的詳細(xì)信息進(jìn)行查看,及時查找并清理運行有誤的作業(yè),避免該類作業(yè)阻塞下游任務(wù),影響實例任務(wù)正常運行。 | 開發(fā)環(huán)境運維中心無此模塊。 | ||
資源運維通過可視化的方式為您展示資源組使用情況及實例任務(wù)執(zhí)行情況,實現(xiàn)資源組及實例任務(wù)的智能監(jiān)控和自動化運維,減少繁雜的人工操作,提高運維管理效率。 | - | ||
調(diào)度設(shè)置為您提供了對調(diào)度日歷和工作空間參數(shù)進(jìn)行新建并管理的平臺,更方便您自定義任務(wù)調(diào)度的方式。 | - |
附錄:實例運行狀態(tài)與運行診斷
運維中心按照不同的顏色標(biāo)識來辨識任務(wù)正處于運行流程中的哪個階段,不同的實例顏色與標(biāo)識代表實例處于不同的狀態(tài)。不同的實例顏色與標(biāo)識所對應(yīng)的任務(wù)狀態(tài)如下所示。關(guān)于任務(wù)運行必要條件詳情請參見:任務(wù)運行診斷。
序號 | 狀態(tài)類型 | 狀態(tài)標(biāo)識 | 運行流程圖 |
1 | 運行成功狀態(tài) | ||
2 | 未運行狀態(tài) | ||
3 | 運行失敗狀態(tài) | ||
4 | 正在運行狀態(tài) | ||
5 | 等待狀態(tài) | ||
6 | 暫停/凍結(jié)狀態(tài) |