配置實時監(jiān)控報警規(guī)則
為了及時發(fā)現(xiàn)并處理任務(wù)運行過程中的異常,Dataphin支持批量為任務(wù)配置報警規(guī)則,便于您及時發(fā)現(xiàn)并處理異常,同時提高了為任務(wù)配置監(jiān)控報警規(guī)則的效率。本文為您介紹如何為實時任務(wù)配置監(jiān)控告警規(guī)則。
背景信息
Dataphin支持批量配置監(jiān)控報警規(guī)則,包括為批量任務(wù)或字段配置相同的監(jiān)控報警規(guī)則、為單個任務(wù)或字段配置批量監(jiān)控報警規(guī)則,提高了配置監(jiān)控報警規(guī)則的效率。
同時,Dataphin支持為單個監(jiān)控報警規(guī)則配置不同的接收人,并且給不同接收人可以指定不同的接收方式,以實現(xiàn)某任務(wù)相關(guān)人員都能收到報警信息。例如:
為值班人配置電話告警,這樣能在第一時間及時接收到告警信息并處理,盡量減少對下游任務(wù)的影響。
為責(zé)任人配置短信或郵件告警,這樣責(zé)任人能了解所負責(zé)的任務(wù)的運行概況,但是不用第一時間進行處理。
為項目管理員配置釘釘群機器人告警,這樣項目管理員能通過群消息了解所管理的項目全局任務(wù)的整體運行情況,便于后續(xù)統(tǒng)計分析。
前提條件
在執(zhí)行操作前,請確認您已滿足如下條件:
已提交Basic項目中的任務(wù)至生產(chǎn)環(huán)境。
已發(fā)布Dev項目中的任務(wù)至生產(chǎn)環(huán)境。具體操作,請參見管理發(fā)布任務(wù)。
使用限制
僅支持針對生產(chǎn)環(huán)境的任務(wù)進行配置監(jiān)控報警規(guī)則。
單擊配置最多支持選擇100個監(jiān)控項。監(jiān)控項包括任務(wù)和邏輯表字段。
Ververica Flink不支持告警配置。
批量為任務(wù)配置相同的監(jiān)控規(guī)則
請參見運維中心入口,進入運維中心。
按照下圖操作指引,進入新建實時任務(wù)監(jiān)控配置(批量監(jiān)控項配置)對話框。
在新建實時任務(wù)監(jiān)控配置(批量監(jiān)控項配置)對話框,配置參數(shù)。
在配置報警原因頁面,選擇報警原因。
不同實時計算引擎支持的報警規(guī)則不同,請以實際頁面顯示為準。
報警規(guī)則說明如下表所示。
報警原因
報警規(guī)則
運行失敗
當(dāng)任務(wù)運行失敗時,即觸發(fā)報警。
業(yè)務(wù)延時過高
當(dāng)任務(wù)運行過程中的延時超過設(shè)定時間后,即觸發(fā)報警。
TPS超過范圍
當(dāng)任務(wù)運行過程中的TPS(Transaction Per Second)超過設(shè)定的范圍后,即觸發(fā)報警。
失敗頻率超過配置
當(dāng)任務(wù)運行過程中的失敗頻率超過設(shè)定的頻率后,即觸發(fā)報警。
數(shù)據(jù)滯留超過配置
當(dāng)任務(wù)運行過程中的數(shù)據(jù)滯留超過設(shè)定的時間后,即觸發(fā)報警。
checkpoint失敗配置
當(dāng)任務(wù)運行過程中的checkpoint連續(xù)失敗超過設(shè)定的次數(shù)后,即觸發(fā)報警。
根據(jù)您選擇的報警原因,配置實時任務(wù)監(jiān)控規(guī)則的監(jiān)控區(qū)間、接收配置等參數(shù)。
參數(shù)
描述
報警原因
為您展示上一步中已選擇的報警原因。同時您也可以修改報警原因。
規(guī)則配置
根據(jù)報警原因,配置報警規(guī)則:
運行失敗:運行失敗即報警。
業(yè)務(wù)延時過高:需要指定業(yè)務(wù)延時超過多少時間后報警。
TPS超過范圍:需要指定TPS超過那個范圍后報警。
失敗頻率超過配置:需要指定失敗頻率超過多少次每分鐘后報警。
數(shù)據(jù)滯留超過配置:需要指定數(shù)據(jù)滯留超過多少秒后報警。
checkpoint失敗配置:需要指定checkpoint連續(xù)失敗幾次后報警。
報警頻率
通知報警信息給接收對象的頻率。頻率范圍為1~59分鐘/次。
監(jiān)控區(qū)間
設(shè)置實時任務(wù)監(jiān)控規(guī)則任務(wù)運行情況的時間區(qū)間。您可以選擇全天監(jiān)控,也可以自定義監(jiān)控時間段。
接收配置
配置報警信息的接收人和接收方式。您可以在單個監(jiān)控規(guī)則中配置不同的接收人,并且給不同接收人指定不同的接收方式:
接收人包括責(zé)任人、值班表和自定義:
責(zé)任人:適用于需要報警給任務(wù)負責(zé)人的場景。
值班表:適用于需要報警給值班人員的場景,以便及時處理異常。
需要您提前完成值班表的創(chuàng)建,詳情請參見管理值班表。
自定義:適用于需要報警給非責(zé)任人和值班人員的場景,例如需要報警給項目管理員。
接收方式包括釘釘、短信、電話和郵件。
重要選擇接收人對應(yīng)的聯(lián)系方式。如何為接收人配置聯(lián)系方式,請參見添加Dataphin成員。
例如,一個任務(wù)觸發(fā)失敗告警,希望該任務(wù)相關(guān)人都能收到告警信息,但是告警強度有所區(qū)別,您可以采用如下配置:
為值班人配置電話告警,這樣能在第一時間及時接收到告警信息并處理,盡量減少對下游任務(wù)的影響。
為責(zé)任人配置短信或郵件告警,這樣責(zé)任人能了解所負責(zé)的任務(wù)的運行概況,但是不用第一時間進行處理。
為項目管理員配置釘釘群機器人告警,這樣項目管理員能通過群消息了解所管理的項目全局任務(wù)的整體運行情況,便于后續(xù)統(tǒng)計分析。
在選擇監(jiān)控項頁簽,選擇需要配置監(jiān)控規(guī)則的監(jiān)控項。
重要單次配置最多支持選擇100個監(jiān)控項。監(jiān)控項包括任務(wù)和邏輯表的字段。
為單個任務(wù)配置批量監(jiān)控報警規(guī)則
請參見運維中心入口,進入運維中心。
按照下圖操作指引,進入新建實時任務(wù)監(jiān)控(批量監(jiān)控規(guī)則配置)對話框。
在新建實時任務(wù)監(jiān)控(批量監(jiān)控規(guī)則配置)對話框,按照如下步驟配置參數(shù)。
在①區(qū)域選擇需要配置監(jiān)控規(guī)則的實時任務(wù)。
在②區(qū)域選擇報警原因。報警原因及觸發(fā)報警規(guī)則詳細說明如下。
不同實時計算引擎支持的報警規(guī)則不同,請以實際頁面顯示為準。
報警原因
報警規(guī)則
運行失敗
當(dāng)任務(wù)運行失敗時,即觸發(fā)報警。
業(yè)務(wù)延時過高
當(dāng)任務(wù)運行過程中的延時超過設(shè)定時間后,即觸發(fā)報警。
TPS超過范圍
當(dāng)任務(wù)運行過程中的TPS(Transaction Per Second)超過設(shè)定的范圍后,即觸發(fā)報警。
失敗頻率超過配置
當(dāng)任務(wù)運行過程中的失敗頻率超過設(shè)定的頻率后,即觸發(fā)報警。
數(shù)據(jù)滯留超過配置
當(dāng)任務(wù)運行過程中的數(shù)據(jù)滯留超過設(shè)定的時間后,即觸發(fā)報警。
checkpoint失敗配置
當(dāng)任務(wù)運行過程中的checkpoint連續(xù)失敗超過設(shè)定的次數(shù)后,即觸發(fā)報警。
在③區(qū)域配置監(jiān)控區(qū)間、接收配置等參數(shù)。
參數(shù)
描述
報警原因
為您展示區(qū)域②中已選擇的報警原因,并為報警原因配置報警規(guī)則。
報警頻率
通知報警信息給接收對象的頻率。頻率范圍為1~59分鐘/次。
監(jiān)控區(qū)間
設(shè)置任務(wù)監(jiān)控規(guī)則任務(wù)運行情況的時間區(qū)間。您可以選擇全天監(jiān)控,也可以自定義監(jiān)控時間段。
接收配置
配置報警信息的接收人和接收方式。您可以在單個監(jiān)控規(guī)則中配置不同的接收人,并且給不同接收人指定不同的接收方式:
接收人包括責(zé)任人、值班表和自定義:
責(zé)任人:適用于需要報警給任務(wù)負責(zé)人的場景。
值班表:適用于需要報警給值班人員的場景,以便及時處理異常。
需要您提前完成值班表的創(chuàng)建,詳情請參見管理值班表。
自定義:適用于需要報警給非責(zé)任人和值班人員的場景,例如需要報警給項目管理員。
接收方式包括釘釘、短信、電話和郵件。
重要選擇接收人對應(yīng)的聯(lián)系方式。如何為接收人配置聯(lián)系方式,請參見添加Dataphin成員。
為值班人配置電話告警,這樣能在第一時間及時接收到告警信息并處理,盡量減少對下游任務(wù)的影響。
為責(zé)任人配置短信或郵件告警,這樣責(zé)任人能了解所負責(zé)的任務(wù)的運行概況,但是不用第一時間進行處理。
為項目管理員配置釘釘群機器人告警,這樣項目管理員能通過群消息了解所管理的項目全局任務(wù)的整體運行情況,便于后續(xù)統(tǒng)計分析。
單擊確定。
查看及管理已生成的監(jiān)控報警規(guī)則
實時監(jiān)控頁面展示已配置的實時監(jiān)控的任務(wù)名稱和ID、報警原因、創(chuàng)建人、接收方式、接收人、最后修改時間、監(jiān)控開關(guān)的狀態(tài)信息。
區(qū)域 | 描述 |
①篩選及搜索區(qū) | 您可以指定報警原因、接收方式、創(chuàng)建人或接收人作為篩選條件,快速高效的定位目標,查看監(jiān)控配置的詳情。 篩選項包括:
如果您需要重新篩選,則單擊重置,即可快速清空所有篩選條件,恢復(fù)系統(tǒng)默認。 |
②監(jiān)控項操作區(qū) | 您可以編輯、刪除監(jiān)控規(guī)則和開啟或關(guān)閉監(jiān)控開關(guān)。 |
③批量操作區(qū) | 您可以批量刪除監(jiān)控報警規(guī)則、開啟或關(guān)閉監(jiān)控開關(guān)。同時您可以單擊接收人顯示框后,新增、刪除和替換自定義接收人及修改接收配置。 批量操作的權(quán)限限制,請參見調(diào)度運維權(quán)限列表。 |
后續(xù)步驟
您可以在告警中心查看所有的告警事件。如何查看告警事件,請參見告警事件。