規(guī)則管理
自定義監(jiān)控規(guī)則幫助您根據(jù)實(shí)際業(yè)務(wù)需求,自定義監(jiān)控規(guī)則,監(jiān)控任務(wù)運(yùn)行狀態(tài)或資源使用情況,以便及時(shí)發(fā)現(xiàn)并處理異常。本文為您介紹如何在規(guī)則管理頁(yè)面自定義報(bào)警規(guī)則,以及添加釘釘群機(jī)器人獲取Webhook地址。
使用限制
自定義監(jiān)控規(guī)則僅對(duì)自動(dòng)調(diào)度的周期實(shí)例生效,不對(duì)周期任務(wù)的測(cè)試和補(bǔ)數(shù)據(jù)任務(wù)運(yùn)行結(jié)果進(jìn)行監(jiān)控。
自定義監(jiān)控規(guī)則支持郵件、短信、電話、釘釘群機(jī)器人和WebHook報(bào)警方式,使用限制如下:
WebHook:
可用版本:僅DataWorks企業(yè)版支持使用WebHook功能。
可用地域:僅華東2(上海)、西南1(成都)、華北3(張家口)、華北2(北京)、華東1(杭州)、華南1(深圳)、中國(guó)(香港)、歐洲中部 1(法蘭克福)、亞太東南1(新加坡)地域支持使用WebHook功能報(bào)警。
可用報(bào)警方式:僅支持推送報(bào)警信息至企業(yè)微信或飛書(shū)。
說(shuō)明DataWorks僅支持使用釘釘群、企業(yè)微信和飛書(shū)的WebHook地址,如您需要使用自主開(kāi)發(fā)的WebHook發(fā)送消息服務(wù),請(qǐng)參考智能監(jiān)控自定義WebHook進(jìn)行適配,并在完成后與我們聯(lián)系以便進(jìn)一步處理。您需要先單擊申請(qǐng)鏈接加入“阿里云大數(shù)據(jù)AI平臺(tái)”交流群,再掃描下方二維碼加入DataWorks產(chǎn)品釘釘交流群,進(jìn)行售前售后咨詢,咨詢可直接@智能機(jī)器人,值班時(shí)間段內(nèi)也可直接聯(lián)系值班人員。
僅DataWorks專業(yè)版及以上版本可配置出錯(cuò)實(shí)例數(shù)量、出錯(cuò)實(shí)例占比、任務(wù)日志含關(guān)鍵字等觸發(fā)條件,詳情請(qǐng)參見(jiàn)DataWorks各版本詳解;開(kāi)通DataWorks,詳情請(qǐng)參見(jiàn)購(gòu)買指引。
僅支持監(jiān)控規(guī)則的責(zé)任人、租戶管理員以及主賬號(hào)對(duì)監(jiān)控規(guī)則進(jìn)行修改。
注意事項(xiàng)
當(dāng)通過(guò)自定義監(jiān)控規(guī)則監(jiān)控周期實(shí)例時(shí),不同報(bào)警觸發(fā)條件對(duì)應(yīng)的監(jiān)控時(shí)間范圍如下。
監(jiān)控范圍 | 觸發(fā)條件 | 說(shuō)明 |
業(yè)務(wù)日期(即昨天T) |
| DataWorks會(huì)監(jiān)控業(yè)務(wù)日期為昨天,定時(shí)時(shí)間為今天的周期實(shí)例,滿足觸發(fā)條件則產(chǎn)生報(bào)警。 |
業(yè)務(wù)日期(即昨天T)、前天(T-1) |
| DataWorks會(huì)監(jiān)控業(yè)務(wù)日期為昨天、前天,定時(shí)時(shí)間為今天、昨天的周期實(shí)例,滿足觸發(fā)條件則產(chǎn)生報(bào)警。 |
業(yè)務(wù)日期(即昨天T)、前天(T-1)、大前天(T-2) |
| DataWorks會(huì)監(jiān)控業(yè)務(wù)日期為昨天、前天、大前天,定時(shí)時(shí)間為今天、昨天、前天的周期實(shí)例,滿足觸發(fā)條件則產(chǎn)生報(bào)警。 |
監(jiān)控范圍外的周期實(shí)例即使?jié)M足觸發(fā)條件,也不會(huì)產(chǎn)生報(bào)警。不同觸發(fā)條件對(duì)應(yīng)的監(jiān)控規(guī)則,詳情請(qǐng)參見(jiàn)創(chuàng)建自定義規(guī)則。
進(jìn)入規(guī)則管理
進(jìn)入運(yùn)維中心頁(yè)面。
登錄DataWorks控制臺(tái),切換至目標(biāo)地域后,單擊左側(cè)導(dǎo)航欄的 ,在下拉框中選擇對(duì)應(yīng)工作空間后單擊進(jìn)入運(yùn)維中心。
在左側(cè)導(dǎo)航欄,單擊 。
說(shuō)明還支持您進(jìn)入周期任務(wù)頁(yè)面批量選擇節(jié)點(diǎn)并創(chuàng)建監(jiān)控規(guī)則。詳情請(qǐng)參見(jiàn)查看并管理周期任務(wù)。
創(chuàng)建自定義規(guī)則
在規(guī)則管理頁(yè)面,您可根據(jù)需要?jiǎng)?chuàng)建自定義監(jiān)控規(guī)則。
配置基本信息
參數(shù) | 描述 |
規(guī)則名稱 | 輸入新建自定義規(guī)則的名稱。 |
對(duì)象類型 | 指定監(jiān)控對(duì)象的類型,定義監(jiān)控的粒度。包括任務(wù)節(jié)點(diǎn)、基線、工作空間、業(yè)務(wù)流程、獨(dú)享調(diào)度資源組和獨(dú)享數(shù)據(jù)集成資源組。 說(shuō)明 對(duì)象類型為基線時(shí),僅對(duì)基線上的任務(wù)運(yùn)行狀態(tài)進(jìn)行監(jiān)控,不會(huì)監(jiān)控基線任務(wù)的上游任務(wù),如果您需要同時(shí)監(jiān)控基線任務(wù)的上游任務(wù),請(qǐng)參見(jiàn):智能基線概述。 |
規(guī)則對(duì)象 | 指定監(jiān)控對(duì)象。輸入監(jiān)控對(duì)象的名稱或ID后,在列表中選擇需要添加的對(duì)象,單擊添加。 支持添加的監(jiān)控對(duì)象類型及數(shù)量上限如下:
|
任務(wù)白名單 | 指定上述監(jiān)控對(duì)象中,哪些任務(wù)不受當(dāng)前規(guī)則監(jiān)控。 當(dāng)對(duì)象類型為基線、工作空間、業(yè)務(wù)流程時(shí),支持您輸入節(jié)點(diǎn)名稱/ID,單擊添加按鈕將任務(wù)添加至白名單列表中。 說(shuō)明 白名單中的任務(wù)將不受監(jiān)控,且最多支持添加50個(gè)任務(wù)。 |
資源組名稱 | 指定需要監(jiān)控的獨(dú)享資源組名稱。 當(dāng)對(duì)象類型為獨(dú)享調(diào)度資源組和獨(dú)享數(shù)據(jù)集成資源組時(shí),則需要在下拉列表中選擇需要監(jiān)控的資源組名稱。 |
配置觸發(fā)方式
自定義報(bào)警邏輯中,任務(wù)凍結(jié)狀態(tài)表示任務(wù)已完成。
對(duì)象類型 | 觸發(fā)條件 | 描述 |
任務(wù)節(jié)點(diǎn)、基線、工作空間、業(yè)務(wù)流程 | 完成 | 表示從任務(wù)運(yùn)行的起始時(shí)間點(diǎn)開(kāi)始監(jiān)控,在任務(wù)運(yùn)行成功時(shí)系統(tǒng)發(fā)送報(bào)警。
說(shuō)明 對(duì)于小時(shí)任務(wù),只有全部周期均運(yùn)行成功后,該任務(wù)才會(huì)被判定為完成。 |
未完成 | 表示從任務(wù)運(yùn)行的起始時(shí)間點(diǎn)開(kāi)始監(jiān)控,到指定的目標(biāo)時(shí)間點(diǎn)任務(wù)仍未結(jié)束運(yùn)行,則系統(tǒng)發(fā)送報(bào)警。 說(shuō)明 此報(bào)警與智能基線報(bào)警策略不同,智能基線能夠及時(shí)捕捉導(dǎo)致基線上的任務(wù)無(wú)法按時(shí)完成的異常情況并提前預(yù)警,詳情請(qǐng)參見(jiàn):智能基線概述。 場(chǎng)景示例:
說(shuō)明 對(duì)于小時(shí)或分鐘任務(wù),會(huì)校驗(yàn)當(dāng)天所有周期在指定時(shí)間點(diǎn)是否未運(yùn)行完成。 | |
出錯(cuò) | 表示從任務(wù)運(yùn)行的起始時(shí)間點(diǎn)開(kāi)始監(jiān)控,如果任務(wù)運(yùn)行出錯(cuò),則系統(tǒng)發(fā)送報(bào)警。 說(shuō)明 實(shí)例任務(wù)運(yùn)行出錯(cuò)即在 的基本信息列,目標(biāo)實(shí)例顯示狀態(tài)。
| |
出錯(cuò)實(shí)例數(shù) | 表示處于出錯(cuò)狀態(tài)的實(shí)例數(shù)量,包括DQC校驗(yàn)不通過(guò)以及代碼邏輯執(zhí)行失敗情況。 當(dāng)對(duì)象類型為工作空間時(shí),選擇觸發(fā)條件為出錯(cuò)實(shí)例數(shù)量后,您需要配置閾值,即出錯(cuò)實(shí)例個(gè)數(shù)達(dá)到閾值時(shí),就會(huì)觸發(fā)報(bào)警。 說(shuō)明
| |
出錯(cuò)實(shí)例占比 | 當(dāng)對(duì)象類型為工作空間時(shí),選擇觸發(fā)條件為出錯(cuò)實(shí)例占比后,您需要配置閾值,即出錯(cuò)實(shí)例占當(dāng)天總實(shí)例數(shù)的比例達(dá)到閾值時(shí),就會(huì)觸發(fā)報(bào)警。 說(shuō)明
| |
任務(wù)日志含關(guān)鍵字 | 當(dāng)對(duì)象類型為工作空間時(shí),選擇觸發(fā)條件為任務(wù)日志含關(guān)鍵字后,您需要配置關(guān)鍵字,即當(dāng)天任務(wù)運(yùn)行日志含關(guān)鍵字時(shí),將觸發(fā)告警。 說(shuō)明
| |
周期未完成 | 表示在指定的周期內(nèi),任務(wù)仍未結(jié)束運(yùn)行,則系統(tǒng)發(fā)送報(bào)警。通常用于監(jiān)控以小時(shí)為周期單位的實(shí)例任務(wù)。 當(dāng)業(yè)務(wù)流程設(shè)置了周期未完成監(jiān)控后,系統(tǒng)會(huì)根據(jù)您設(shè)置的周期N,對(duì)業(yè)務(wù)流程中的任務(wù)(例如,天任務(wù)、小時(shí)任務(wù)、分鐘任務(wù)等),進(jìn)行第N個(gè)周期任務(wù)的監(jiān)控。如果實(shí)例數(shù)少于N時(shí),則會(huì)忽略該任務(wù)的告警。 例如,設(shè)置的周期為3,業(yè)務(wù)流程中有如下兩個(gè)任務(wù),則告警監(jiān)控情況如下:
| |
超時(shí) | 表示從任務(wù)運(yùn)行的起始時(shí)間點(diǎn)開(kāi)始監(jiān)控,到指定的運(yùn)行時(shí)長(zhǎng)后,該任務(wù)仍未結(jié)束運(yùn)行,則系統(tǒng)發(fā)送報(bào)警。通常用于監(jiān)控任務(wù)的運(yùn)行時(shí)長(zhǎng)。 說(shuō)明 如果監(jiān)控的任務(wù)執(zhí)行失敗,到指定的運(yùn)行時(shí)長(zhǎng)后,該任務(wù)仍處于未成功狀態(tài),將觸發(fā)超時(shí)告警。 | |
自動(dòng)重跑后仍出錯(cuò) | 表示從任務(wù)運(yùn)行的起始時(shí)間點(diǎn)開(kāi)始監(jiān)控,如果任務(wù)運(yùn)行出錯(cuò)且自動(dòng)重跑后仍出錯(cuò),則系統(tǒng)發(fā)送報(bào)警, 說(shuō)明 如果您需要在任務(wù)每次運(yùn)行出錯(cuò)時(shí)就觸發(fā)報(bào)警,則可以將觸發(fā)條件配置為:出錯(cuò)。 | |
任務(wù)轉(zhuǎn)實(shí)例完成 | 僅當(dāng)對(duì)象類型為工作空間時(shí),可以選擇該觸發(fā)條件。 | |
實(shí)例數(shù)量波動(dòng) | 僅當(dāng)對(duì)象類型為工作空間時(shí),可以選擇該觸發(fā)條件。DataWorks每天在24:00前生成次日需要運(yùn)行的周期實(shí)例,當(dāng)工作空間的實(shí)例數(shù)量與歷史均值相比發(fā)生一定幅度的波動(dòng)時(shí),您將收到該報(bào)警。 | |
獨(dú)享調(diào)度資源組、獨(dú)享數(shù)據(jù)集成資源組 | 資源組利用率 | 當(dāng)利用率大于某個(gè)數(shù)值并持續(xù)指定時(shí)長(zhǎng)時(shí),觸發(fā)該報(bào)警。 示例:利用率大于50%并持續(xù)15分鐘時(shí),觸發(fā)報(bào)警。 |
資源組上等待資源的實(shí)例數(shù) | 當(dāng)等資源實(shí)例數(shù)大于某個(gè)數(shù)值并持續(xù)指定時(shí)長(zhǎng)時(shí),觸發(fā)該報(bào)警。 示例:等資源實(shí)例數(shù)大于10并持續(xù)15分鐘,觸發(fā)報(bào)警。 |
配置報(bào)警行為
報(bào)警方式 | 報(bào)警接收人 | 描述 |
郵件、短信、電話 | 支持報(bào)警給任務(wù)責(zé)任人、值班表和其他人員。 |
|
釘釘群機(jī)器人WebHook、 | 群內(nèi)人員 |
|
配置疲勞度控制
參數(shù) | 描述 |
最大報(bào)警次數(shù) | 報(bào)警的最大次數(shù),超過(guò)設(shè)置的次數(shù)后,不再產(chǎn)生報(bào)警。 |
最小報(bào)警間隔 | 兩次報(bào)警之間的最小時(shí)間間隔。 |
免打擾時(shí)間 | 設(shè)置了免打擾時(shí)間后,在該時(shí)間段內(nèi)系統(tǒng)將不會(huì)發(fā)送告警。 例如,當(dāng)設(shè)置了任務(wù)狀態(tài)為超時(shí)、出錯(cuò)、未完成時(shí)觸發(fā)報(bào)警,且該任務(wù)設(shè)置的免打擾時(shí)間為 |
配置完成后單擊確定,即可生成規(guī)則。您可以在規(guī)則管理頁(yè)面單擊相應(yīng)規(guī)則后的詳情、開(kāi)啟/關(guān)閉或刪除進(jìn)行相關(guān)操作。
詳情:?jiǎn)螕?b data-tag="uicontrol" id="uicontrol-2xb-4mj-3pp" class="uicontrol">詳情,即可查看規(guī)則的基本信息。
開(kāi)啟或關(guān)閉:控制規(guī)則的狀態(tài),開(kāi)啟后方可監(jiān)控任務(wù)的執(zhí)行情況。您可以在報(bào)警信息面板查看報(bào)警詳情。
刪除:?jiǎn)螕?b data-tag="uicontrol" id="uicontrol-jij-57x-5g3" class="uicontrol">刪除,即可直接刪除規(guī)則。
修改監(jiān)控規(guī)則
創(chuàng)建好的規(guī)則只能通過(guò)監(jiān)控規(guī)則的責(zé)任人、租戶管理員以及主賬號(hào)進(jìn)行修改。
場(chǎng)景實(shí)踐:發(fā)送報(bào)警消息至釘釘群
打開(kāi)需要告警的目標(biāo)釘釘群,單擊右上角的群設(shè)置圖標(biāo)。
單擊智能群助手。
在智能群助手頁(yè)面,單擊添加機(jī)器人。
在群機(jī)器人頁(yè)面,單擊圖標(biāo)。
在選擇要添加的機(jī)器人頁(yè)面,單擊自定義。
在自定義對(duì)話框中,單擊添加。
在添加機(jī)器人對(duì)話框中,配置各項(xiàng)參數(shù)。
參數(shù)
描述
機(jī)器人名字
自定義機(jī)器人的名稱。
添加到群組
添加機(jī)器人的群組,不可以修改。
自定義關(guān)鍵詞
設(shè)定后,只有包含關(guān)鍵詞的消息內(nèi)容才會(huì)被正常發(fā)送。此處必須添加DataWorks為關(guān)鍵詞,注意區(qū)分大小寫(xiě)。
說(shuō)明最多可以設(shè)置10個(gè)關(guān)鍵詞,消息中至少包含其中1個(gè)關(guān)鍵詞才可以發(fā)送成功。
選中我已閱讀并同意《自定義機(jī)器人服務(wù)及免責(zé)條款》,單擊完成。
完成安全設(shè)置后,復(fù)制機(jī)器人的Webhook,單擊完成。
重要請(qǐng)妥善保管Webhook地址,一旦泄露會(huì)有安全風(fēng)險(xiǎn)。
進(jìn)入規(guī)則管理頁(yè)面,單擊新建自定義規(guī)則,選擇報(bào)警方式為釘釘群機(jī)器人,復(fù)制webhook地址至釘釘群機(jī)器人的webhook地址輸入框中。
DataWorks智能監(jiān)控推送企業(yè)微信或飛書(shū)的報(bào)警信息樣例如下。