配置監(jiān)控告警
實(shí)時(shí)計(jì)算Flink版支持使用云監(jiān)控(免費(fèi)監(jiān)控服務(wù))或ARMS提供監(jiān)控報(bào)警服務(wù),配置作業(yè)指標(biāo)或事件監(jiān)控告警,便于您及時(shí)發(fā)現(xiàn)并處理異常。本文為您介紹使用不同監(jiān)控服務(wù)時(shí)如何配置監(jiān)控告警。
使用限制
部署時(shí)提交至Session集群的Flink作業(yè)不支持配置監(jiān)控告警。
批作業(yè)暫不支持配置監(jiān)控告警。
配置引導(dǎo)
使用免費(fèi)監(jiān)控服務(wù)(云監(jiān)控)時(shí),您需要跳轉(zhuǎn)到云監(jiān)控控制臺(tái)進(jìn)行指標(biāo)和事件告警配置。
云監(jiān)控指標(biāo)告警配置(支持單個(gè)作業(yè)和批量告警配置)
云監(jiān)控事件告警配置(支持作業(yè)和工作流事件告警配置)
使用ARMS監(jiān)控服務(wù)時(shí):
您可以直接在實(shí)時(shí)計(jì)算開發(fā)控制臺(tái)對(duì)單個(gè)作業(yè)配置指標(biāo)告警(支持6個(gè)監(jiān)控指標(biāo),詳情請(qǐng)參見(jiàn)實(shí)時(shí)計(jì)算開發(fā)控制臺(tái)指標(biāo)告警配置),以及作業(yè)失敗告警(詳情請(qǐng)參見(jiàn)實(shí)時(shí)計(jì)算開發(fā)控制臺(tái)事件告警配置)。
其他監(jiān)控指標(biāo)告警可以在ARMS控制臺(tái)通過(guò)靜態(tài)閾值和PromQL語(yǔ)法自定義配置,支持單個(gè)作業(yè)和批量告警配置,詳情請(qǐng)參見(jiàn)ARMS指標(biāo)告警配置。
您可以在云監(jiān)控控制臺(tái)訂閱作業(yè)事件告警(僅支持ECS宕機(jī)事后處理和ECS主動(dòng)運(yùn)維影響事件)和工作流事件告警,詳情請(qǐng)參見(jiàn)云監(jiān)控事件告警配置,暫不支持其他事件告警配置。
配置指標(biāo)告警
云監(jiān)控
僅購(gòu)買該工作空間的主賬號(hào),以及該主賬號(hào)下具有項(xiàng)目空間權(quán)限的RAM用戶和RAM角色,可以在云監(jiān)控上配置告警。
單個(gè)作業(yè)配置
登錄實(shí)時(shí)計(jì)算控制臺(tái),單擊目標(biāo)工作空間操作列下的控制臺(tái)。
在
頁(yè)面,單擊目標(biāo)作業(yè)名稱。在監(jiān)控告警頁(yè)簽,單擊訂閱指標(biāo)告警,跳轉(zhuǎn)到云監(jiān)控控制臺(tái)完成相關(guān)配置。
在云監(jiān)控控制臺(tái)設(shè)置規(guī)則描述面板填寫參數(shù)后,單擊確定。
指標(biāo)類型選擇為簡(jiǎn)單指標(biāo)或組合指標(biāo),在維度部分,您可以選擇namespace(Flink項(xiàng)目空間名稱)和deploymentID(對(duì)應(yīng)Flink作業(yè)部署詳情頁(yè)簽的部署作業(yè)ID),指定需要監(jiān)控的作業(yè),其他參數(shù)詳情請(qǐng)參見(jiàn)創(chuàng)建報(bào)警規(guī)則。
說(shuō)明下拉列表僅顯示有監(jiān)控?cái)?shù)據(jù)的namespace和deploymentID,無(wú)數(shù)據(jù)時(shí)您可以手動(dòng)填寫。
在創(chuàng)建報(bào)警規(guī)則面板,配置其他報(bào)警參數(shù)。
通常資源范圍實(shí)例已默認(rèn)關(guān)聯(lián)資源為當(dāng)前作業(yè)對(duì)應(yīng)工作空間ID(控制臺(tái)操作),報(bào)警規(guī)則創(chuàng)建后,關(guān)聯(lián)資源不可更改。其他參數(shù)詳情請(qǐng)參見(jiàn)創(chuàng)建報(bào)警規(guī)則。
單擊確認(rèn)。
作業(yè)批量配置
在左側(cè)導(dǎo)航欄,選擇
。單擊創(chuàng)建報(bào)警規(guī)則,配置相關(guān)參數(shù),詳情請(qǐng)參見(jiàn)創(chuàng)建報(bào)警規(guī)則。
參數(shù)
說(shuō)明
產(chǎn)品
實(shí)時(shí)計(jì)算Flink版
資源范圍
全部資源:報(bào)警規(guī)則作用于實(shí)時(shí)計(jì)算Flink版全部資源。
實(shí)例:報(bào)警規(guī)則作用于實(shí)時(shí)計(jì)算Flink版指定工作空間。單擊添加實(shí)例,選擇目標(biāo)地域下的工作空間后,單擊確認(rèn)。
規(guī)則描述
單擊添加規(guī)則 > 簡(jiǎn)單指標(biāo)或組合指標(biāo),進(jìn)入設(shè)置規(guī)則描述面板,參數(shù)詳情請(qǐng)參見(jiàn)創(chuàng)建報(bào)警規(guī)則。
其中,在維度部分,您可以配置namespace(Flink項(xiàng)目空間名稱)和deploymentID(對(duì)應(yīng)Flink作業(yè)部署詳情頁(yè)簽的部署作業(yè)ID),當(dāng)僅填寫namespace時(shí)表示對(duì)當(dāng)前項(xiàng)目空間下所有作業(yè)生效,當(dāng)均不填寫時(shí)表示對(duì)當(dāng)前工作空間下所有作業(yè)生效。
說(shuō)明namespace和deploymentID下拉列表無(wú)數(shù)據(jù)時(shí),您可以手動(dòng)填寫。
實(shí)時(shí)計(jì)算開發(fā)控制臺(tái)
實(shí)時(shí)計(jì)算開發(fā)控制臺(tái)僅支持查看近48小時(shí)內(nèi)告警事件,更長(zhǎng)時(shí)間的告警事件請(qǐng)?jiān)贏RMS控制臺(tái)告警管理中查看。
目前實(shí)時(shí)計(jì)算開發(fā)控制臺(tái)僅支持單個(gè)作業(yè)告警配置。您可以針對(duì)目標(biāo)作業(yè)創(chuàng)建新的告警規(guī)則,也可以在創(chuàng)建告警規(guī)則模板后,直接使用已有規(guī)則模板為目標(biāo)作業(yè)創(chuàng)建告警,加快配置監(jiān)控告警的效率。
進(jìn)入告警配置入口。
登錄實(shí)時(shí)計(jì)算控制臺(tái),單擊目標(biāo)工作空間操作列下的控制臺(tái)。
在
頁(yè)面,單擊目標(biāo)作業(yè)名稱。單擊告警配置頁(yè)簽。
在告警規(guī)則頁(yè)簽,選擇
。您也可以選擇
,通過(guò)添加并使用告警模板,可以直接創(chuàng)建告警規(guī)則或基于模板進(jìn)行簡(jiǎn)單修改后創(chuàng)建告警規(guī)則,加快配置監(jiān)控告警的效率。填寫告警規(guī)則信息。
類別
參數(shù)
描述
具體規(guī)則
規(guī)則名稱
以字母開頭,僅包含小寫英文字母、數(shù)字、下劃線(_),長(zhǎng)度限制為3~64個(gè)字符。
描述
規(guī)則的備注信息。
內(nèi)容
配置觸發(fā)報(bào)警的條件內(nèi)容,配置完成后會(huì)每間隔指定時(shí)間,對(duì)指定的指標(biāo)值與閾值進(jìn)行計(jì)算比較,計(jì)算結(jié)果滿足則自動(dòng)報(bào)警。
指標(biāo):
Restart Count in 1 Minute:1分鐘內(nèi)Job Manager重啟次數(shù),單位為次。
Checkpoint Count in 5 Minutes:5分鐘內(nèi)Checkpoint成功次數(shù),單位為個(gè)。
Emit Delay:業(yè)務(wù)延時(shí),即數(shù)據(jù)發(fā)生時(shí)間與數(shù)據(jù)離開Source算子的時(shí)間差值,單位為秒。
重要數(shù)據(jù)發(fā)生時(shí)間依賴于外部系統(tǒng)中記錄的時(shí)間戳。如果外部系統(tǒng)里面沒(méi)時(shí)間戳,或者數(shù)據(jù)寫入外部系統(tǒng)時(shí),亂寫時(shí)間戳,則Emit Delay數(shù)值不準(zhǔn)確,無(wú)法反映真實(shí)延時(shí)。
IN RPS:每秒輸入記錄數(shù),單位為條/秒。
OUT RPS:每秒輸出記錄數(shù),單位為條/秒。
Source Idle Time:源端未處理數(shù)據(jù)的時(shí)間,單位為毫秒。
時(shí)間差:每分鐘查詢最近時(shí)間差分鐘內(nèi)的數(shù)據(jù),并與閾值比較。如果歷史數(shù)據(jù)中滿足條件,則會(huì)觸發(fā)告警規(guī)則。
運(yùn)算符:支持>=和<=兩種。
閾值:與指標(biāo)進(jìn)行比較的值。
如果您選擇的運(yùn)算符是>= ,則取縱軸中的MAX值。如果時(shí)間差內(nèi)最大值>=閾值,則觸發(fā)告警規(guī)則。
如果您選擇的運(yùn)算符是<= ,則取縱軸中的MIN值。如果時(shí)間差內(nèi)最小值<= 閾值,則觸發(fā)告警規(guī)則。
例如,配置時(shí)間差為5分鐘,選擇運(yùn)算符<=,閾值為2。則每次取指標(biāo)值的歷史5分鐘的縱軸數(shù)據(jù),將其最小值與閾值進(jìn)行比較,小于等于閾值則觸發(fā)告警。
生效時(shí)間
告警監(jiān)控的生效時(shí)間,可以指定只在白天(9點(diǎn)~18點(diǎn))生效,默認(rèn)全天生效。
告警頻率
連續(xù)多少分鐘內(nèi)只發(fā)一次告警。支持1分鐘~1440分鐘(24小時(shí))。
通知方式
通知方式
支持選擇多個(gè)通知方式。支持的通知方式如下:
DingTalk:釘釘。
Email:郵件。
SMS:短信。
Webhook:網(wǎng)絡(luò)服務(wù)地址。
Phone:電話。需確保接收人電話已完成驗(yàn)證,否則無(wú)法生效。您可以單擊下方的通知對(duì)象管理,若聯(lián)系人頁(yè)簽中目標(biāo)聯(lián)系人電話列存在未驗(yàn)證標(biāo)識(shí),需單擊完成驗(yàn)證。
重要請(qǐng)確保已創(chuàng)建并添加可用的通知對(duì)象,否則將導(dǎo)致告警通知方式失敗。例如,選擇釘釘通知方式時(shí),請(qǐng)選中DingTalk并添加釘釘機(jī)器人類型的釘釘通知對(duì)象。
告警管理的收費(fèi)詳情請(qǐng)參見(jiàn)告警計(jì)費(fèi)說(shuō)明。
通知對(duì)象
支持同時(shí)通知多個(gè)通知對(duì)象,您可以直接選擇或搜索通知對(duì)象。在選擇通知對(duì)象前,您需要先創(chuàng)建通知對(duì)象。
具體操作為單擊右側(cè)的通知對(duì)象管理,然后分別在聯(lián)系人組、聯(lián)系人、Webhook和釘釘機(jī)器人頁(yè)簽中,單擊編輯后單擊保存。添加釘釘機(jī)器人告警、新建Webhook以及飛書機(jī)器人告警,詳情請(qǐng)參見(jiàn)常見(jiàn)問(wèn)題。
告警降噪
單擊高級(jí)配置后,您可以打開告警降噪開關(guān)。
打開告警降噪開關(guān)后,對(duì)于作業(yè)可以快速恢復(fù)的場(chǎng)景(因集群調(diào)度或觸發(fā)自動(dòng)調(diào)優(yōu)等場(chǎng)景觸發(fā)的短期的Failover)則不會(huì)向您發(fā)送告警,只有連續(xù)達(dá)到您設(shè)置的閾值條件時(shí),才會(huì)向您發(fā)送告警。
無(wú)數(shù)據(jù)告警
單擊高級(jí)配置后,您可以打開無(wú)數(shù)據(jù)告警開關(guān)并填寫連續(xù)無(wú)數(shù)據(jù)的時(shí)間信息。
打開該功能后,將監(jiān)測(cè)無(wú)監(jiān)控埋點(diǎn)數(shù)據(jù)匯報(bào)場(chǎng)景,如果數(shù)據(jù)在選擇時(shí)間段內(nèi)沒(méi)有匯報(bào)就會(huì)觸發(fā)告警。通常JobManager異常、作業(yè)異常停止或者匯報(bào)鏈路異常會(huì)導(dǎo)致無(wú)監(jiān)控埋點(diǎn)數(shù)據(jù)匯報(bào)。
單擊確定。
保存后的告警規(guī)則默認(rèn)已啟用,且出現(xiàn)在告警規(guī)則列表中,您可以選擇停止、編輯或刪除。
ARMS
使用RAM用戶、RAM角色等身份訪問(wèn)時(shí),需要具有訪問(wèn)應(yīng)用實(shí)時(shí)監(jiān)控服務(wù)權(quán)限,詳情請(qǐng)參見(jiàn)訪問(wèn)控制概述。
單個(gè)作業(yè)配置
單擊目標(biāo)工作空間操作列下的
,進(jìn)入應(yīng)用實(shí)時(shí)監(jiān)控服務(wù)ARMS控制臺(tái)。上方展示了工作空間名稱、工作空間ID,以及對(duì)應(yīng)的Prometheus實(shí)例名稱,
單擊左側(cè)的告警規(guī)則,創(chuàng)建告警規(guī)則。
檢測(cè)類型:支持通過(guò)靜態(tài)閾值和自定義PromQL進(jìn)行指標(biāo)告警(Flink已支持的告警指標(biāo)除外)。
篩選條件:命名空間填寫項(xiàng)目空間名稱;部署作業(yè)填寫項(xiàng)目空間下目標(biāo)作業(yè)的部署作業(yè)ID(在Flink作業(yè)部署詳情頁(yè)簽查看),選擇等于時(shí),對(duì)指定作業(yè)進(jìn)行監(jiān)控告警。
更多配置參數(shù)詳情請(qǐng)參見(jiàn)Prometheus告警規(guī)則。
作業(yè)批量配置
單擊目標(biāo)工作空間操作列下的
,進(jìn)入應(yīng)用實(shí)時(shí)監(jiān)控服務(wù)ARMS控制臺(tái)。上方展示了工作空間名稱、工作空間ID,以及對(duì)應(yīng)的Prometheus實(shí)例名稱,
單擊左側(cè)的告警規(guī)則,創(chuàng)建告警規(guī)則。
檢測(cè)類型:支持通過(guò)靜態(tài)閾值和自定義PromQL進(jìn)行指標(biāo)告警(Flink已支持的告警指標(biāo)除外)。
篩選條件:支持批量告警配置。命名空間填寫項(xiàng)目空間名稱,選擇全部時(shí)表示工作空間下全部項(xiàng)目空間;部署作業(yè)填寫項(xiàng)目空間下目標(biāo)作業(yè)的部署作業(yè)ID(在Flink作業(yè)部署詳情頁(yè)簽查看),選擇全部時(shí)表示項(xiàng)目空間下的全部作業(yè)。
更多配置參數(shù)詳情請(qǐng)參見(jiàn)Prometheus告警規(guī)則。您也可以創(chuàng)建Prometheus告警規(guī)則模板,詳情請(qǐng)參見(jiàn)Prometheus告警規(guī)則模板。
配置事件告警
云監(jiān)控
僅購(gòu)買該工作空間的主賬號(hào),以及該主賬號(hào)下具有項(xiàng)目空間權(quán)限的RAM用戶和RAM角色,可以在云監(jiān)控上配置告警或訂閱事件。
作業(yè)事件告警
通過(guò)配置條件來(lái)訂閱作業(yè)的系統(tǒng)事件告警,支持事件批量告警配置。
在左側(cè)導(dǎo)航欄,選擇
。在訂閱策略頁(yè)簽,單擊創(chuàng)建訂閱策略。
在創(chuàng)建訂閱策略頁(yè)面,配置相關(guān)參數(shù)。
具體參數(shù)詳情請(qǐng)參見(jiàn)管理事件訂閱(推薦)。
訂閱類型:系統(tǒng)事件。
產(chǎn)品:選擇實(shí)時(shí)計(jì)算Flink版。
事件名稱:支持作業(yè)運(yùn)行失敗(使用ARMS監(jiān)控服務(wù)時(shí)不支持)、ECS宕機(jī)事后處理和ECS主動(dòng)運(yùn)維影響事件。目前作業(yè)運(yùn)行失敗事件僅支持嚴(yán)重(Critical)事件等級(jí)。
事件內(nèi)容:可以在事件內(nèi)容中通過(guò)填寫如下Flink信息進(jìn)行指定作業(yè)或批量告警。
工作空間ID:對(duì)目標(biāo)工作空間下所有項(xiàng)目空間的所有作業(yè)進(jìn)行事件告警。工作空間ID查看請(qǐng)參見(jiàn)如何查看工作空間ID等信息?。
項(xiàng)目空間名稱:對(duì)目標(biāo)項(xiàng)目空間下所有作業(yè)進(jìn)行事件告警。
部署作業(yè)名稱:對(duì)指定作業(yè)進(jìn)行事件告警,多個(gè)作業(yè)時(shí)使用英文逗號(hào)(
,
)分隔。需要注意賬號(hào)下是否存在重名作業(yè),若存在重名作業(yè)請(qǐng)使用DeploymentID。DeploymentID:對(duì)指定作業(yè)進(jìn)行事件告警,多個(gè)作業(yè)時(shí)使用英文逗號(hào)(
,
)分隔。可在Flink作業(yè)部署詳情頁(yè)簽的部署作業(yè)ID查看。
說(shuō)明應(yīng)用分組、事件內(nèi)容和事件資源均不設(shè)置時(shí),表示訂閱范圍對(duì)本賬號(hào)內(nèi)所有工作空間生效。
工作流事件告警
通過(guò)配置條件來(lái)訂閱Flink工作流的系統(tǒng)事件告警,支持事件批量告警配置,工作流詳情請(qǐng)參見(jiàn)管理工作流。
獲取工作流節(jié)點(diǎn)的資源ID。
在左側(cè)導(dǎo)航欄,選擇
。在事件監(jiān)控頁(yè)簽,產(chǎn)品選擇實(shí)時(shí)計(jì)算Flink版、事件名稱選擇工作流任務(wù)狀態(tài)變化,單擊搜索。
在下面篩選出工作流節(jié)點(diǎn)的資源ID。
資源格式為
acs:flink:cn-hangzhou:<workspace阿里云賬號(hào)Id>:resourceId/workspaceId/<workspaceId-namespaceId>#workflowDefinitionName/<workflowDefinitionName>#taskDefinitionName/<taskDefinitionName>
,您也可以使用這個(gè)格式直接拼接您的工作流節(jié)點(diǎn)的資源ID。參數(shù)
說(shuō)明
<workspace阿里云賬號(hào)Id>
開通Flink工作空間的阿里云賬號(hào)ID。
<workspaceId-namespaceId>
由"-"字符拼接
workspaceId
和namespaceId
組成。workspaceId
:工作空間ID,登錄實(shí)時(shí)計(jì)算控制臺(tái),單擊目標(biāo)工作空間操作列下的工作空間詳情查看。namespaceId
: 項(xiàng)目空間名稱。<workflowDefinitionName>
工作流名稱。
<taskDefinitionName>
工作流節(jié)點(diǎn)名稱。
說(shuō)明云監(jiān)控中工作流的狀態(tài)變更事件顯示通常會(huì)存在幾分鐘的延遲。
訂閱事件通知。
在左側(cè)導(dǎo)航欄,選擇
。在訂閱策略頁(yè)簽,單擊創(chuàng)建訂閱策略。
在創(chuàng)建訂閱策略頁(yè)面,設(shè)置訂閱策略的相關(guān)參數(shù)。
具體參數(shù)詳情請(qǐng)參見(jiàn)管理事件訂閱(推薦)。
名稱:輸入訂閱策略名稱。
訂閱類型:選擇系統(tǒng)事件。
訂閱范圍:
產(chǎn)品:選擇實(shí)時(shí)計(jì)算Flink版。
事件名稱:選擇工作流任務(wù)狀態(tài)變化。
事件內(nèi)容:輸入
toState: FAILED
。可配置參數(shù)如下:
toState: FAILED
:工作流狀態(tài)失敗。toState: SUCCESS
:工作流狀態(tài)成功。fromState: SCHEDULED, toState: RUNNING
:工作流狀態(tài)從等待調(diào)度,到運(yùn)行中的參數(shù)。
事件資源:輸入步驟1中獲取到的資源ID。
事件類型、事件等級(jí)、應(yīng)用分組:均不設(shè)置。
實(shí)時(shí)計(jì)算開發(fā)控制臺(tái)
Flink控制臺(tái)僅支持查看近48小時(shí)內(nèi)告警事件,更長(zhǎng)時(shí)間的告警事件請(qǐng)?jiān)贏RMS控制臺(tái)告警管理中查看。
目前實(shí)時(shí)計(jì)算控制臺(tái)僅支持對(duì)單個(gè)作業(yè)配置作業(yè)失敗事件告警。
進(jìn)入告警配置入口。
登錄實(shí)時(shí)計(jì)算控制臺(tái),單擊目標(biāo)工作空間操作列下的控制臺(tái)。
在
頁(yè)面,單擊目標(biāo)作業(yè)名稱。單擊告警配置頁(yè)簽。
在告警規(guī)則頁(yè)簽,選擇
。您也可以選擇
,通過(guò)添加并使用事件告警模板,可以直接創(chuàng)建作業(yè)失敗告警規(guī)則,加快配置監(jiān)控告警的效率。填寫告警規(guī)則信息。
類別
參數(shù)
描述
具體規(guī)則
規(guī)則名稱
以字母開頭,僅包含小寫英文字母、數(shù)字、下劃線(_),長(zhǎng)度限制為3~64個(gè)字符。
描述
規(guī)則的備注信息。
內(nèi)容
選擇Job Failed(作業(yè)失敗)指標(biāo)。
生效時(shí)間
告警監(jiān)控的生效時(shí)間,可以指定只在白天(9點(diǎn)~18點(diǎn))生效,默認(rèn)全天生效。
告警頻率
連續(xù)多少分鐘內(nèi)只發(fā)一次告警。支持1分鐘~1440分鐘(24小時(shí))。
通知方式
通知方式
支持選擇多個(gè)通知方式。支持的通知方式如下:
DingTalk:釘釘
Email:郵件
SMS:短信
Webhook:網(wǎng)絡(luò)服務(wù)地址。
Phone:電話。需確保接收人電話已完成驗(yàn)證,否則無(wú)法生效。您可以單擊下方的通知對(duì)象管理,若聯(lián)系人頁(yè)簽中目標(biāo)聯(lián)系人電話列存在未驗(yàn)證標(biāo)識(shí),需單擊完成驗(yàn)證。
重要請(qǐng)確保已創(chuàng)建并添加可用的通知對(duì)象,否則將導(dǎo)致告警通知方式失敗。例如,選擇釘釘通知方式時(shí),請(qǐng)選中DingTalk并添加釘釘機(jī)器人類型的釘釘通知對(duì)象。
告警管理的收費(fèi)詳情請(qǐng)參見(jiàn)告警計(jì)費(fèi)說(shuō)明。
通知對(duì)象
支持同時(shí)通知多個(gè)通知對(duì)象,您可以直接選擇或搜索通知對(duì)象。在選擇通知對(duì)象前,您需要先創(chuàng)建通知對(duì)象。
具體操作為單擊右側(cè)的通知對(duì)象管理,然后分別在聯(lián)系人組、聯(lián)系人、Webhook和釘釘機(jī)器人頁(yè)簽中,單擊編輯后單擊保存。如何添加釘釘機(jī)器人告警或新建Webhook,詳情請(qǐng)參見(jiàn)常見(jiàn)問(wèn)題。
單擊確定。
保存后的告警規(guī)則默認(rèn)已啟用,且出現(xiàn)在告警規(guī)則列表中,您可以選擇停止、編輯或刪除。
ARMS
當(dāng)工作空間使用ARMS提供監(jiān)控報(bào)警服務(wù)時(shí),支持在云監(jiān)控控制臺(tái)訂閱事件告警(僅支持ECS宕機(jī)事后處理和ECS主動(dòng)運(yùn)維影響事件,作業(yè)運(yùn)行失敗告警可參見(jiàn)實(shí)時(shí)計(jì)算開發(fā)控制臺(tái)),詳情請(qǐng)參見(jiàn)云監(jiān)控。
常見(jiàn)問(wèn)題
如何在實(shí)時(shí)計(jì)算開發(fā)控制臺(tái)添加釘釘機(jī)器人告警
添加一個(gè)自定義釘釘機(jī)器人,并獲取它的Webhook地址,詳情請(qǐng)參見(jiàn)添加自定義釘釘機(jī)器人并獲取Webhook地址。
重要安全設(shè)置請(qǐng)至少選中自定義關(guān)鍵詞,且關(guān)鍵詞至少設(shè)置為報(bào)警才能收到告警信息。
添加通知對(duì)象。
在
頁(yè)面,單擊目標(biāo)作業(yè)名稱,單擊告警配置頁(yè)簽。選擇
或規(guī)則模板。在創(chuàng)建規(guī)則或創(chuàng)建告警規(guī)則模板信息頁(yè)面,單擊通知對(duì)象管理。
在釘釘機(jī)器人頁(yè)簽,單擊添加釘釘機(jī)器人。
輸入釘釘機(jī)器人的名稱和地址,單擊提交。
返回步驟2的創(chuàng)建規(guī)則或創(chuàng)建告警規(guī)則模板信息頁(yè)面,通知方式選擇DingTalk,通知對(duì)象選擇對(duì)應(yīng)的釘釘機(jī)器人。
告警規(guī)則中的其他參數(shù)說(shuō)明請(qǐng)參見(jiàn)實(shí)時(shí)計(jì)算開發(fā)控制臺(tái)告警配置。
單擊確定。
如何在實(shí)時(shí)計(jì)算開發(fā)控制臺(tái)新建Webhook
在告警模板或者規(guī)則信息頁(yè)面,單擊通知對(duì)象管理。
在Webhook頁(yè)簽,單擊新建Webhook。
在新建Webhook頁(yè)面,輸入Webhook信息。
參數(shù)
說(shuō)明
名稱
必填,Webhook名稱。
URL
必填,網(wǎng)絡(luò)服務(wù)地址。
Headers
可選,請(qǐng)求頭,用來(lái)存放cookie和token信息。格式為key: value。
說(shuō)明請(qǐng)確保key與value的冒號(hào)后存在空格分隔符。
Params
可選,請(qǐng)求參數(shù),格式為key: value。
說(shuō)明請(qǐng)確保key與value的冒號(hào)后存在空格分隔符。
Body
必填,請(qǐng)求體,用來(lái)存放POST的參數(shù)和參數(shù)數(shù)據(jù)。
您可以在Body字符串中使用$content占位符輸出報(bào)警內(nèi)容。
單擊確定。
如何在實(shí)時(shí)計(jì)算開發(fā)控制臺(tái)添加飛書機(jī)器人告警
在告警模板或者規(guī)則信息頁(yè)面,單擊通知對(duì)象管理。
在Webhook頁(yè)簽,單擊新建Webhook。
在新建Webhook頁(yè)面,輸入Webhook信息。
參數(shù)
說(shuō)明
名稱
必填,Webhook名稱。
URL
必填,網(wǎng)絡(luò)服務(wù)地址。參數(shù)詳情請(qǐng)參見(jiàn)飛書自定義機(jī)器人使用指南獲取飛書機(jī)器人的Webhook地址。
Headers
可選,請(qǐng)求頭,用來(lái)存放cookie和token信息。格式為key: value。
例如:
Arms-Content-Type: json
Content-Type: application/json
說(shuō)明請(qǐng)確保key與value的冒號(hào)后存在空格分隔符。
Params
可選,請(qǐng)求參數(shù),格式為key: value。
說(shuō)明請(qǐng)確保key與value的冒號(hào)后存在空格分隔符。
Body
必填,請(qǐng)求體,用來(lái)存放POST的參數(shù)和參數(shù)數(shù)據(jù)。
您可以在Body字符串中使用$content占位符輸出報(bào)警內(nèi)容。
例如:
{"msg_type":"text","content": {"text":"$content"}}
單擊確定。
相關(guān)文檔
實(shí)時(shí)計(jì)算Flink版支持選擇云監(jiān)控(免費(fèi)監(jiān)控服務(wù))或ARMS可觀測(cè)監(jiān)控Prometheus版監(jiān)控服務(wù)為您提供作業(yè)監(jiān)控告警功能,功能、費(fèi)用等對(duì)比詳情請(qǐng)參見(jiàn)云監(jiān)控與ARMS告警服務(wù)功能對(duì)比。
ARMS支持靜默策略、告警升級(jí)及排班等功能配置,詳情請(qǐng)參見(jiàn)靜默策略、升級(jí)策略和相關(guān)實(shí)踐教程。
云監(jiān)控支持通過(guò)釘釘群、飛書群等接收?qǐng)?bào)警通知,配置方法詳情請(qǐng)參見(jiàn)報(bào)警通知方式。
支持的監(jiān)控指標(biāo)詳情請(qǐng)參見(jiàn)監(jiān)控指標(biāo)說(shuō)明。
您可以關(guān)閉監(jiān)控告警或廢棄具體指標(biāo)(使用ARMS監(jiān)控告警時(shí)),以節(jié)省費(fèi)用,后續(xù)有需要時(shí)可以重新恢復(fù)指標(biāo)采集,具體操作請(qǐng)參見(jiàn)廢棄或恢復(fù)監(jiān)控指標(biāo)。