創(chuàng)建應(yīng)用監(jiān)控告警并發(fā)送告警通知
本文通過示例說明如何創(chuàng)建應(yīng)用監(jiān)控告警并處理告警通知。
前提條件
已接入應(yīng)用監(jiān)控,具體操作,請(qǐng)參見接入應(yīng)用監(jiān)控。
背景信息
EDAS應(yīng)用監(jiān)控告警支持對(duì)采集到的各種應(yīng)用指標(biāo)配置告警規(guī)則。您可以根據(jù)需求和業(yè)務(wù)場(chǎng)景配置合理的告警規(guī)則,即可在應(yīng)用不符合預(yù)期時(shí)收到通知,以便及時(shí)做出響應(yīng)。本文以下述場(chǎng)景為例說明如何使用EDAS應(yīng)用監(jiān)控告警規(guī)則。
示例場(chǎng)景:核心業(yè)務(wù)請(qǐng)求延時(shí)過高或成功率下降。
示例應(yīng)用名稱:user-service。user-service應(yīng)用是部署在阿里云容器服務(wù)Kubernetes版集群上面的一個(gè)Java應(yīng)用,且已經(jīng)成功接入了EDAS應(yīng)用監(jiān)控。
user-service應(yīng)用是公司的核心服務(wù),如果其接口可用性下降將導(dǎo)致嚴(yán)重的后果,因此,當(dāng)此應(yīng)用提供的接口調(diào)用延時(shí)增加或者成功率下降時(shí),運(yùn)維人員需及時(shí)收到通知并且迅速響應(yīng)。
在此背景下,運(yùn)維人員需要關(guān)注的指標(biāo)有:
應(yīng)用提供服務(wù)的平均響應(yīng)時(shí)間
應(yīng)用提供服務(wù)的請(qǐng)求成功率
步驟一:驗(yàn)證應(yīng)用是否成功接入應(yīng)用監(jiān)控
執(zhí)行以下步驟驗(yàn)證user-service應(yīng)用是否成功接入應(yīng)用監(jiān)控。
登錄EDAS控制臺(tái)。
在左側(cè)導(dǎo)航欄選擇,在展開的列表中單擊user-service應(yīng)用名稱。
在左側(cè)導(dǎo)航欄,單擊應(yīng)用總覽。
進(jìn)入應(yīng)用總覽頁面,查看應(yīng)用總覽頁面是否有數(shù)據(jù)。
在左側(cè)導(dǎo)航欄單擊應(yīng)用詳情。
進(jìn)入應(yīng)用詳情的概覽頁簽,查看概覽頁簽是否有數(shù)據(jù)。
如果上面兩個(gè)頁面有數(shù)據(jù),說明應(yīng)用已經(jīng)成功接入應(yīng)用監(jiān)控;如果上面兩個(gè)頁面都沒有任何數(shù)據(jù),說明應(yīng)用沒有成功接入,請(qǐng)將應(yīng)用重新接入應(yīng)用監(jiān)控。
說明示例應(yīng)用是容器服務(wù)Kubernetes版集群的Java應(yīng)用,如果您的應(yīng)用是其它類型,接入應(yīng)用監(jiān)控成功之后的頁面顯示可能與上圖不同,但是只要頁面有指標(biāo)數(shù)據(jù)就說明已經(jīng)接入成功。
步驟二:進(jìn)入創(chuàng)建應(yīng)用監(jiān)控告警規(guī)則頁面
登錄EDAS控制臺(tái)。
在頂部菜單欄,選擇地域。
在應(yīng)用列表頁面頂部菜單欄選擇地域,在頁面中選擇微服務(wù)空間,在集群類型下拉列表中選擇ECS集群,然后單擊目標(biāo)應(yīng)用名稱。
在左側(cè)導(dǎo)航欄中選擇 。
在報(bào)警規(guī)則頁面右上角,單擊創(chuàng)建應(yīng)用監(jiān)控告警規(guī)則。
在創(chuàng)建應(yīng)用監(jiān)控告警規(guī)則頁面,設(shè)置告警應(yīng)用為user-service、指標(biāo)類型為應(yīng)用調(diào)用類型統(tǒng)計(jì)。
步驟三:創(chuàng)建告警規(guī)則
本示例中需要?jiǎng)?chuàng)建以下兩條告警規(guī)則,并在告警觸發(fā)時(shí)通過短信,郵件和釘釘群通知聯(lián)系人:
user-service應(yīng)用提供請(qǐng)求延時(shí)過高的告警規(guī)則:
最近3分鐘應(yīng)用提供服務(wù)調(diào)用響應(yīng)時(shí)間大于等于500 ms。
user-service應(yīng)用提供請(qǐng)求成功率下降的告警規(guī)則:
最近3分鐘應(yīng)用提供服務(wù)調(diào)用請(qǐng)求成功率小于等于90%。
一般認(rèn)為接口在短時(shí)間內(nèi)有所波動(dòng)為正常現(xiàn)象,持續(xù)性的異常才需要關(guān)注并且響應(yīng)。所以在添加告警規(guī)則時(shí),可以設(shè)置當(dāng)最近3分鐘的平均延時(shí)都比較高或者請(qǐng)求成功率低于90%的時(shí)候才需要告警。您在創(chuàng)建應(yīng)用監(jiān)控告警規(guī)則時(shí),可以根據(jù)需要指定不同的時(shí)間和指標(biāo)計(jì)算方法。
在創(chuàng)建應(yīng)用監(jiān)控告警規(guī)則頁面輸入告警名稱,添加告警條件。
此處先創(chuàng)建user-service應(yīng)用提供請(qǐng)求延時(shí)過高的告警條件。
設(shè)置通知策略。
如果您已經(jīng)創(chuàng)建過通知策略,則在通知策略區(qū)域選擇已有的通知策略。
如果您之前沒有創(chuàng)建過通知策略,則執(zhí)行步驟3新建通知策略。新建完通知策略后,在創(chuàng)建應(yīng)用監(jiān)控告警規(guī)則頁面刷新并選擇通知策略。
可選:單擊通知策略右側(cè)的新建通知策略。
在右側(cè)彈出的新建通知策略面板中,選擇通知人,并設(shè)置其他參數(shù),然后單擊確定。
如果您已經(jīng)創(chuàng)建過聯(lián)系人,則在通知人區(qū)域選擇已有的聯(lián)系人。
如果您之前沒有創(chuàng)建過聯(lián)系人,則執(zhí)行步驟4新建聯(lián)系人。新建完聯(lián)系人后,在新建通知策略面板刷新并選擇通知人。
可選:單擊通知人右側(cè)的新建聯(lián)系人。
在聯(lián)系人頁面創(chuàng)建聯(lián)系人、聯(lián)系人組和釘群。
在聯(lián)系人頁簽,單擊右上角的新建聯(lián)系人。
在新建聯(lián)系人對(duì)話框中輸入聯(lián)系人參數(shù),然后單擊確認(rèn)。
在聯(lián)系人組頁簽,單擊右上角的新建聯(lián)系組。
在新建聯(lián)系組對(duì)話框設(shè)置組名,并將上面創(chuàng)建的聯(lián)系人添加至聯(lián)系人組,然后單擊確認(rèn)。
創(chuàng)建完成后,在聯(lián)系人組頁簽中可以查看已創(chuàng)建的聯(lián)系人組。
在釘群頁簽,單擊右上角的新建釘群。
在新建釘群對(duì)話框中設(shè)置釘群參數(shù),然后單擊確認(rèn)。
創(chuàng)建完成后,在釘群頁簽中可以查看已創(chuàng)建的釘群。
告警規(guī)則創(chuàng)建完成后,單擊保存。
重復(fù)以上步驟創(chuàng)建user-service應(yīng)用提供請(qǐng)求成功率下降的告警規(guī)則。
創(chuàng)建完成后,在控制臺(tái)的
頁面可以查看創(chuàng)建的兩條告警規(guī)則。
查看告警通知
當(dāng)滿足告警條件時(shí),收到的告警通知如下所示:
短信:
郵件:
釘釘群:
在釘釘群中收到告警通知后,您可以直接在釘釘群中處理告警。具體操作,請(qǐng)參見在釘釘群中處理告警。
處理告警
收到通知后,您可以在ARMS告警管理中查看告警的發(fā)送歷史和詳細(xì)告警時(shí)間信息。
登錄EDAS控制臺(tái)。
在左側(cè)導(dǎo)航欄,選擇 。
在告警頁面可以查看告警發(fā)送歷史詳細(xì)告警時(shí)間信息。更多信息,請(qǐng)參見查看告警發(fā)送歷史。