發(fā)現(xiàn)和排查實(shí)例問題
合理使用監(jiān)控相關(guān)的功能可以幫助您及時(shí)發(fā)現(xiàn)和排查實(shí)例問題,在故障發(fā)生前處理掉潛在風(fēng)險(xiǎn),避免影響業(yè)務(wù)。
診斷實(shí)例的健康狀態(tài)
實(shí)例健康診斷功能可以全方位診斷實(shí)例的操作系統(tǒng)配置、網(wǎng)絡(luò)狀態(tài)、磁盤狀態(tài)等。診斷報(bào)告中針對(duì)異常診斷項(xiàng)目的影響按照嚴(yán)重程度區(qū)分,并提供修復(fù)方案,方便您及時(shí)處理潛在風(fēng)險(xiǎn)。更多信息,請(qǐng)參見診斷實(shí)例的健康狀態(tài)。
及時(shí)處理系統(tǒng)事件
系統(tǒng)在執(zhí)行某些運(yùn)維動(dòng)作或檢測(cè)到某些異常,判斷會(huì)影響實(shí)例正常運(yùn)行時(shí),會(huì)自動(dòng)發(fā)送系統(tǒng)事件。系統(tǒng)事件中會(huì)同時(shí)提供應(yīng)對(duì)措施、事件周期等信息,建議您及時(shí)處理系統(tǒng)事件,避免實(shí)例重啟、停止等問題影響您的業(yè)務(wù)。更多信息,請(qǐng)參見ECS系統(tǒng)事件概述。
通知包年包月實(shí)例到期的系統(tǒng)事件示例如下圖所示。
請(qǐng)確保在消息中心開啟接收ECS到期通知、產(chǎn)品運(yùn)維通知、ECS故障通知等消息相關(guān)的站內(nèi)信,否則在ECS管理控制臺(tái)將不能收到系統(tǒng)事件,設(shè)置頁面如下圖所示。
關(guān)注實(shí)例運(yùn)行指標(biāo)
阿里云收集并展示實(shí)例運(yùn)行指標(biāo),供您了解實(shí)例的實(shí)時(shí)和歷史運(yùn)行情況。您可以基于運(yùn)行指標(biāo)判斷實(shí)例運(yùn)行是否正常,例如CPU使用率持續(xù)偏高時(shí),可能需要排查是否存在異常進(jìn)程或者實(shí)例配置過低。
您可以在ECS管理控制臺(tái)的實(shí)例詳情頁的監(jiān)控頁簽下或者云監(jiān)控控制臺(tái)的主機(jī)監(jiān)控頁面查看實(shí)例運(yùn)行指標(biāo),更多信息,請(qǐng)參見查看實(shí)例監(jiān)控信息和主機(jī)監(jiān)控概覽。
ECS管理控制臺(tái)的實(shí)例詳情頁面中展示的運(yùn)行指標(biāo)如下:
實(shí)例計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)的資源使用情況,例如CPU使用率、磁盤讀寫情況、網(wǎng)絡(luò)收發(fā)包數(shù)量等。
突發(fā)性能實(shí)例的CPU積分使用情況。
云監(jiān)控控制臺(tái)的主機(jī)監(jiān)控頁的操作系統(tǒng)監(jiān)控頁簽下展示的運(yùn)行指標(biāo)如下:
實(shí)例計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)的資源使用情況,例如CPU使用率、磁盤讀寫情況、網(wǎng)絡(luò)收發(fā)包數(shù)量等。
實(shí)例內(nèi)活躍進(jìn)程的信息。
GPU實(shí)例的顯存使用情況。
利用報(bào)警服務(wù)自動(dòng)通知
使用云監(jiān)控的報(bào)警服務(wù),您可以針對(duì)關(guān)注的事件或者實(shí)例運(yùn)行指標(biāo)設(shè)置報(bào)警規(guī)則,在發(fā)生指定事件或?qū)嵗\(yùn)行指標(biāo)出現(xiàn)異常時(shí),自動(dòng)以郵件等方式通知到聯(lián)系人,減輕人工運(yùn)維壓力。更多信息,請(qǐng)參見設(shè)置事件通知和設(shè)置ECS實(shí)例報(bào)警。
針對(duì)事件的報(bào)警規(guī)則示例如下所示。
針對(duì)實(shí)例運(yùn)行指標(biāo)的報(bào)警規(guī)則示例如下所示。