云監(jiān)控
云監(jiān)控為您提供企業(yè)級(jí)開放型一站式監(jiān)控解決方案。Hologres已經(jīng)接入云監(jiān)控的云服務(wù)監(jiān)控,方便您通過云監(jiān)控全面了解Hologres實(shí)例的資源使用、業(yè)務(wù)運(yùn)行及健康狀況,及時(shí)收到異常報(bào)警并做出響應(yīng),保證應(yīng)用程序運(yùn)行順暢。本文為您介紹如何通過云監(jiān)控監(jiān)測(cè)Hologres實(shí)例的相關(guān)指標(biāo)并上報(bào)告警。
前提條件
已開通Hologres,詳情請(qǐng)參見購(gòu)買Hologres。
使用建議
目前云監(jiān)控已經(jīng)支持按照Hologres實(shí)例類型(包括實(shí)時(shí)數(shù)倉(cāng)Hologres(從實(shí)例)、實(shí)時(shí)數(shù)倉(cāng)Hologres(湖倉(cāng)加速)、實(shí)時(shí)數(shù)倉(cāng)Hologres(通用型)、實(shí)時(shí)數(shù)倉(cāng)Hologres(計(jì)算組))展示對(duì)應(yīng)實(shí)例的監(jiān)控指標(biāo),不同的實(shí)例類型對(duì)應(yīng)專屬監(jiān)控指標(biāo),以便更好的監(jiān)控業(yè)務(wù)異常并處理,建議將實(shí)時(shí)數(shù)倉(cāng)Hologres的監(jiān)控切換為對(duì)應(yīng)實(shí)例類型下的監(jiān)控,以獲得更好的監(jiān)控體驗(yàn)。
云監(jiān)控指標(biāo)
當(dāng)前云監(jiān)控支持的Hologres實(shí)例監(jiān)控指標(biāo)詳情,請(qǐng)參見Hologres管控臺(tái)的監(jiān)控指標(biāo)。更多有關(guān)云監(jiān)控信息
查看監(jiān)控指標(biāo)
您可以直接登錄云監(jiān)控控制臺(tái)查看。
在左側(cè)導(dǎo)航欄,單擊云產(chǎn)品監(jiān)控。
在大數(shù)據(jù)(數(shù)加)區(qū)域,單擊目標(biāo)實(shí)例類型(實(shí)時(shí)數(shù)倉(cāng)Hologres(從實(shí)例)、實(shí)時(shí)數(shù)倉(cāng)Hologres(湖倉(cāng)加速)、實(shí)時(shí)數(shù)倉(cāng)Hologres(通用型)或?qū)崟r(shí)數(shù)倉(cāng)Hologres(計(jì)算組)),進(jìn)入Hologres監(jiān)控大盤。
單擊地域后的圖標(biāo),選擇目標(biāo)地域。
單擊目標(biāo)實(shí)例ID或操作列的監(jiān)控圖表,查看實(shí)例相關(guān)指標(biāo)的狀態(tài)。
說明您可以自定義查看實(shí)例指標(biāo)的時(shí)間段,監(jiān)控?cái)?shù)據(jù)最多保留30天。
監(jiān)控告警實(shí)踐
一鍵報(bào)警
Hologres支持您在云監(jiān)控中開啟一鍵報(bào)警功能,為所有實(shí)例設(shè)置默認(rèn)的告警規(guī)則,開啟后,會(huì)創(chuàng)建CPU使用率、磁盤使用率、內(nèi)存使用率、連接數(shù)等相關(guān)報(bào)警規(guī)則,作用于阿里云賬號(hào)(主賬號(hào))下的所有Hologres實(shí)例,方便對(duì)多個(gè)常見的重要指標(biāo)進(jìn)行異常告警,快速發(fā)現(xiàn)問題。默認(rèn)告警規(guī)則包括:
如果連接數(shù)使用率(Info)連續(xù)3次平均值>=95就通知,通知對(duì)象為云賬號(hào)報(bào)警聯(lián)系人。
如果存儲(chǔ)水位(Warn)連續(xù)3次平均值>90就通知,通知對(duì)象為云賬號(hào)報(bào)警聯(lián)系人。
如果內(nèi)存水位(Warn)連續(xù)3次平均值>=90就通知,通知對(duì)象為云賬號(hào)報(bào)警聯(lián)系人。
如果CPU水位(Info)連續(xù)3次平均值>=99就通知,通知對(duì)象為云賬號(hào)報(bào)警聯(lián)系人。
默認(rèn)每次告警的周期為5分鐘,可自定義設(shè)置。
創(chuàng)建報(bào)警規(guī)則
除默認(rèn)的一鍵告警外,您還可以根據(jù)業(yè)務(wù)情況,對(duì)更多的監(jiān)控指標(biāo)設(shè)置告警,操作詳情如下:
在左側(cè)導(dǎo)航欄,選擇 。
在報(bào)警規(guī)則頁(yè)面,單擊創(chuàng)建報(bào)警規(guī)則,根據(jù)提示設(shè)置報(bào)警信息。具體操作,請(qǐng)參見創(chuàng)建報(bào)警規(guī)則。
告警設(shè)置最佳實(shí)踐
Hologres對(duì)于不同監(jiān)控指標(biāo),推薦設(shè)置的告警如下:
實(shí)例CPU使用率(%)
該指標(biāo)反映了Hologres的資源是否存在瓶頸,也反映了您的資源使用是否充分。推薦的告警如下:
告警規(guī)則:
緊急(Critical):“實(shí)例CPU使用率連續(xù)60個(gè)周期(1周期=1分鐘),監(jiān)控值>=99%”,有效監(jiān)測(cè)集群的資源水位,長(zhǎng)期打滿需要擴(kuò)容。
警告(Warn):“實(shí)例CPU使用率連續(xù)10個(gè)周期(1周期=1分鐘),監(jiān)控值>=99%”,可以及時(shí)觀測(cè)是否因?yàn)闃I(yè)務(wù)變動(dòng)導(dǎo)致CPU打滿。
不建議出現(xiàn)一次實(shí)例CPU使用率達(dá)到100%就告警。短時(shí)間內(nèi)的CPU使用率達(dá)到100%并不表示系統(tǒng)過載或異常,而是代表了高效的資源利用。
不建議CPU的告警水位設(shè)置過低。因?yàn)闆]有任務(wù)運(yùn)行時(shí),也可能有系統(tǒng)組件在運(yùn)行,會(huì)占用一定資源。
Worker節(jié)點(diǎn)CPU使用率(%)
該指標(biāo)反映了Hologres中每個(gè)Worker資源是否存在瓶頸,也反映了資源使用是否充分。推薦告警如下:
告警規(guī)則
緊急(Critical):“Worker節(jié)點(diǎn)CPU使用率連續(xù)60個(gè)周期(1周期=1分鐘),監(jiān)控值>=99%”,有效監(jiān)測(cè)每個(gè)Worker的資源水位,長(zhǎng)期打滿需要擴(kuò)容。
警告(Warn):“Worker節(jié)點(diǎn)CPU使用率連續(xù)10個(gè)周期(1周期=1分鐘),監(jiān)控值>=99%”,可以及時(shí)觀測(cè)是否因?yàn)闃I(yè)務(wù)變動(dòng)導(dǎo)致CPU打滿。
不推薦出現(xiàn)一次Worker節(jié)點(diǎn)CPU使用率達(dá)到100%就告警。短時(shí)間內(nèi)的CPU使用率達(dá)到100%并不表示系統(tǒng)過載或異常,而是代表了高效的資源利用。
不推薦CPU的告警水位設(shè)置過低,因?yàn)闆]有任務(wù)運(yùn)行時(shí),也可能有系統(tǒng)組件在運(yùn)行,會(huì)占用一定資源。
實(shí)例內(nèi)存使用率(%)
該指標(biāo)反映了實(shí)例的內(nèi)存使用情況。推薦的告警如下:
告警規(guī)則
緊急(Critical):“實(shí)例內(nèi)存使用率連續(xù)60個(gè)周期(1周期=1分鐘),監(jiān)控值>=99%”,有效監(jiān)測(cè)集群的內(nèi)存水位,長(zhǎng)期打滿建議擴(kuò)容。
警告(Warn):“實(shí)例內(nèi)存使用率連續(xù)10個(gè)周期(1周期=1分鐘),監(jiān)控值>=99%”,可以及時(shí)觀測(cè)是否因?yàn)闃I(yè)務(wù)變動(dòng)導(dǎo)致內(nèi)存打滿。
不推薦內(nèi)存指標(biāo)的告警水位設(shè)置過低。因?yàn)閮?nèi)存不僅用于Query運(yùn)行,也用于Meta、Cache等部分,在實(shí)例任務(wù)空閑時(shí)也有一定的內(nèi)存使用。
Worker節(jié)點(diǎn)內(nèi)存使用率(%)
該指標(biāo)反映了Worker的內(nèi)存使用情況。推薦的告警如下:
告警規(guī)則
緊急(Critical):“Worker節(jié)點(diǎn)內(nèi)存使用率連續(xù)60個(gè)周期(1周期=1分鐘),監(jiān)控值>=99%”,有效監(jiān)測(cè)集群的內(nèi)存水位,長(zhǎng)期打滿建議擴(kuò)容。
警告(Warn):“Worker節(jié)點(diǎn)內(nèi)存使用率連續(xù)10個(gè)周期(1周期=1分鐘),監(jiān)控值>=99%”,可以及時(shí)觀測(cè)是否因?yàn)闃I(yè)務(wù)變動(dòng)導(dǎo)致內(nèi)存打滿。
不推薦內(nèi)存指標(biāo)的告警水位設(shè)置過低,因?yàn)閮?nèi)存不僅用于Query運(yùn)行,也用于Meta、Cache等部分,在實(shí)例任務(wù)空閑時(shí)也有一定的內(nèi)存使用。
連接數(shù)使用率最高的FE的連接數(shù)使用率(%)
該指標(biāo)反映了當(dāng)前每個(gè)FE的連接數(shù)使用率最大值。推薦的告警規(guī)則如下:
警告(Warn):“連接數(shù)使用率最高的FE的連接數(shù)使用率連續(xù)5個(gè)周期(1周期=1分鐘),監(jiān)控值>=95%”,可以有效監(jiān)測(cè)集群的連接數(shù)使用情況,及時(shí)清理空閑連接。
wal sender使用率最高的FE的wal sender使用率(%)
該指標(biāo)反映了當(dāng)前每個(gè)FE的Walsender使用率最大值。推薦的告警規(guī)則如下:
警告(Warn):“wal sender使用率最高的FE的wal sender使用率連續(xù)5個(gè)周期(1周期=1分鐘),監(jiān)控值>=95%”,可以有效監(jiān)測(cè)集群的Walsender使用情況。
本實(shí)例正在運(yùn)行中Query最長(zhǎng)的時(shí)長(zhǎng)(milliseconds)
該指標(biāo)可以有效監(jiān)測(cè)實(shí)例中當(dāng)前時(shí)刻是否有長(zhǎng)時(shí)間運(yùn)行的Query。推薦的告警規(guī)則如下:
警告(Warn):“本實(shí)例正在運(yùn)行中Query最長(zhǎng)的時(shí)長(zhǎng)連續(xù)10個(gè)周期(1周期=1分鐘),監(jiān)控值>=3600000milliseconds”。
正在運(yùn)行的 Serverless Computing 的查詢中,最長(zhǎng)的時(shí)長(zhǎng)(milliseconds)
該指標(biāo)可以有效監(jiān)測(cè)Serverless集群中的任務(wù)運(yùn)行情況,如果運(yùn)行時(shí)間過長(zhǎng),可以及時(shí)取消相關(guān)任務(wù)。推薦的告警規(guī)則如下:
警告(Warn):“正在運(yùn)行的Serverless Computing的查詢中,最長(zhǎng)的時(shí)長(zhǎng)連續(xù)10個(gè)周期(1周期=1分鐘),監(jiān)控值>=3600000milliseconds”。
失敗Query QPS(countS)
該指標(biāo)反映了實(shí)例中運(yùn)行Query的失敗情況,可以針對(duì)失敗Query設(shè)置告警,方便及時(shí)了解實(shí)例中Query運(yùn)行情況。推薦的告警規(guī)則如下:
警告(Warn):“失敗Query QPS中,連續(xù)10個(gè)周期(1周期=1分鐘),監(jiān)控值>=10countS”。如果實(shí)例中失敗Query較多,建議根據(jù)慢Query日志查看詳情失敗詳情,并針對(duì)性治理。
FE replay延遲(milliseconds)
該指標(biāo)反映了每個(gè)FE的replay時(shí)間,如果時(shí)間過長(zhǎng),說明replay慢,可能原因?yàn)镕E卡住,導(dǎo)致Query卡住,需要及時(shí)處理。推薦的告警如下:
告警規(guī)則
警告(Warn):“FE replay延遲連續(xù)10個(gè)周期(1周期=1分鐘),監(jiān)控值>=300000milliseconds”,出現(xiàn)告警時(shí),前往HoloWeb活躍Query查看是否有長(zhǎng)時(shí)間運(yùn)行的Query,并嘗試取消Query。
不推薦FE replay延遲設(shè)置的時(shí)間過短。因?yàn)閷?shí)例中有元數(shù)據(jù)的修改就有FE的replay,通常情況下,F(xiàn)E的replay時(shí)間在秒級(jí)都屬于正常現(xiàn)象。
主從同步延遲(milliseconds)
該指標(biāo)僅在從實(shí)例中展示,反映了主從同步的延遲情況,推薦的告警規(guī)則如下:
警告(Warn):“主從同步延遲連續(xù)10個(gè)周期(1周期=1分鐘),監(jiān)控值>=600000milliseconds”。
每個(gè)DB統(tǒng)計(jì)信息缺失的表個(gè)數(shù)(countS)
該指標(biāo)反映了Auto Analyze的質(zhì)量,如果長(zhǎng)時(shí)間存在缺失統(tǒng)計(jì)信息的表,可以對(duì)表手動(dòng)執(zhí)行Analyze命令,詳情請(qǐng)參見ANALYZE和AUTO ANALYZE。推薦的告警如下:
告警規(guī)則
警告(Warn):“每個(gè)DB統(tǒng)計(jì)信息缺失的表個(gè)數(shù)連續(xù)60個(gè)周期(1周期=1分鐘),監(jiān)控值>=10countS”。
不建議監(jiān)控值設(shè)置過低。因?yàn)閷?shí)例中表數(shù)量太多時(shí),也會(huì)導(dǎo)致Auto Analyze執(zhí)行速度降低。
常見監(jiān)控問題排查
當(dāng)監(jiān)控指標(biāo)出現(xiàn)不符合業(yè)務(wù)預(yù)期的波動(dòng),或者出現(xiàn)告警時(shí),可以通過監(jiān)控指標(biāo)常見問題排查監(jiān)控指標(biāo)的問題并處理。
API方式訪問監(jiān)控指標(biāo)
除了云監(jiān)控控制臺(tái),云監(jiān)控也提供自定義監(jiān)控大盤、API等方式訪問監(jiān)控指標(biāo),以便業(yè)務(wù)能夠更加靈活地訪問監(jiān)控。其中:
通過API方式訪問云監(jiān)控,請(qǐng)參見云產(chǎn)品監(jiān)控。
使用自定義監(jiān)控大盤,請(qǐng)參見管理自定義監(jiān)控大盤。
授予RAM用戶云監(jiān)控查看權(quán)限
默認(rèn)情況下,RAM用戶無法查看云監(jiān)控的指標(biāo)信息。此時(shí)需要您對(duì)該RAM用戶授予云監(jiān)控查看權(quán)限。
您可使用阿里云賬號(hào)(主賬號(hào))登錄RAM控制臺(tái),為RAM用戶授予如下權(quán)限,授權(quán)方法請(qǐng)參見為RAM用戶授權(quán)。
您也可根據(jù)需求自行選擇權(quán)限。
權(quán)限名稱 | 權(quán)限功能描述 |
AliyunCloudMonitorFullAccess | 管理云監(jiān)控(CloudMonitor)的權(quán)限。 |
AliyunCloudMonitorReadOnlyAccess | 只讀訪問云監(jiān)控(CloudMonitor)的權(quán)限。 |
AliyunCloudMonitorMetricDataReadOnlyAccess | 訪問云監(jiān)控(CloudMonitor)時(shí)序指標(biāo)數(shù)據(jù)的權(quán)限。 |