使用阿里云Prometheus監(jiān)控ACS集群狀態(tài)
您可以通過阿里云Prometheus監(jiān)控查看預(yù)先配置的監(jiān)控大盤和監(jiān)控性能指標(biāo)。本文介紹如何在ACS中接入阿里云Prometheus監(jiān)控、如何配置Prometheus監(jiān)控報警和自定義Prometheus監(jiān)控指標(biāo),并通過Grafana展示。
阿里云Prometheus監(jiān)控介紹
阿里云Prometheus監(jiān)控全面對接開源Prometheus生態(tài),支持類型豐富的組件監(jiān)控,提供多種開箱即用的預(yù)置監(jiān)控大盤,且提供全面托管的Prometheus服務(wù)。ACS集群完全兼容Prometheus生態(tài)體系、通用功能等相關(guān)能力。借助阿里云Prometheus監(jiān)控,您無需自行搭建Prometheus監(jiān)控系統(tǒng),因而無需關(guān)心底層數(shù)據(jù)存儲、數(shù)據(jù)展示、系統(tǒng)運(yùn)維等問題。有關(guān)阿里云Prometheus監(jiān)控的更多信息,請參見什么是可觀測監(jiān)控 Prometheus 版。
Prometheus監(jiān)控組件
ACS集群開服的時候默認(rèn)就已經(jīng)安裝托管版Prometheus監(jiān)控組件。單擊頁面左側(cè)運(yùn)維管理,選擇Prometheus 監(jiān)控功能。
類型 | 說明 |
托管版 | 由阿里Prometheus云服務(wù)直接采集您集群中的容器監(jiān)控數(shù)據(jù),提供開箱即用以及Serverless化的體驗(yàn)。 說明 在創(chuàng)建ACS集群時會默認(rèn)開啟Prometheus監(jiān)控服務(wù),請參見創(chuàng)建ACS集群。默認(rèn)開啟的Prometheus不收費(fèi)。 |
配置Prometheus監(jiān)控報警
為監(jiān)控任務(wù)創(chuàng)建報警可在滿足報警條件時通過郵件、短信、釘釘?shù)惹缹?shí)時報警,主動幫助您發(fā)現(xiàn)異常。報警規(guī)則被觸發(fā)時會向您指定的聯(lián)系人分組發(fā)送通知,而在創(chuàng)建聯(lián)系人分組之前必須先創(chuàng)建聯(lián)系人。創(chuàng)建聯(lián)系人時,您可以指定聯(lián)系人用于接收通知的手機(jī)號碼和郵箱地址,也可以提供用于自動發(fā)送報警通知的釘釘機(jī)器人地址。
步驟一:創(chuàng)建聯(lián)系人
登錄Prometheus控制臺,在Prometheus監(jiān)控頁面左上角,選擇容器服務(wù)K8s集群所在的地域。
在左側(cè)導(dǎo)航欄,選擇告警管理 > 通知對象。
在聯(lián)系人頁簽單擊新建聯(lián)系人。
在新建聯(lián)系人對話框中根據(jù)實(shí)際需求設(shè)置以下參數(shù),然后單擊確認(rèn)。
參數(shù)
說明
姓名
自定義聯(lián)系人姓名。
手機(jī)號
設(shè)置聯(lián)系人的手機(jī)號碼后,可以通過電話和短信的方式接收告警通知。
說明僅驗(yàn)證過的手機(jī)號碼可以在通知策略中使用電話的通知方式,驗(yàn)證手機(jī)號的操作,請參見驗(yàn)證手機(jī)號。
郵箱
設(shè)置聯(lián)系人的郵箱地址后,可以通過郵箱接收告警通知。
聯(lián)系人組
選擇聯(lián)系人需要加入的聯(lián)系人組。創(chuàng)建聯(lián)系人組的操作,請參見聯(lián)系人組。
電話通知失敗補(bǔ)發(fā)類型
選擇電話通知失敗后,通知補(bǔ)發(fā)類型。
您可以在聯(lián)系人頁簽設(shè)置全局默認(rèn)值,具體操作,請參見下文聯(lián)系人默認(rèn)配置。
用戶標(biāo)識
在企業(yè)內(nèi)使用的IM工具(目前支持釘釘、飛書、企業(yè)微信)對應(yīng)的用戶ID,如釘釘號、企微號等。
該字段可用于群內(nèi)告警卡片@聯(lián)系人的功能。如您需要使用該功能,請正確填寫對應(yīng)IM工具的ID號。
目前飛書、企業(yè)微信的@聯(lián)系人功能必須依賴該字段,釘釘暫不依賴該字段。
重要手機(jī)號碼和郵箱至少填寫一項,每個手機(jī)號碼或郵箱只能用于一個聯(lián)系人。
新版聯(lián)系人不支持設(shè)置釘釘機(jī)器人,如果您需要創(chuàng)建釘釘機(jī)器人,請在釘釘/飛書/企微頁簽新建釘釘機(jī)器人。具體操作,請參見釘釘機(jī)器人。已在舊版聯(lián)系人中創(chuàng)建的釘釘機(jī)器人則保留不變。
步驟二:配置告警規(guī)則
登錄Prometheus控制臺,在左側(cè)導(dǎo)航欄,單擊接入管理。
在應(yīng)用實(shí)時監(jiān)控服務(wù)ARMS > 接入管理右側(cè)頁面單擊要配置規(guī)則的集群名,進(jìn)入對應(yīng)集群的接入管理頁面。
單擊告警規(guī)則,在告警規(guī)則列表,單擊對應(yīng)告警規(guī)則右側(cè)的編輯,編輯告警規(guī)則,配置完成后單擊保存。更多信息,請參見Prometheus告警規(guī)則(新版)或Prometheus告警規(guī)則(舊版)。
自定義Prometheus監(jiān)控指標(biāo)
可觀測監(jiān)控 Prometheus 版也提供了高階監(jiān)控指標(biāo)的采集和配置方式。詳細(xì)的配置請參見:
默認(rèn)服務(wù)發(fā)現(xiàn):默認(rèn)服務(wù)發(fā)現(xiàn)。
通過Service Monitor自定義采集監(jiān)控指標(biāo):通過Service Monitor自定義采集監(jiān)控指標(biāo)。
通過Pod Monitor自定義采集監(jiān)控指標(biāo):通過Pod Monitor自定義采集監(jiān)控指標(biāo)。
其它Prometheus服務(wù)發(fā)現(xiàn)配置:其它Prometheus服務(wù)發(fā)現(xiàn)配置。
開啟集群網(wǎng)絡(luò)監(jiān)控(CoreDNS和Ingress流量監(jiān)控)
ACS產(chǎn)品默認(rèn)會集成ARMS并免費(fèi)采集核心管控以及基礎(chǔ)指標(biāo)(Pod、容器),但不會采集CoreDNS和集群Ingress相關(guān)指標(biāo)數(shù)據(jù),相關(guān)配置需要進(jìn)入登錄Prometheus控制臺進(jìn)行配置,同時2款組件產(chǎn)品的數(shù)據(jù)采集屬于收費(fèi)項目。
在ACS控制臺點(diǎn)擊頁面左側(cè)運(yùn)維管理 > 組件管理,頁面右側(cè)提供ALB Ingress Controller和CoreDNS托管版組件安裝能力,您可以按需選擇。
您也可以選擇在集群內(nèi)自行安裝社區(qū)版軟件。詳細(xì)配置,請參見:通過接入中心接入數(shù)據(jù)。