密碼機監(jiān)控與報警
本文介紹如何查看密碼機實例及集群的監(jiān)控指標,并根據(jù)監(jiān)控指標設置云監(jiān)控報警。
功能概述
HSM監(jiān)控可分為實例監(jiān)控和集群監(jiān)控,分別對HSM的CPU、內(nèi)存、TCP、健康度和集群的同步狀態(tài)進行監(jiān)控。
HSM監(jiān)控可幫助您了解HSM使用情況,為風險預警方案的制定提供輔助參考。
可通過觀察指標的波動曲線發(fā)現(xiàn)異常風險點,搭配相應的報警機制及時通知相關人員處理故障,保障業(yè)務的正常運行,為業(yè)務的穩(wěn)定性提供保障。
當異常發(fā)生時還可以通過觀察異常的監(jiān)控指標,幫助您快速定位異常原因。
查看實例或集群監(jiān)控指標
指標統(tǒng)計周期為5分鐘,即每5分鐘統(tǒng)計1次數(shù)據(jù)。最多支持您查看30天內(nèi)的監(jiān)控項指標數(shù)據(jù)。
訪問加密服務控制臺的實例列表頁面,在頂部菜單欄,選擇目標地域。
單擊實例ID,在詳情頁面查看實例監(jiān)控信息和集群監(jiān)控信息。
(可選)打開右上角自動刷新開關,HSM會每隔1分鐘自動刷新監(jiān)控數(shù)據(jù)。
實例監(jiān)控信息
下表中的一鍵報警規(guī)則,是HSM內(nèi)置的通用報警規(guī)則,默認關閉,您可以在頁面右上角單擊一鍵報警直接開啟。
監(jiān)控項 | 指標含義 | 是否支持報警 | 一鍵報警規(guī)則 | 一鍵報警級別 |
CPU使用率 | 密碼機實例CPU使用率,單位為百分比。 | 是 | 密碼機實例的CPU使用率連續(xù)5個周期大于85%時,觸發(fā)告警通知。 | 警告(WARN) |
內(nèi)存使用率 | 密碼機實例內(nèi)存使用率,單位為百分比。 | 是 | 密碼機實例的內(nèi)存使用率連續(xù)5個周期大于85%時,觸發(fā)告警通知。 | 警告(WARN) |
TCP連接數(shù) | 密碼機實例建立的TCP連接的數(shù)量。 | 是 | 密碼機實例建立的TCP連接連續(xù)5個周期大于200時,觸發(fā)告警通知。 | 通知(Info) |
HSM健康度 | 密碼機實例是否正常運行。取值:
非正常運行時可能原因如下。
| 是 | 當實例健康度連續(xù)5個周期取值為0時,觸發(fā)告警通知。 | 警告(WARN) |
集群監(jiān)控信息
下表中的一鍵報警規(guī)則,是HSM內(nèi)置的通用報警規(guī)則,默認關閉,您可以在頁面右上角單擊一鍵報警直接開啟。
監(jiān)控項 | 指標含義 | 是否支持報警 | 一鍵報警規(guī)則 | 一鍵報警級別 |
同步狀態(tài) | 集群是否同步。取值:
| 是 | 連續(xù)5個周期取值為0時,即密碼機集群不同步,觸發(fā)告警通知。 | 通知(Info) |
設置監(jiān)控指標報警
方式一:在HSM開啟一鍵報警(推薦)
HSM內(nèi)置了通用報警規(guī)則,默認關閉,具體報警規(guī)則內(nèi)容,請參見本文中實例監(jiān)控信息、集群監(jiān)控信息表格中的介紹。
該方式的報警接收人,默認為系統(tǒng)創(chuàng)建的云賬號報警聯(lián)系人,如需修改請到云監(jiān)控控制臺修改。具體操作,請參見修改報警聯(lián)系人或報警聯(lián)系組。
訪問加密服務控制臺的實例列表頁面,在頂部菜單欄,選擇目標地域。
單擊實例ID,在實例監(jiān)控信息和集群監(jiān)控信息頁簽的右上角,單擊一鍵報警并打開開關。
說明開啟一鍵報警后,報警規(guī)則會作用于當前阿里云賬號下的所有HSM實例。
如果您之前開啟過一鍵報警,并修改了報警規(guī)則。再次開啟一鍵報警時,報警規(guī)則會恢復到系統(tǒng)默認的報警規(guī)則。
(可選)禁用、修改、刪除系統(tǒng)默認的報警規(guī)則。
如果您只針對部分監(jiān)控指標設置報警,或者需要設置更精細化的報警規(guī)則,可以禁用、修改報警規(guī)則。
處理報警通知。
實例監(jiān)控指標報警:請聯(lián)系阿里云技術支持。
集群監(jiān)控指標報警:觸發(fā)報警后,建議您在實例列表頁面,單擊集群同步,同步集群中主子密碼機的數(shù)據(jù)。
方式二:在云監(jiān)控設置報警
單擊設置報警規(guī)則,跳轉(zhuǎn)到云監(jiān)控控制臺。
在報警規(guī)則頁面,單擊創(chuàng)建報警規(guī)則完成配置。具體操作,請參見創(chuàng)建報警規(guī)則。
為實例創(chuàng)建報警規(guī)則時,產(chǎn)品請選擇加密服務-實例維度,為集群創(chuàng)建報警規(guī)則時,產(chǎn)品請選擇加密服務-集群維度。無數(shù)據(jù)處理方式建議選擇發(fā)送無數(shù)據(jù)報警。
處理報警通知。
實例監(jiān)控指標報警:請聯(lián)系阿里云技術支持。
集群監(jiān)控指標報警:觸發(fā)報警后,建議您在實例列表頁面,單擊集群同步,同步集群中主子密碼機的數(shù)據(jù)。
開啟“無數(shù)據(jù)報警”(推薦)
背景
無論是默認報警規(guī)則還是自定義報警規(guī)則,都是通過對監(jiān)控指標設置閾值觸發(fā)告警,當監(jiān)控指標數(shù)據(jù)為空時會影響閾值判斷,從而影響告警的及時性和正確性。云監(jiān)控針對監(jiān)控指標無數(shù)據(jù)情況,提供了三種處理方式不做任何處(默認),發(fā)送無數(shù)據(jù)報、視為恢復。推薦您開啟發(fā)送無數(shù)據(jù)報警,即監(jiān)控指標為空時觸發(fā)告警,通知聯(lián)系人介入確認情況,便于您及時處理故障。
操作步驟
步驟一:在實例監(jiān)控信息和集群監(jiān)控信息頁簽的右上角,單擊設置報警規(guī)則條進入云監(jiān)控控制臺。
步驟二:選擇要修改的報警規(guī)則,單擊操作欄修改按鈕。
步驟三:開啟發(fā)送無數(shù)據(jù)報警。
如果是自定義報警規(guī)則,可在新建時完成發(fā)送無數(shù)據(jù)報警的設置。
相關文檔
如何查看以及管理報警規(guī)則,請參見管理報警規(guī)則。