云數據庫MongoDB提供實例狀態監控及報警功能。本文將介紹設置磁盤空間使用率、IOPS使用率、連接數使用率、CPU使用率等常用的監控項目。
背景信息
隨著數據量及業務的發展,MongoDB實例的性能資源使用率可能會逐步提升,直至被消耗殆盡。
某些場景下MongoDB實例的性能資源可能被大量地異常消耗。如大量的慢查詢引起的CPU使用率上升,大量數據寫入導致磁盤空間被急劇消耗等情況。
重要當磁盤容量不足將導致實例被鎖定。
通過對實例的關鍵性能指標設置監控報警規則,讓您在第一時間得知指標數據發生異常,幫助您迅速定位并處理故障。
操作步驟
登錄MongoDB管理控制臺。
在頁面左上角,選擇實例所在的資源組和地域。
根據實例類型,在左側導航欄,單擊副本集實例列表或分片集群實例列表。
單擊目標實例ID或目標實例所在行操作列的管理。
在目標實例頁面的左側導航欄,單擊報警規則。
單擊設置報警規則,跳轉至云監控控制臺。
在云監控控制臺的報警規則頁面,單擊頁面左上角的創建報警規則。
在創建報警規則面板,設置報警規則相關參數。
參數
說明
產品
云監控可管理的云產品名稱。例如:
云數據庫MongoDB版-副本集
云數據庫MongoDB版-分片集群
云數據庫MongoDB版-單節點實例
資源范圍
報警規則作用的資源范圍。取值:
全部資源:報警規則作用于指定云產品的全部資源上,對于新加入的資源生效。
應用分組:報警規則作用于指定云產品的指定應用分組內的全部資源上,對于新加入的資源生效。
實例:報警規則作用于指定云產品的指定資源上。
規則描述
報警規則的主體。當監控數據滿足報警條件時,觸發報警規則。規則描述的設置方法如下:
單擊添加規則。
在添加規則描述面板,設置規則名稱、指標類型、監控指標、閾值和報警級別等報警規則。
單擊確定。
說明關于如何設置復雜的報警條件,請參見報警規則表達式說明。
通道沉默周期
報警發生后未恢復正常,間隔多久重復發送一次報警通知。取值:5分鐘、15分鐘、30分鐘、60分鐘、3小時、6小時、12小時和24小時。
某監控指標達到報警閾值時發送報警,如果監控指標在通道沉默周期內持續超過報警閾值,在通道沉默周期內不會重復發送報警通知;如果監控指標在通道沉默周期后仍未恢復正常,則云監控再次發送報警通知。
例如:當通道沉默周期選擇12小時時,如果報警未恢復正常,則間隔12小時后,云監控會再次發送報警通知。
生效時間
報警規則的生效時間,報警規則只在生效時間內才會檢查監控數據是否需要報警。
報警聯系人組
發送報警的聯系人組。
應用分組的報警通知會發送給該報警聯系人組中的報警聯系人。報警聯系人組是一組報警聯系人,可以包含一個或多個報警聯系人。
關于如何創建報警聯系人和報警聯系人組,請參見創建報警聯系人或報警聯系組。
標簽
報警規則的標簽。包括標簽名稱和標簽值。
關于高級設置的設置,請參見創建報警規則。
設置完成后,單擊確認。報警規則將自動生效。