通過服務監控報警功能,您可以監控服務運行情況。如果服務運行情況超過了配置的報警規則(條件),則發送報警通知。
背景信息
EAS支持對服務的以下項目進行監控報警。
監控項目 | 描述 |
CPU消耗 | 服務當前消耗的CPU核數。 |
GPU利用率 | 服務當前GPU使用量占部署GPU總量的比重。 |
GPU顯存 | 服務當前GPU顯存使用量。 |
內存消耗 | 服務當前內存消耗,單位MB。 |
每秒總調用次數 | 服務每秒總調用次數。 |
狀態碼2xx每秒響應 | 狀態碼為2xx的每秒響應。 |
狀態碼2xx響應占比 | 狀態碼為2xx的響應占比。 |
狀態碼4xx每秒響應 | 狀態碼為4xx的每秒響應。 |
狀態碼4xx響應占比 | 狀態碼為4xx的響應占比。 |
狀態碼5xx每秒響應 | 狀態碼為5xx的每秒響應。 |
狀態碼5xx響應占比 | 狀態碼為5xx的響應占比。 |
TP5響應時間 | 前5%請求最大響應時間。 |
TP80響應時間 | 前80%請求最大響應時間。 |
TP90響應時間 | 前90%請求最大響應時間。 |
TP95響應時間 | 前95%請求最大響應時間。 |
TP99響應時間 | 前99%請求最大響應時間。 |
TP100響應時間 | 前100%請求最大響應時間。 |
入流量 | 每秒進入服務的數據量,單位KB。 |
出流量 | 每秒流出服務的數據量,單位KB。 |
步驟一:配置報警聯系人
創建報警聯系人。
登錄云監控控制臺。
在左側導航欄,選擇 。
在報警聯系人頁簽,單擊創建聯系人。
在設置報警聯系人面板,輸入報警聯系人姓名、手機號碼、旺旺、郵箱和釘釘機器人。
選擇報警通知信息語言,并滑動下方的滑塊。
系統支持如下三種方式:
自動:根據當前賬號注冊時的語言自動適配報警通知信息的語言,即中國站為中文,國際站和日本站為英文。
中文
English
單擊確認。
創建報警聯系組
在左側導航欄,選擇 。
單擊報警聯系組頁簽。
在報警聯系組頁簽,單擊新建聯系人組。
在新建聯系人組面板,填寫報警聯系人組的組名,并選擇已有報警聯系人。
單擊確認。
步驟二:配置報警規則
在云監控控制臺的左側導航欄,單擊 。
在云產品監控頁面的搜索框中,搜索PAI-EAS在線預測服務,并單擊PAI-EAS在線預測服務。
在PAI-EAS在線預測服務頁面,選擇服務所在的地域,單擊服務操作列下的監控圖表。
單擊創建報警規則。
在創建報警規則面板,配置以下參數,并單擊確認。
參數
描述
產品
云監控管理的產品名稱,選擇PAI-EAS在線預測服務。
資源范圍
報警規則的作用范圍,分為全部資源和實例:
全部資源:EAS的任何服務滿足報警規則,都會發送報警通知。
實例:僅選中的單個或多個服務實例滿足報警規則時,才發送報警通知。
規則描述
報警規則的主體,當監控數據滿足指定條件時,觸發報警規則。規則描述的設置方法如下:
單擊添加規則。
在添加規則描述面板,設置規則名稱、指標類型、監控指標、閾值、報警級別和報警方式等。
單擊確定。
通道沉默周期
報警發生后如果未恢復正常,間隔多久重復發送一次報警通知。
生效時間
報警規則的生效時間,報警規則只在生效時間內才會檢查監控數據是否需要報警。
報警聯系人組
發送報警的聯系人組,選擇已綁定報警聯系人的報警組。
報警回調
可以訪問的公網URL,云監控會將報警信息通過POST請求推送至該地址,僅支持HTTP協議。
彈性伸縮
EAS在線預測服務報警規則沒有適配彈性伸縮功能,您無需打開彈性伸縮開關。
日志服務
如果您打開日志服務開關,當報警發生時,會將報警信息寫入日志服務。您需要配置日志服務的地域、ProjectName及Logstore。
創建ProjectName和Logstore的操作方法,請參見快速入門。
輕量消息隊列(原MNS)
如果您打開開關,當報警發生時,會將報警信息寫入輕量消息隊列(原 MNS)的主題。您需要設置輕量消息隊列(原 MNS)的地域和主題。關于如何創建主題,請參見創建主題。
無數據處理方法
無監控數據時報警的處理方式。取值如下:
不做任何處理(默認值)
發送無數據報警
視為正常