云監控通過安裝在阿里云主機(ECS實例)上的云監控插件,采集GPU的監控數據,您還可以為這些監控項設置報警規則。當某個監控項達到報警條件時,會給您發送報警通知,以便您及時關注其動態。
前提條件
請確保您已在云服務器ECS上創建GPU計算型實例,且已安裝GPU驅動。具體操作,請參見創建GPU實例。
說明如果您先安裝云監控插件,再安裝GPU驅動,則需要重啟云監控插件。關于如何重啟云監控插件,請參見如何重啟云監控C++版本插件?。
請確保您已在云服務器ECS上安裝云監控插件。具體操作,請參見安裝云監控插件。
監控項說明
您可以從GPU、實例和應用分組維度查看GPU相關監控項。GPU的監控項如下表所示。
監控項 | 單位 | MetricName | Dimensions |
(Agent)GPU維度解碼器使用率 | % | gpu_decoder_utilization | userId、instanceId、gpuId |
(Agent)GPU維度編碼器使用率 | % | gpu_encoder_utilization | userId、instanceId、gpuId |
(Agent)GPU維度GPU溫度 | ℃ | gpu_gpu_temperature | userId、instanceId、gpuId |
(Agent)GPU維度GPU使用率 | % | gpu_gpu_usedutilization | userId、instanceId、gpuId |
(Agent)GPU維度顯存空閑量 | Byte | gpu_memory_freespace | userId、instanceId、gpuId |
(Agent)GPU維度顯存空閑率 | % | gpu_memory_freeutilization | userId、instanceId、gpuId |
(Agent)GPU維度顯存使用量 | Byte | gpu_memory_usedspace | userId、instanceId、gpuId |
(Agent)GPU維度顯存使用率 | % | gpu_memory_usedutilization | userId、instanceId、gpuId |
(Agent)GPU維度GPU功率 | W | gpu_power_readings_power_draw | userId、instanceId、gpuId |
查看GPU的監控數據
登錄云監控控制臺。
在左側導航欄,選擇
。在主機監控頁面,單擊目標主機的實例名稱鏈接,或單擊目標主機對應操作列的監控圖表。
單擊GPU監控頁簽。