查看節(jié)點(diǎn)健康狀態(tài)
節(jié)點(diǎn)健康狀態(tài)展示了當(dāng)前節(jié)點(diǎn)的運(yùn)行狀態(tài)是否正常,它是由多個(gè)健康檢查項(xiàng)結(jié)果匯總而成的。本文將介紹如何查看節(jié)點(diǎn)的健康狀態(tài)和相關(guān)的健康檢查項(xiàng)。
前提條件
已創(chuàng)建集群,詳情請(qǐng)參見創(chuàng)建集群。
使用限制
僅適用于DataLake、Dataflow、OLAP、DataServing和Custom類型的集群。
查看最新節(jié)點(diǎn)健康狀態(tài)
進(jìn)入節(jié)點(diǎn)管理頁面。
在頂部菜單欄處,根據(jù)實(shí)際情況選擇地域和資源組。
在集群管理頁面,單擊目標(biāo)集群所在行的節(jié)點(diǎn)管理。
在節(jié)點(diǎn)管理頁面,您可以查看節(jié)點(diǎn)組內(nèi)節(jié)點(diǎn)健康情況。
綠色數(shù)字:節(jié)點(diǎn)組內(nèi)良好節(jié)點(diǎn)的數(shù)量。
黃色數(shù)字:節(jié)點(diǎn)組內(nèi)存在隱患節(jié)點(diǎn)的數(shù)量。
紅色數(shù)字:節(jié)點(diǎn)組內(nèi)異常節(jié)點(diǎn)的數(shù)量。
灰色數(shù)字:節(jié)點(diǎn)組內(nèi)未知和無狀態(tài)節(jié)點(diǎn)的數(shù)量。
您還可以在節(jié)點(diǎn)管理頁面,單擊目標(biāo)節(jié)點(diǎn)組的圖標(biāo)。在下方的健康狀態(tài)列,即可查看每個(gè)節(jié)點(diǎn)的健康狀態(tài)。
節(jié)點(diǎn)健康狀態(tài)主要有五種類型,分別是良好、存在隱患、異常、未知和無狀態(tài)。不同狀態(tài)類型對(duì)應(yīng)不同圖標(biāo)展示。
圖標(biāo)
健康狀態(tài)
說明
良好
節(jié)點(diǎn)運(yùn)行正常。
存在隱患
節(jié)點(diǎn)運(yùn)行正常,但節(jié)點(diǎn)健康檢查項(xiàng)檢測出隱患問題,需關(guān)注處理。
異常
節(jié)點(diǎn)不可用,節(jié)點(diǎn)健康檢查項(xiàng)檢測出嚴(yán)重問題,請(qǐng)及時(shí)處理。
無狀態(tài)
節(jié)點(diǎn)在安裝流程或手動(dòng)停止后不進(jìn)行健康檢查,無需關(guān)注。
未知
無法獲取節(jié)點(diǎn)健康檢查項(xiàng)結(jié)果。如排查業(yè)務(wù)無問題,無需關(guān)注。
查看節(jié)點(diǎn)的健康檢查
在節(jié)點(diǎn)管理頁面,單擊目標(biāo)節(jié)點(diǎn)組的圖標(biāo)。
單擊健康狀態(tài)列旁的查看檢查項(xiàng)。
在彈出的面板中,可以查看最新健康檢查結(jié)果和節(jié)點(diǎn)健康檢查歷史。
節(jié)點(diǎn)健康檢查項(xiàng)說明如下表所示。
檢測項(xiàng)名稱
檢測項(xiàng)含義
檢測項(xiàng)閾值
檢測項(xiàng)單位
節(jié)點(diǎn)存活狀態(tài)
檢測當(dāng)前節(jié)點(diǎn)存活狀態(tài)是否正常。
無閾值
-
文件描述符使用率
檢測當(dāng)前節(jié)點(diǎn)文件描述符使用率(u)。
存在隱患:95<=u<99
異常:99<=u
%
磁盤故障事件
檢測是否發(fā)生底層磁盤故障。
無閾值
-
系統(tǒng)環(huán)境檢測
檢測系統(tǒng)重要文件、Java、Python等是否可用。
無閾值
-
組件服務(wù)依賴環(huán)境檢測
檢測集群組件依賴的包文件、存儲(chǔ)目錄等是否可用。
無閾值
-
網(wǎng)絡(luò)發(fā)送丟包率
檢測網(wǎng)絡(luò)發(fā)送的丟包率(u)。
存在隱患:1.0<=u<2.5
異常:2.5<=u
%
網(wǎng)絡(luò)接收錯(cuò)誤率
檢測網(wǎng)絡(luò)接收的錯(cuò)誤率(u)。
存在隱患:0.1<=u<0.5
異常:0.5<=u
%
磁盤讀寫延遲
檢測磁盤平均讀寫延遲(u)。
存在隱患:400<=u<800
異常:800<=u
毫秒
網(wǎng)絡(luò)接收丟包率
檢測網(wǎng)絡(luò)接收的丟包率(u)。
存在隱患:1.0<=u<2.5
異常:2.5<=u
%
網(wǎng)絡(luò)發(fā)送錯(cuò)誤率
檢測網(wǎng)絡(luò)發(fā)送的錯(cuò)誤率(u)。
存在隱患:0.1<=u<0.5
異常:0.5<=u
%
系統(tǒng)故障事件
檢測是否發(fā)生底層系統(tǒng)故障。
無閾值
-
CPU使用率
檢測當(dāng)前節(jié)點(diǎn)CPU使用率(u)。
存在隱患:95<=u<99
異常:99<=u
%
磁盤Inode使用率
檢測磁盤Inode使用率(u)。
存在隱患:90<=u<99
異常:99<=u
%
內(nèi)存使用率
檢測當(dāng)前節(jié)點(diǎn)內(nèi)存使用率(u)。
存在隱患:95<=u<99
異常:99<=u
%
磁盤空間使用率
檢測磁盤空間使用率(u)。
存在隱患:90<=u<99
異常:99<=u
%