E-HPC支持集群巡檢功能,可以定時檢查集群運行環境,幫助您了解集群狀態,及時發現集群問題。
功能介紹
集群巡檢是E-HPC提供的集群運維功能,可以通過云助手在集群各節點中執行相關腳本,用于檢查集群運行環境是否正常,包括檢查集群各項服務、文件目錄、用戶權限、存儲掛載和資源使用情況等。
您可以在以下場景中使用集群巡檢功能:
定位問題:運行作業過程中碰到問題時,可以執行一次巡檢,檢查當前集群運行環境是否正常,協助定位問題。
定期檢查:在日常運維中定時檢查集群運行環境,以便及時發現集群異常并進行處理,避免影響作業運行。
使用限制
僅適用于Linux集群。
僅適用于云上集群,不支持混合云集群。
配置集群巡檢
登錄彈性高性能計算控制臺。
在頂部菜單欄左上角處,選擇地域。
在左側導航欄,選擇運維與監控>集群巡檢。
在集群列表中選擇目標集群,然后單擊創建巡檢。
在彈出的對話框中,完成巡檢配置。
輸入名稱和描述。
選擇巡檢執行方式。
說明除立即執行外,其它執行方式需要設置巡檢結束時間,在當前時間到結束時間之間,系統會自動按照配置的執行方式循環執行巡檢。
執行方式
說明
立即執行
立即執行一次巡檢。
按分鐘、按小時、按天
每多少分鐘、小時或天執行一次巡檢,首次執行時間為當前配置時間加上時間間隔。
按周、按月
指定每周幾(可多個),或者每月連續的哪幾天定時執行巡檢。執行時間為當天0點。
Cron表達式
根據Cron表達式定時執行巡檢。關于如何配置Cron表達式,請參見Cron定時任務。
選中一項或多項巡檢配置。
配置類別
配置名稱(巡檢項)
說明
FilePermission
EHPC_CheckHomeAndUserPermission
檢查home目錄和用戶權限是否正常。
FileExist
EHPC_CommonFileExist
檢查是否存在以下EHPC集群所需的目錄:
/usr/local/ehpc
/root/ehpc_secret
/usr/local/ehpc_service
/home/master_nis_ready
/opt/munge/0.5.12/etc/munge/munge.key
MountPointStatus
EHPC_MountPointStatus
檢查共享存儲的掛載,包括以下兩部分:
/home
/opt
ServiceStatus
EHPC_ScheduleStatus
檢查調度器服務。
EHPC_AccountStatus
檢查域賬號服務。
EHPC_ServiceStatus
檢查集群服務,包括以下兩部分:
/usr/local/ehpc/agent/agent.js
/usr/sbin/sshd
SystemEnvironment
EHPC_DomainName
檢查域名。
EhpcInit
EHPC_DeployStatus
檢查集群中EHPC服務的安裝狀態。
MemoryUsage
EHPC_SchedMemoryUsage
檢查內存使用情況。
CpuUsage
EHPC_SchedCpuUsage
檢查vCPU使用情況。
說明單擊腳本,可以在彈出的對話框中查看詳細的腳本內容,了解巡檢過程中系統執行的具體命令。
單擊確定。
配置完成后,系統將根據配置的執行方式自動執行巡檢。
如果執行方式為立即執行,則立即執行一次巡檢。
如果執行方式為按分鐘、按小時、按天,則按設置的時間間隔循環執行。
如果執行方式為按周、按月,則在指定的日期當天0點執行。
如果執行方式為Cron表達式,則按Cron表達式的規則執行。
查看巡檢結果
對于已完成的巡檢,可以查看巡檢結果。
在集群巡檢頁面,選擇目標集群。
選擇集群后,右側將展示該集群已配置的巡檢,對于狀態為已完成的巡檢,您可以查看巡檢結果。
單擊目標巡檢ID。
查看巡檢基本信息和巡檢結果。
在巡檢結果區域,您可以單擊任一巡檢項,切換查看各個檢查目標的檢查結果。
對于檢查成功的目標,返回巡檢成功。
對于檢查失敗的目標,可以查看失敗的節點列表及其日志信息。
停止集群巡檢
對于已就緒或者運行中的巡檢,如果不想執行巡檢,您可以停止。
在集群巡檢頁面,選擇目標集群。
找到目標巡檢,單擊操作列中的停止。
在彈出的對話框中,單擊確定。