日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

配置集群巡檢

E-HPC支持集群巡檢功能,可以定時檢查集群運行環境,幫助您了解集群狀態,及時發現集群問題。

功能介紹

集群巡檢是E-HPC提供的集群運維功能,可以通過云助手在集群各節點中執行相關腳本,用于檢查集群運行環境是否正常,包括檢查集群各項服務、文件目錄、用戶權限、存儲掛載和資源使用情況等。

您可以在以下場景中使用集群巡檢功能:

  • 定位問題:運行作業過程中碰到問題時,可以執行一次巡檢,檢查當前集群運行環境是否正常,協助定位問題。

  • 定期檢查:在日常運維中定時檢查集群運行環境,以便及時發現集群異常并進行處理,避免影響作業運行。

使用限制

  • 僅適用于Linux集群。

  • 僅適用于云上集群,不支持混合云集群。

配置集群巡檢

  1. 登錄彈性高性能計算控制臺

  2. 在頂部菜單欄左上角處,選擇地域。

  3. 在左側導航欄,選擇運維與監控>集群巡檢

  4. 在集群列表中選擇目標集群,然后單擊創建巡檢

  5. 在彈出的對話框中,完成巡檢配置。

    1. 輸入名稱和描述。

    2. 選擇巡檢執行方式。

      說明

      除立即執行外,其它執行方式需要設置巡檢結束時間,在當前時間到結束時間之間,系統會自動按照配置的執行方式循環執行巡檢。

      執行方式

      說明

      立即執行

      立即執行一次巡檢。

      按分鐘、按小時、按天

      每多少分鐘、小時或天執行一次巡檢,首次執行時間為當前配置時間加上時間間隔。

      按周、按月

      指定每周幾(可多個),或者每月連續的哪幾天定時執行巡檢。執行時間為當天0點。

      Cron表達式

      根據Cron表達式定時執行巡檢。關于如何配置Cron表達式,請參見Cron定時任務

    3. 選中一項或多項巡檢配置。

      配置類別

      配置名稱(巡檢項)

      說明

      FilePermission

      EHPC_CheckHomeAndUserPermission

      檢查home目錄和用戶權限是否正常。

      FileExist

      EHPC_CommonFileExist

      檢查是否存在以下EHPC集群所需的目錄:

      • /usr/local/ehpc

      • /root/ehpc_secret

      • /usr/local/ehpc_service

      • /home/master_nis_ready

      • /opt/munge/0.5.12/etc/munge/munge.key

      MountPointStatus

      EHPC_MountPointStatus

      檢查共享存儲的掛載,包括以下兩部分:

      • /home

      • /opt

      ServiceStatus

      EHPC_ScheduleStatus

      檢查調度器服務。

      EHPC_AccountStatus

      檢查域賬號服務。

      EHPC_ServiceStatus

      檢查集群服務,包括以下兩部分:

      • /usr/local/ehpc/agent/agent.js

      • /usr/sbin/sshd

      SystemEnvironment

      EHPC_DomainName

      檢查域名。

      EhpcInit

      EHPC_DeployStatus

      檢查集群中EHPC服務的安裝狀態。

      MemoryUsage

      EHPC_SchedMemoryUsage

      檢查內存使用情況。

      CpuUsage

      EHPC_SchedCpuUsage

      檢查vCPU使用情況。

      說明

      單擊腳本,可以在彈出的對話框中查看詳細的腳本內容,了解巡檢過程中系統執行的具體命令。

  6. 單擊確定

    配置完成后,系統將根據配置的執行方式自動執行巡檢。

    • 如果執行方式為立即執行,則立即執行一次巡檢。

    • 如果執行方式為按分鐘、按小時、按天,則按設置的時間間隔循環執行。

    • 如果執行方式為按周、按月,則在指定的日期當天0點執行。

    • 如果執行方式為Cron表達式,則按Cron表達式的規則執行。

查看巡檢結果

對于已完成的巡檢,可以查看巡檢結果。

  1. 集群巡檢頁面,選擇目標集群。

    選擇集群后,右側將展示該集群已配置的巡檢,對于狀態為已完成的巡檢,您可以查看巡檢結果。

    巡檢列表

  2. 單擊目標巡檢ID。

  3. 查看巡檢基本信息和巡檢結果。

    巡檢詳情

    巡檢結果區域,您可以單擊任一巡檢項,切換查看各個檢查目標的檢查結果。

    • 對于檢查成功的目標,返回巡檢成功。

      巡檢成功

    • 對于檢查失敗的目標,可以查看失敗的節點列表及其日志信息。

      巡檢失敗

停止集群巡檢

對于已就緒或者運行中的巡檢,如果不想執行巡檢,您可以停止。

  1. 集群巡檢頁面,選擇目標集群。

  2. 找到目標巡檢,單擊操作列中的停止

  3. 在彈出的對話框中,單擊確定