日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

查看E-HPC的監控信息

通過查看集群監控信息,您可實時掌握節點、存儲和作業資源的使用情況,精確優化資源配置和任務調度。同時,允許您自定義監控時間范圍,并提供便捷的歷史數據查詢功能,助您做出明智的調整和管理決策,確保集群持續高效運行。本文介紹如何查看E-HPC的監控信息。

前提條件

  • 集群需滿足以下條件:

    • 狀態為運行中

    • 集群部署模式為公共云集群

    • 調度器為SLURM和PBS。

    • 集群監控組件已正常安裝。

  • 如果使用RAM用戶操作,請確保RAM用戶具有通過控制臺查看監控信息的權限。具體操作,請參見為RAM用戶授權

操作步驟

  1. 進入集群詳情頁面。

    1. 登錄彈性高性能計算控制臺

    2. 在頂部菜單欄左上角處,選擇地域。

    3. 在左側導航欄,單擊集群

    4. 集群列表頁面,單擊目標集群名稱

  2. 在左側導航欄,選擇運維管理 > 監控

  3. 根據需要,單擊對應頁簽,以查看E-HPC的監控信息。

    說明

    當您查看節點監控、存儲監控或作業監控信息時,您可以指定查詢的時間范圍。

    • 快速選擇:可選擇查看近1小時、4小時、12小時或1天的監控信息。

    • 自定義:精確選擇要查詢監控信息的時間范圍,時間范圍的起止時間點間隔最長為1個月。

    有關各頁簽及對應監控指標詳細說明,請參見監控指標說明

    image

監控指標說明

頁簽

說明

概覽

包含計算節點總數共享存儲空間作業總數平均負載四個統計信息,并可以查看所有計算節點狀態及資源使用情況。

計算節點調度狀態說明如下所示:

  • 空閑:節點內所有核均未被占用,表明節點的運算能力處于最大可用狀態。此時,節點可以接受新的任務或作業,以充分發揮其計算能力。

  • 工作中:節點內部分核被占用,但部分核心仍然處于可用狀態,能夠接受新的作業。

  • 忙碌:節點內所有核被占用,無法接受新的作業。若需提交新的作業,可能會進行排隊等待,直至有核心不被占用為止。

  • 離線:節點不再參與計算或任務處理,且完全不接收新的作業。

節點監控

您可以通過集群、隊列兩個維度進行篩選,查看以下六個可視化統計信息:

  • CPU利用率

    CPU利用率是指集群中計算節點的CPU在特定時間段內被程序占用的比例。高利用率(超過80%-90%)一般意味著資源高效使用,但長期如此可能導致集群性能下降和響應變慢。低利用率(0%-30%)則可能表明資源未被充分利用,或存在性能瓶頸或任務調度問題。

  • 內存利用率

    用于反映集群中計算節點的內存使用情況。為確保集群作業的順利執行,應定期監控內存使用率,以防止因內存溢出而導致作業失敗。如有必要,可通過增加內存容量或優化內存使用策略來解決相關問題。

  • 系統負載

    用于反映計算節點的工作負載情況,有助于評估集群的作業承載能力。需監控負載與節點數量的比率,當負載過高時,表明資源配置不足。可通過增加節點(擴容)或優化作業流程來改善此情況。

  • 磁盤利用率

    該指標反映磁盤存儲空間的使用狀況,旨在確保磁盤的可用性,避免出現過高的占用率(例如,當占用率達到100%時,無法進行寫入操作)。通過清理冗余數據或擴展存儲容量,可以有效應對存儲壓力。這一分析有助于您全面了解磁盤的使用情況,并判斷是否需要進行空間清理或存儲擴展。

  • 磁盤讀寫

    磁盤讀寫速率表示單位時間內數據的讀取和寫入字節數,以KB/s為單位。通過監控磁盤讀寫指標,可以有效評估集群性能,確保其高效處理計算任務。

  • 網絡流量

    反映節點內通過私網進行的數據傳輸情況。您需要特別關注高流量時間段,以便及時發現異常情況。例如網絡帶寬不足,這將直接影響數據的傳輸效率。

存儲監控

您可以查看該集群內不同文件系統下的存儲監控信息,包括以下六個可視化統計信息:

  • 存儲空間

    反映集群用于存儲計算任務產出、臨時文件和應用程序數據的文件存儲NAS使用情況。為防范存儲空間不足、性能衰退及數據丟失等異常情況,建議通過監控告警、定期數據清理及存儲擴展等措施進行有效應對。

  • 文件數

    文件存儲NAS中的文件總數,作為評估存儲管理效率的關鍵指標,它間接反映系統健康狀況和維護需求;需注意文件數量過多會增加管理復雜性并影響檢索效率與性能,若超過預設閾值則需高度關注,建議定期整理存儲內容,清除無用或冗余文件,以提升管理效率與系統性能。

  • IOPS

    表示該文件系統在周期內每秒平均讀/寫IOPS次數。單位為次/秒。

  • 延遲

    表示該文件系統在周期內每毫秒平均延遲,包括讀延遲和寫延遲。單位為毫秒(ms)。

  • 吞吐

    表示該文件系統在周期內每秒平均吞吐字節數,包括讀吞吐和寫吞吐。單位為KiB。

  • 元數據QPS

    表示該文件系統在周期內每秒平均請求元數據次數。單位為次/秒。

更多關于文件系統的存儲監控指標信息,請參見性能監控性能說明FAQ

作業監控

您可以通過集群、隊列、項目和用戶四個維度進行篩選,查看以下六個可視化統計信息:

  • 作業數

    集群中運行的作業數量是評估集群負載的重要指標,需與可用資源相匹配,以避免因作業數量異常增高而導致的資源競爭。為此,建議優化作業調度,并剔除不必要的作業,以提升整體資源利用效率。

  • 排隊作業需求總核數

    排隊作業需求總核數表示完成特定任務所需的計算核心總量。在實際應用中,需將其與可用核心數進行比較,若需求高于可用核心,可能導致長時間的等待。為解決此類情況,您可以為集群增加計算核心數量或調整作業的優先級,以優化資源配置和提高效率。

  • 作業等待時長

    作業等待時長是指在集群內作業排隊狀態下的平均等待時間,反映了資源競爭的情況。較長的等待時間會影響整體效率,特別是在異常情況下,等待時長顯著增加時,應優先調度高優先級作業以優化資源利用。

  • 運行作業使用總核數

    運行作業使用總核數指當前運行作業實際所占用的核心數量,該指標有助于監測資源的使用情況。需確保核心使用的有效性,以避免出現資源利用過高或過低的異常情況。針對這些問題,建議調整作業配置并合理分配資源,以提升整體運行效率。

  • 作業CPU利用率

    作業CPU利用率是指作業實際使用的核數除以作業申請的核數的比例。對于作業CPU利用率較低的情況,這可能表示系統存在異常,例如CPU利用率低于預期閾值。這種現象可能影響系統的整體性能,導致資源的浪費。因此,建議及時對相關作業及其計算負載進行深入分析,從而實現有效的調整與優化。

  • 作業內存利用率

    作業內存利用率是指作業實際使用的內存量除以作業申請的內存量的比例。因此您需關注作業內存的合理使用,避免出現過高的內存占用,導致內存溢出或不足等異常情況。為維護系統穩定性,您可通過優化內存配置或升配節點規格來處理相關問題。