頁簽 | 說明 |
概覽 | 包含計算節點總數、共享存儲空間、作業總數、平均負載四個統計信息,并可以查看所有計算節點狀態及資源使用情況。 計算節點調度狀態說明如下所示: 空閑:節點內所有核均未被占用,表明節點的運算能力處于最大可用狀態。此時,節點可以接受新的任務或作業,以充分發揮其計算能力。 工作中:節點內部分核被占用,但部分核心仍然處于可用狀態,能夠接受新的作業。 忙碌:節點內所有核被占用,無法接受新的作業。若需提交新的作業,可能會進行排隊等待,直至有核心不被占用為止。 離線:節點不再參與計算或任務處理,且完全不接收新的作業。
|
節點監控 | 您可以通過集群、隊列兩個維度進行篩選,查看以下六個可視化統計信息: CPU利用率 CPU利用率是指集群中計算節點的CPU在特定時間段內被程序占用的比例。高利用率(超過80%-90%)一般意味著資源高效使用,但長期如此可能導致集群性能下降和響應變慢。低利用率(0%-30%)則可能表明資源未被充分利用,或存在性能瓶頸或任務調度問題。 內存利用率 用于反映集群中計算節點的內存使用情況。為確保集群作業的順利執行,應定期監控內存使用率,以防止因內存溢出而導致作業失敗。如有必要,可通過增加內存容量或優化內存使用策略來解決相關問題。 系統負載 用于反映計算節點的工作負載情況,有助于評估集群的作業承載能力。需監控負載與節點數量的比率,當負載過高時,表明資源配置不足。可通過增加節點(擴容)或優化作業流程來改善此情況。 磁盤利用率 該指標反映磁盤存儲空間的使用狀況,旨在確保磁盤的可用性,避免出現過高的占用率(例如,當占用率達到100%時,無法進行寫入操作)。通過清理冗余數據或擴展存儲容量,可以有效應對存儲壓力。這一分析有助于您全面了解磁盤的使用情況,并判斷是否需要進行空間清理或存儲擴展。 磁盤讀寫 磁盤讀寫速率表示單位時間內數據的讀取和寫入字節數,以KB/s為單位。通過監控磁盤讀寫指標,可以有效評估集群性能,確保其高效處理計算任務。 網絡流量 反映節點內通過私網進行的數據傳輸情況。您需要特別關注高流量時間段,以便及時發現異常情況。例如網絡帶寬不足,這將直接影響數據的傳輸效率。
|
存儲監控 | 您可以查看該集群內不同文件系統下的存儲監控信息,包括以下六個可視化統計信息: 存儲空間 反映集群用于存儲計算任務產出、臨時文件和應用程序數據的文件存儲NAS使用情況。為防范存儲空間不足、性能衰退及數據丟失等異常情況,建議通過監控告警、定期數據清理及存儲擴展等措施進行有效應對。 文件數 文件存儲NAS中的文件總數,作為評估存儲管理效率的關鍵指標,它間接反映系統健康狀況和維護需求;需注意文件數量過多會增加管理復雜性并影響檢索效率與性能,若超過預設閾值則需高度關注,建議定期整理存儲內容,清除無用或冗余文件,以提升管理效率與系統性能。 IOPS 表示該文件系統在周期內每秒平均讀/寫IOPS次數。單位為次/秒。 延遲 表示該文件系統在周期內每毫秒平均延遲,包括讀延遲和寫延遲。單位為毫秒(ms)。 吞吐 表示該文件系統在周期內每秒平均吞吐字節數,包括讀吞吐和寫吞吐。單位為KiB。 元數據QPS 表示該文件系統在周期內每秒平均請求元數據次數。單位為次/秒。
更多關于文件系統的存儲監控指標信息,請參見性能監控和性能說明FAQ。 |
作業監控 | 您可以通過集群、隊列、項目和用戶四個維度進行篩選,查看以下六個可視化統計信息: 作業數 集群中運行的作業數量是評估集群負載的重要指標,需與可用資源相匹配,以避免因作業數量異常增高而導致的資源競爭。為此,建議優化作業調度,并剔除不必要的作業,以提升整體資源利用效率。 排隊作業需求總核數 排隊作業需求總核數表示完成特定任務所需的計算核心總量。在實際應用中,需將其與可用核心數進行比較,若需求高于可用核心,可能導致長時間的等待。為解決此類情況,您可以為集群增加計算核心數量或調整作業的優先級,以優化資源配置和提高效率。 作業等待時長 作業等待時長是指在集群內作業排隊狀態下的平均等待時間,反映了資源競爭的情況。較長的等待時間會影響整體效率,特別是在異常情況下,等待時長顯著增加時,應優先調度高優先級作業以優化資源利用。 運行作業使用總核數 運行作業使用總核數指當前運行作業實際所占用的核心數量,該指標有助于監測資源的使用情況。需確保核心使用的有效性,以避免出現資源利用過高或過低的異常情況。針對這些問題,建議調整作業配置并合理分配資源,以提升整體運行效率。 作業CPU利用率 作業CPU利用率是指作業實際使用的核數除以作業申請的核數的比例。對于作業CPU利用率較低的情況,這可能表示系統存在異常,例如CPU利用率低于預期閾值。這種現象可能影響系統的整體性能,導致資源的浪費。因此,建議及時對相關作業及其計算負載進行深入分析,從而實現有效的調整與優化。 作業內存利用率 作業內存利用率是指作業實際使用的內存量除以作業申請的內存量的比例。因此您需關注作業內存的合理使用,避免出現過高的內存占用,導致內存溢出或不足等異常情況。為維護系統穩定性,您可通過優化內存配置或升配節點規格來處理相關問題。
|