通過查看性能剖析,您能夠深入了解集群資源使用情況,識別并解決資源不均衡問題,優化作業調度,快速定位性能瓶頸,實現作業性能調優,以及進行成本效益分析等,為資源規劃和系統優化提供決策支持。本文介紹如何在E-HPC Portal中查看已提交作業的性能剖析。
前提條件
查看MPI類型性能剖析前,您需滿足以下條件:
僅支持調度器為SLURM的集群。
已通過submitter應用模板提交過開啟MPI性能剖析的作業任務。具體操作,請參見通過submitter提交作業。
任務狀態處于已完成。
操作步驟
打開并登錄E-HPC Portal。
具體操作,請參見登錄E-HPC Portal。
在頂部導航欄,選擇性能管理,進入性能管理頁面。
(可選)在性能剖析篩選區域,您可以設置以下參數篩選性能剖析任務。
參數
說明
狀態
支持選擇剖析狀態為準備中、運行中、已完成、異常。
類型
支持選擇MPI類型。
找到目標任務后,在左側單擊按鈕,以查看性能剖析詳情信息。
MPI類型
您可以查詢該次作業性能剖析的基礎信息,包括用戶、狀態、開始時間、執行命令等,以及系統統計的高級參數信息。具體參數說明如下:
參數項
說明
MPI Time
表示每個進程中多線程時間(mtime)與用戶態時間(utime)的占比。若占比超過30%,則應用程序可能屬于MPI通信密集型,這可能是由于MPI通信不均衡、程序通信模式或MPI通信庫引起的。若占比低于或等于30%,則表明MPI通信占比較低,若存在性能瓶頸,建議考慮I/O或訪存分析。
MPI Imbalance
反映在多個并行進程中工作負載分配情況的指標。若實際每次rank中MPI_Wait與同步函數耗時占比超過10%,則表明應用負載在MPI Rank之間分配不均衡。若占比低于或等于10%,則表明應用負載分配較為均衡。
Communication Balance Task
通信負載均衡指標,通過展示每個rank中各種MPI函數時間數值的堆疊圖來評估。
MPI Communication Time
表示MPI通信耗時的總和,通過各MPI函數時間總和數值的餅狀圖來展示。
Memory usage by Node
展示在MPI作業中,多節點環境下各節點的內存使用情況。
Time by rank
展示每個rank中的時間分配,包括任務實際運行時間(wtime)、用戶態時間(utime)、系統態時間(stime)以及MPI時間(mtime)的具體值。
示例如下: