您可以使用PAI靈駿智算服務提供的一鍵診斷功能,檢查靈駿節點的網絡和硬件狀態,基于多種通信庫和通信模型進行網絡測試。本文為您介紹靈駿的一鍵診斷功能。
自助診斷
網絡診斷
網絡診斷功能分為靜態配置類檢查和動態運行類檢查,支持診斷靈駿節點的網絡狀態并提供可視化的診斷結果。
靜態配置類檢查為靈駿節點提供靜態配置類的診斷,包括系統軟件檢查、網絡檢查、GPU檢查等。
登錄靈駿控制臺。
在左側導航欄,選擇一鍵診斷>自助診斷。
單擊網絡診斷頁簽。
單擊靜態配置類檢查。
在診斷信息區域的下拉列表中,選擇目標集群名稱、節點ID等信息。
單擊開始診斷。
動態運行類檢查為靈駿節點提供動態運行類的診斷,包括TCP連通性檢查、TCP時延檢查、RDMA連通性檢查等。
在左側導航欄,選擇一鍵診斷>自助診斷。
單擊網絡診斷頁簽。
單擊動態運行類檢查。
在診斷信息區域的下拉列表中,配置目標集群名稱、節點ID等信息。
單擊開始診斷。
服務器診斷
服務器診斷支持診斷靈駿節點的硬件狀態并提供可視化的診斷結果。
在左側導航欄,選擇一鍵診斷>自助診斷。
單擊服務器診斷頁簽。
單擊系統硬件診斷。
在診斷信息區域的下拉列表中,配置目標集群名稱、節點ID等信息。
單擊開始診斷。
網絡測試
網絡測試包括通用網絡測試和通訊庫測試,其中通用網絡測試包含了時延、流量兩個維度測試,通信庫測試基于ACCL、NCCL兩種通信庫及多種通信模型進行測試。
通用網絡測試
在左側導航欄,選擇一鍵診斷>網絡測試。
單擊通用網絡測試頁簽。
在測試信息區域,選擇網絡協議和測試類型,然后進行相應配置。
RDMA協議流量測試
配置參數
說明
流量模型
MtoN模型:測試Clients節點到Servers節點的單向連通性,包括單個Clients節點到單個Servers節點、多個Clients節點到多個Servers節點等情況。
Fullmesh模型:測試所有目標靈駿節點兩兩之間的連通性。
測試時長
在下拉列表中選擇固定時長,單位為秒。
QP
測試進程流的數量,影響測試帶寬的大小。
GDR
如果開啟GDR,會綁定靈駿網卡與對應的GPU進行流量測試。
集群名稱
目標靈駿節點所在的集群名稱。
Clients
如果選擇MtoN模型,需要選擇Clients節點。
Servers
如果選擇MtoN模型,需要選擇Servers節點。
選擇目標節點
如果選擇Fullmesh模型,需要選擇目標節點。
節點端口
測試使用的起始端口。
RDMA協議時延測試
配置參數
說明
集群名稱
目標靈駿節點所在的集群名稱。
測試節點
時延測試會檢查所有測試節點兩兩之間的網絡時延。
節點端口
測試使用的起始端口。
單擊開始診斷。
通訊庫測試
在左側導航欄,選擇一鍵診斷>網絡測試。
單擊通訊庫測試頁簽。
配置測試信息。
配置參數
說明
通訊庫類別
目前只支持ACCL和NCCL。
通訊模型
ALLReduce:將多個進程的數據聚合在一起,通過運算將它們縮減為單個值,并把結果分發給所有進程。
ALLGather:將所有進程的數據收集到一個結構中,以便每個進程訪問數據。
ALLGatherA:在ALLGather的基礎上增加了數據類型參數,可以傳輸多種數據類型,包括大數據類型和自定義數據類型。
ALLToALL:將每個進程的數據分發給其他進程,每個進程都將得到來自所有其他進程的數據。
ALLToALLA:在ALLToAll的基礎上增加了數據類型參數和緩沖區參數,可以用于不同大小和類型數據之間的通信。
Broadcast:將一個進程的數據分發給所有其他進程。
GPU數量
取值范圍:1~8。
集群名稱
目標靈駿節點所在的集群名稱。
選擇目標節點
在選擇目標節點時只需要具體到每一個IP地址,不需要指定到具體靈駿節點即可開始測試。
節點端口
測試使用的起始端口。
單擊開始測試。
查看報告
診斷歷史展示了自助診斷和網絡測試的報告信息包括報告ID、集群名稱等,單擊頁簽可以切換不同類型診斷的報告記錄。在目標報告ID后的操作列單擊,進行相應操作。
查看報告。查看目標診斷的診斷結果和診斷列表。
再次診斷。再次進行目標診斷。