日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

一鍵診斷

您可以使用PAI靈駿智算服務提供的一鍵診斷功能,檢查靈駿節點的網絡和硬件狀態,基于多種通信庫和通信模型進行網絡測試。本文為您介紹靈駿的一鍵診斷功能。

自助診斷

網絡診斷

網絡診斷功能分為靜態配置類檢查動態運行類檢查,支持診斷靈駿節點的網絡狀態并提供可視化的診斷結果。

  • 靜態配置類檢查為靈駿節點提供靜態配置類的診斷,包括系統軟件檢查、網絡檢查、GPU檢查等。

    1. 登錄靈駿控制臺。

    2. 在左側導航欄,選擇一鍵診斷>自助診斷。

    3. 單擊網絡診斷頁簽。

    4. 單擊靜態配置類檢查。

    5. 診斷信息區域的下拉列表中,選擇目標集群名稱、節點ID等信息。

    6. 單擊開始診斷。

  • 動態運行類檢查為靈駿節點提供動態運行類的診斷,包括TCP連通性檢查、TCP時延檢查、RDMA連通性檢查等。

    1. 在左側導航欄,選擇一鍵診斷>自助診斷。

    2. 單擊網絡診斷頁簽。

    3. 單擊動態運行類檢查。

    4. 診斷信息區域的下拉列表中,配置目標集群名稱、節點ID等信息。

    5. 單擊開始診斷。

服務器診斷

服務器診斷支持診斷靈駿節點的硬件狀態并提供可視化的診斷結果。

  1. 在左側導航欄,選擇一鍵診斷>自助診斷。

  2. 單擊服務器診斷頁簽。

  3. 單擊系統硬件診斷。

  4. 診斷信息區域的下拉列表中,配置目標集群名稱、節點ID等信息。

  5. 單擊開始診斷。

網絡測試

網絡測試包括通用網絡測試和通訊庫測試,其中通用網絡測試包含了時延、流量兩個維度測試,通信庫測試基于ACCL、NCCL兩種通信庫及多種通信模型進行測試。

通用網絡測試

  1. 在左側導航欄,選擇一鍵診斷>網絡測試。

  2. 單擊通用網絡測試頁簽。

  3. 測試信息區域,選擇網絡協議測試類型,然后進行相應配置。

    RDMA協議流量測試

    配置參數

    說明

    流量模型

    • MtoN模型:測試Clients節點到Servers節點的單向連通性,包括單個Clients節點到單個Servers節點、多個Clients節點到多個Servers節點等情況。

    • Fullmesh模型:測試所有目標靈駿節點兩兩之間的連通性。

    測試時長

    在下拉列表中選擇固定時長,單位為秒。

    QP

    測試進程流的數量,影響測試帶寬的大小。

    GDR

    如果開啟GDR,會綁定靈駿網卡與對應的GPU進行流量測試。

    集群名稱

    目標靈駿節點所在的集群名稱。

    Clients

    如果選擇MtoN模型,需要選擇Clients節點。

    Servers

    如果選擇MtoN模型,需要選擇Servers節點。

    選擇目標節點

    如果選擇Fullmesh模型,需要選擇目標節點。

    節點端口

    測試使用的起始端口。

    RDMA協議時延測試

    配置參數

    說明

    集群名稱

    目標靈駿節點所在的集群名稱。

    測試節點

    時延測試會檢查所有測試節點兩兩之間的網絡時延。

    節點端口

    測試使用的起始端口。

  4. 單擊開始診斷。

通訊庫測試

  1. 在左側導航欄,選擇一鍵診斷>網絡測試。

  2. 單擊通訊庫測試頁簽。

  3. 配置測試信息

    配置參數

    說明

    通訊庫類別

    目前只支持ACCLNCCL

    通訊模型

    • ALLReduce:將多個進程的數據聚合在一起,通過運算將它們縮減為單個值,并把結果分發給所有進程。

    • ALLGather:將所有進程的數據收集到一個結構中,以便每個進程訪問數據。

    • ALLGatherA:在ALLGather的基礎上增加了數據類型參數,可以傳輸多種數據類型,包括大數據類型和自定義數據類型。

    • ALLToALL:將每個進程的數據分發給其他進程,每個進程都將得到來自所有其他進程的數據。

    • ALLToALLA:在ALLToAll的基礎上增加了數據類型參數和緩沖區參數,可以用于不同大小和類型數據之間的通信。

    • Broadcast:將一個進程的數據分發給所有其他進程。

    GPU數量

    取值范圍:1~8。

    集群名稱

    目標靈駿節點所在的集群名稱。

    選擇目標節點

    在選擇目標節點時只需要具體到每一個IP地址,不需要指定到具體靈駿節點即可開始測試。

    節點端口

    測試使用的起始端口。

  4. 單擊開始測試。

查看報告

診斷歷史展示了自助診斷網絡測試的報告信息包括報告ID、集群名稱等,單擊頁簽可以切換不同類型診斷的報告記錄。在目標報告ID后的操作列單擊,進行相應操作。

  • 查看報告。查看目標診斷的診斷結果和診斷列表。

  • 再次診斷。再次進行目標診斷。