您可以為分布式訓練(DLC)任務創建Tensorboard實例,通過Tensorboard的可視化界面更直觀地查看模型訓練結果分析報告。本文為您介紹如何創建和管理Tensorboard實例。
前提條件
已創建DLC任務,且綁定了數據集。具體操作,請參見創建訓練任務。
使用限制
僅添加數據集配置的DLC任務支持使用Tensorboard查看分析報告。
創建Tensorboard實例
進入分布式訓練任務頁面。
登錄PAI控制臺。
在左側導航欄單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應工作空間內。
在工作空間頁面的左側導航欄選擇
。
在目標任務操作列下,單擊Tensorboard,在彈出的Tensorboard面板中,單擊新建Tensorboard。
在新建Tensorboard頁面中,配置以下參數,然后單擊確定。
基本信息
參數
描述
Tensorboard名稱
自定義Tensorboard實例名稱。
Tensorboard配置
支持以下三種配置類型:
按數據集
數據集:選擇該工作空間中已創建的數據集。
Summary目錄:請填寫Summary目錄在數據集中的相對路徑。
按對象存儲(OSS)
OSS:選擇OSS存儲路徑。
Summary目錄:請填寫Summary目錄在OSS存儲路徑中的相對路徑。
按任務
DLC任務:選擇已創建的DLC任務。
Summary目錄:請填寫Summary目錄在任務中的絕對路徑。例如,Summary文件在數據集的
/tensorboards/summary
內,而該數據集在DLC任務中的掛載路徑為/mnt/data
,則Summary文件在DLC任務中的絕對路徑為/mnt/data/tensorboards/summary
。
您可以單擊添加按鈕,為每個Tensorboard掛載多個Summary目錄,以便跨多個任務比較各項指標。
資源配置
支持配置以下幾種資源類型:
資源類型
描述
免費資源
系統為您提供一定額度的免費資源,每個實例支持使用的資源上限為2vCPU,4 GiB內存。
公共資源
當免費資源額度不能滿足您的需求時,您可以選擇使用公共資源來啟動Tensorboard實例,計費方式為按量付費,您也可以關閉運行中的免費實例,以繼續使用免費額度。
資源配額
當免費資源額度不能滿足您的需求時,您可以選擇使用資源配額(Quota)來創建實例。
說明該功能暫時僅供白名單用戶使用。如有需要,請聯系您的商務經理添加白名單。
同時您需要配置以下參數:
資源配額:選擇已創建的通用計算資源配額或靈駿智算資源配額,關于如何創建資源配額,請參見新增資源配額。如果沒有可選的資源配額,您可以單擊關聯資源配額,為該工作空間關聯資源配額。
優先級:表示同時運行的Tensorboard實例執行的優先級,取值范圍為[1,9],其中1表示優先級最低。
任務資源:配置運行Tensorboard實例時使用的資源:CPU(核數)和內存(GiB)。
專有網絡配置
當使用公共資源創建Tensorboard實例時,支持配置該參數。
不配置專有網絡,將使用公網連接。由于公網連接的帶寬有限,在Tensorboard實例啟動過程或查看報告時,可能會出現卡頓或無法正常進行的情況。
配置專有網絡,以確保充足的網絡帶寬和更穩定的性能。
選擇當前地域可用的專有網絡,并選擇對應的交換機與安全組。配置完成后,Tensorboard實例運行的集群將能夠直接訪問此專有網絡內的服務,并使用此處選擇的安全組進行安全訪問限制。
重要如果Tensorboard實例使用了需要配置專有網絡的數據集(例如CPFS類型的數據集,或掛載點在專有網絡內的NAS類型數據集等),則必須設置專有網絡。
前往Tensorboard頁面查看分析報告。
在工作空間頁面的左側導航欄選擇
。切換到Tensorboard頁簽,當目標Tensorboard實例的狀態為運行中時,單擊操作列下的查看Tensorboard。
頁面自動跳轉到TensorBoard頁面。
管理Tensorboard實例
您可以按照以下操作步驟,對已創建的Tensorboard實例進行管理操作。
進入任務管理頁面。
登錄PAI控制臺。
在左側導航欄單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應工作空間內。
在工作空間頁面的左側導航欄選擇 ,進入任務管理頁面。
管理Tensorboard實例。
查看Tensorboard實例詳情
在Tensorboard頁簽,單擊目標Tensorboard實例名稱,進入Tensorboard詳情頁面。在該頁面查看Tensorboard的基本信息和配置信息。
查看關聯任務
表示該Tensorboard實例關聯的DLC任務數。在Tensorboard頁簽,將鼠標懸浮在關聯任務列下的圖標上,您可以查看已關聯的DLC任務ID,并支持單擊跳轉到相關任務詳情頁面。
查看關聯數據集
表示該Tensorboard實例關聯的數據集個數。在Tensorboard頁簽,將鼠標懸浮在關聯數據集列下的圖標上,您可以查看已關聯的數據集ID,并支持單擊跳轉到相關數據集詳情頁面。
查看執行時長
表示該Tensorboard實例啟動成功后的運行時長。停止實例后,該時間將重置。在Tensorboard頁簽的執行時長列下,您可以查看目標Tensorboard實例的執行時長。
停止Tensorboard實例:
單擊目標實例操作列下的停止,直接停止實例。
單擊目標實例操作列下的自動停止設置,設置自動停止時間。
相關文檔
您也可以在創建及管理Tensorboard實例。
頁面,為分布式訓練(DLC)任務創建Tensorboard實例。具體操作,請參見