實(shí)驗(yàn)管理
實(shí)驗(yàn)管理提供了通過TensorBoard可視化對比任務(wù)指標(biāo)的功能,本文為您介紹如何在Model Gallery的微調(diào)訓(xùn)練任務(wù)中使用實(shí)驗(yàn)管理。
前提條件
如您需要使用TensorBoard進(jìn)行指標(biāo)可視化,則需要?jiǎng)?chuàng)建OSS Bucket存儲(chǔ)空間,具體操作請參見控制臺(tái)創(chuàng)建存儲(chǔ)空間。
使用費(fèi)用
實(shí)驗(yàn)管理本身并不收費(fèi),但使用Model Gallery進(jìn)行模型訓(xùn)練并把訓(xùn)練任務(wù)關(guān)聯(lián)到實(shí)驗(yàn)時(shí),需要收取DLC訓(xùn)練費(fèi)用和OSS存儲(chǔ)費(fèi)用,計(jì)費(fèi)詳情請參見分布式訓(xùn)練(DLC)計(jì)費(fèi)說明和OSS計(jì)費(fèi)概述。
使用TensorBoard進(jìn)行指標(biāo)可視化時(shí),當(dāng)前PAI平臺(tái)允許免費(fèi)啟動(dòng)最多5個(gè)Tensorboard實(shí)例,超過部分將需要付費(fèi)。
關(guān)聯(lián)訓(xùn)練任務(wù)到實(shí)驗(yàn)
您可以在Model Gallery創(chuàng)建模型微調(diào)訓(xùn)練任務(wù)時(shí)將任務(wù)關(guān)聯(lián)至一個(gè)新的或已有的實(shí)驗(yàn)中,具體操作步驟如下:
在模型詳情頁面,單擊訓(xùn)練。
在微調(diào)訓(xùn)練詳情頁面實(shí)驗(yàn)配置區(qū)域中,進(jìn)行關(guān)聯(lián)實(shí)驗(yàn)配置。
當(dāng)您第一次使用實(shí)驗(yàn)管理或需要將任務(wù)關(guān)聯(lián)至一個(gè)新的實(shí)驗(yàn)時(shí),選擇新建實(shí)驗(yàn),設(shè)置實(shí)驗(yàn)名稱及實(shí)驗(yàn)輸出路徑。
說明關(guān)聯(lián)到實(shí)驗(yàn)的所有任務(wù)的輸出數(shù)據(jù)路徑,如模型、TensorBoard Log等,都將使用實(shí)驗(yàn)輸出路徑作為默認(rèn)路徑。
如果您需要自定義任務(wù)輸出路徑,可以在訓(xùn)練輸出配置中具體配置。但如果您修改了默認(rèn)的TensorBoard路徑,會(huì)導(dǎo)致該任務(wù)無法在實(shí)驗(yàn)的TensorBoard中與其他任務(wù)的指標(biāo)進(jìn)行可視化對比,因此建議您使用默認(rèn)路徑。
您也可以選擇將任務(wù)關(guān)聯(lián)至已有實(shí)驗(yàn)。
微調(diào)訓(xùn)練任務(wù)的其他參數(shù)配置請參見模型部署及訓(xùn)練。
單擊訓(xùn)練。
頁面自動(dòng)跳轉(zhuǎn)到任務(wù)詳情頁面。您可以查看到該任務(wù)關(guān)聯(lián)的實(shí)驗(yàn)名稱,任務(wù)的超參數(shù)等元數(shù)據(jù)。
查看實(shí)驗(yàn)及打開TensorBoard
關(guān)聯(lián)到同一個(gè)實(shí)驗(yàn)的訓(xùn)練任務(wù)之間可以在實(shí)驗(yàn)的Tensorboard實(shí)例中進(jìn)行train_loss
、total_flos
等訓(xùn)練指標(biāo)的可視化對比,具體步驟如下:
在Model Gallery首頁,單擊任務(wù)管理。
在任務(wù)管理頁面查看所有實(shí)驗(yàn),選擇您需要進(jìn)行任務(wù)指標(biāo)對比的實(shí)驗(yàn),點(diǎn)擊操作列的Tensorboard。
會(huì)自動(dòng)打開一個(gè)Tensorboard實(shí)例。
當(dāng)Tensorboard狀態(tài)變?yōu)?b data-tag="uicontrol" id="ab4c99f00137m" class="uicontrol">運(yùn)行中,點(diǎn)擊前往查看,會(huì)自動(dòng)打開并跳轉(zhuǎn)至一個(gè)新的標(biāo)簽頁。
您可以在該頁面中查看到關(guān)聯(lián)到實(shí)驗(yàn)的所有訓(xùn)練任務(wù)的指標(biāo),不同模型記錄的訓(xùn)練任務(wù)指標(biāo)可能會(huì)有所不同
在TensorBoard中對比任務(wù)指標(biāo)
您可以通過選擇Horizontal Axis下的不同選項(xiàng)切換直角坐標(biāo)系的橫坐標(biāo)。
STEP:模型訓(xùn)練的步數(shù)。
RELATIVE:相對時(shí)間,例如訓(xùn)練開始后的0.5小時(shí),以小時(shí)為單位。
WALL:絕對時(shí)間,例如2024年4月2日上午十點(diǎn),以小時(shí)為單位。
常見的指標(biāo):
loss:損失,指的是模型預(yù)測結(jié)果與真實(shí)結(jié)果之間的差異。
accuracy/precision/recall: 精度指標(biāo)。
也可以通過勾選/取消勾選任務(wù)ID前的復(fù)選框,選擇要進(jìn)行指標(biāo)對比的任務(wù)。
當(dāng)幾個(gè)任務(wù)在某個(gè)指標(biāo)的值比較相近時(shí),可以點(diǎn)擊直角坐標(biāo)系下方中間的按鈕,指標(biāo)值將自動(dòng)聚焦在數(shù)據(jù)差異較大的部分。
也可以點(diǎn)擊最左側(cè)按鈕,查看大圖。