Model Gallery 提供了多種預訓練模型,幫助您快速上手并利用PAI進行模型的訓練和部署。本文將詳細介紹如何在 Model Gallery 中查找符合您業務需求的模型,以及如何進行模型的部署、調試和微調訓練。
前提條件
進行微調或增量訓練前,需創建OSS Bucket存儲空間,詳情請參見控制臺創建存儲空間。
使用費用
Model Gallery免費,但模型部署和訓練會收取EAS和DLC費用,詳情請參見模型在線服務(EAS)計費說明和分布式訓練(DLC)計費說明。
查找適合業務的模型
Model Gallery提供了豐富多樣的模型幫助您解決實際應用場景中的業務問題。您可以參考以下內容來幫助您快速找到最適合自己業務的模型:
根據需要的領域及任務查找模型。
大多數模型會標注該模型所使用的預訓練數據集。預訓練數據集和實際使用場景越接近,直接部署和微調訓練效果就會越好。您可以在模型詳情頁面獲取更多關于該模型預訓練數據集的信息。
一般來說,參數量越大的模型效果會更好,但相應的模型服務運行時產生的費用和微調訓練所需要的數據量都會更多。
查找模型的具體操作步驟如下:
進入Model Gallery頁面。
登錄PAI控制臺。
在左側導航欄單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應工作空間內。
在左側導航欄單擊快速開始 > Model Gallery ,進入Model Gallery頁面。
查找適合業務的模型。
后續,您可以直接部署選擇好的模型,并進行在線調試,驗證模型推理效果。具體操作,請參見部署和調試模型。
部署和調試模型
查找到合適的模型后,單擊模型卡片進入模型詳情頁面,進行部署和調試操作。
直接部署模型服務
在模型詳情頁面,單擊部署。
(可選)配置模型服務信息和資源部署信息。
Model Gallery已經預先根據模型特點預置了每個模型部署相關的模型服務信息和資源部署信息。您可以使用默認配置,也可以根據業務需要對部署的相關配置進行更改。
參數
描述
服務名稱
在模型服務信息區域,默認已配置服務名稱,您也可以參考界面提示更改服務名稱,同地域內唯一。
資源組種類
在資源部署信息區域,可選擇使用公共資源組或專屬資源組。
資源配置選擇
在資源部署信息區域,默認已配置指定機器型號。您可以使用默認配置,也可以選擇其他實例規格(建議所選規格的算力要高于默認配置,否則機器性能可能不夠)。
在模型部署詳情頁面下方,單擊部署,并在彈出的計費提醒對話框中,單擊確定。
頁面將自動跳轉到服務詳情頁面。在此頁面,您可以查看服務的基本信息和資源信息。當狀態變為運行中時,即表示服務部署成功。
在線調試模型服務
您可以在服務詳情頁面的在線預測區域輸入請求數據,單擊發送請求,根據下方輸出的請求結果來驗證模型服務推理效果。
您可以參照模型文檔中的數據輸入格式來構造請求數據。部分模型(例如:Stable Diffusion V1.5模型)支持在服務詳情頁面右側的WEB應用區域,單擊查看WEB應用,來啟動WebUI應用,讓您更方便的在WebUI頁面,對模型進行推理驗證。
如果預訓練數據集和您的實際業務場景不完全匹配,在實際應用中模型效果可能會和理論上存在不同程度的誤差。如果模型預測結果不滿足您的業務需求,您可以對模型進行微調訓練,獲取一個更滿足您具體業務應用場景需要的模型,詳情請參見訓練模型。
訓練模型
使用您自己的數據集對PAI平臺中預置的模型進行微調訓練,具體操作步驟如下。
在模型詳情頁面,單擊訓練。
在微調訓練詳情頁面,配置以下參數。
說明不同的模型支持配置的參數可能不同,請根據模型的實際情況進行配置。
參數類型
參數
描述
訓練方式
SFT 監督微調
訓練方式支持:
監督微調:通過指定大模型的輸入輸出對大模型的參數進行微調。
直接偏好優化:直接優化語言模型以符合人類偏好,隱含了與RLHF算法相同的優化目標。
兩種訓練方式均支持通過全參、LoRA、QLoRA進行微調。
DPO 直接偏好優化
訓練設置
任務名稱
默認已配置任務名稱,您也可以參考界面提示更改任務名稱。
最大運行時長
設置任務運行的最長時長。配置完成后,后續任務運行超過最長時長后即返回,任務停止運行。
如果保持默認配置,任務運行時長不受該參數限制。
數據集配置
訓練數據集
Model Gallery提供了默認的訓練數據,如果您不使用默認數據集,需要按照模型文檔中的訓練數據格式準備好訓練數據,然后參考以下兩種方式上傳訓練數據。
OSS文件或目錄。
單擊,選擇數據集所在的OSS路徑。在選擇OSS目錄或文件對話框中,您可以選擇已有的數據文件,也可以按照以下操作步驟上傳本地數據集文件。
單擊上傳文件。
單擊查看本地文件或拖拽上傳文件,根據提示上傳本地數據文件。
數據集選擇。
您可以通過數據集選擇使用NAS、OSS等云存儲上的數據集。在下拉列表中選擇數據集,如果沒有數據集,請單擊新建數據集進行創建。如何配置參數,請參見創建及管理數據集。
驗證數據集
單擊添加驗證數據集。驗證數據集配置方法同訓練數據集。
輸出配置
選擇輸出的云存儲路徑,用來保存訓練生成的模型、TensorBoard日志文件。
計算資源配置
節點數量
當前鏡像和規格的節點數量。
資源規格
計算節點的規格,詳細的規格列表和費用請參見分布式訓練(DLC)計費說明。
靈駿智算資源(當前僅支持烏蘭察布和新加坡地域):對于參數量較大的LLM(例如Qwen-72B),為了能成功加載并運行模型,需要使用顯存更大的GPU,此時可選擇使用靈駿智算資源(例如GU100、GU108機型)。
方式一:靈駿資源由于庫存緊張,有企業級使用訴求可聯系銷售經理通過開通白名單方式使用。
方式二:普通用戶可通過使用競價資源方式使用靈駿資源(如下圖),最低可享受1折優惠。關于靈駿資源詳情,請參見新建資源組并購買靈駿智算資源。
超參數配置
不同的模型支持不同的超參數配置。您可以使用默認值,也可以根據您的業務需求修改參數配置。
單擊訓練。
頁面自動跳轉到任務詳情頁面。您可以查看訓練任務的基本信息、實時狀態、任務日志和模型評估效果(不同模型可能評估方式會有差異)。
說明訓練好的模型會自動注冊到AI資產-模型管理中,您可以查看或部署對應的模型,詳情請參見注冊及管理模型。