ACK集群實現(xiàn)彈性裸金屬AI訓(xùn)練
更新時間:
本文介紹彈性裸金屬AI訓(xùn)練的場景描述、解決問題、架構(gòu)圖及操作參考鏈接。
場景描述
本方案適用于AI圖片訓(xùn)練場景,尤其是對性能要求苛刻、業(yè)務(wù)交付緊迫的場景。例如自動駕駛的模型訓(xùn)練(圖片)等AI模型訓(xùn)練的場景。 本方案使用了SCC超級計算集群,采用彈性裸金屬GPU服務(wù)器、并行文件系統(tǒng)CPFS、RDMA網(wǎng)絡(luò)、阿里云容器服務(wù)Kubernetes版和飛天AI加速訓(xùn)練工具,提供性能穩(wěn)定的訓(xùn)練環(huán)境,保障業(yè)務(wù)能力。
解決問題
搭建AI圖片訓(xùn)練基礎(chǔ)環(huán)境。
使用CPFS存儲訓(xùn)練數(shù)據(jù)。
使用飛天AI加速訓(xùn)練工具加速訓(xùn)練。
使用Arena一鍵提交作業(yè)。
架構(gòu)圖
參考鏈接
有關(guān)彈性裸金屬AI訓(xùn)練的詳情,請參見彈性裸金屬AI訓(xùn)練。
文檔內(nèi)容是否對您有幫助?