云原生AI套件是阿里云容器服務ACK提供的云原生AI技術和產品方案。使用云原生AI套件,您可以充分利用云原生架構和技術,在Kubernetes容器平臺上快速定制化構建AI生產系統,并為AI/ML應用和系統提供全棧優化。本文介紹云原生AI套件產品架構、核心功能、使用場景、使用流程等內容。
視頻介紹
產品架構
云原生AI套件以阿里云容器服務ACK為底座,向下封裝對各類異構資源的統一管理,向上提供標準Kubernetes集群環境和API,以運行各核心組件,實現資源運維管理、AI任務調度和彈性伸縮、數據訪問加速、工作流編排、大數據服務集成、AI作業生命周期管理、AI制品管理、統一運維等服務;再向上針對AI生產流程中的主要環節,支持AI數據集管理,AI模型開發、訓練、評測,以及模型推理服務等。
您可以通過統一的命令行工具、多種語言SDK和控制臺界面,直接使用各核心組件。您也可以進行靈活地擴展、組裝或二次開發,快速定制化構建AI生產系統。通過同樣的組件和工具,云原生AI套件也支持阿里云AI服務、開源AI框架和第三方AI能力的集成。
此外,云原生AI套件支持與阿里云人工智能平臺 PAI無縫集成,提供高效、靈活的一站式AI平臺。一方面,您可以直接使用PAI平臺提供的DSW、DLC、EAS等服務。這些服務借助ACK為AI模型開發、訓練和推理帶來了更好的彈性和效率。另一方面,云原生AI套件支持在ACK集群中一鍵部署輕量化人工智能平臺 PAI平臺,降低AI使用門檻。在Kubernetes應用中,您可以靈活地集成PAI平臺深度優化的算法和引擎,依托其最佳實踐沉淀,極大優化訓練與推理效果。關于人工智能平臺 PAI的更多信息,請參見什么是人工智能平臺 PAI。
云原生AI套件的產品架構如下圖所示。
核心功能
云原生AI套件基于阿里云容器服務ACK,為AI/ML應用和系統提供了自底向上的全棧支持和優化。云原生AI套件有以下核心功能。
功能項 | 說明 | 相關文檔 |
異構資源統一管理 |
| |
AI任務調度 |
| |
彈性調度 | 彈性調度分布式深度學習訓練任務:訓練過程中,支持動態伸縮子任務Worker實例數量和節點數量,同時基本維持整體訓練進度和模型精度。在集群資源空閑時,支持增加更多Worker加速訓練;在資源緊張時,釋放部分Worker,以保證訓練的基本運行進度。這種模式可以極大提升集群的總體利用率,避免計算節點故障影響,同時顯著減少用戶提交作業之后等待作業啟動的時間。 | |
AI數據編排與加速 | Fluid:提出彈性數據集(Dataset)的概念。對“計算任務使用數據的過程”進行抽象,并創建數據編排與加速系統Fluid,以實現數據集管理、權限控制和訪問加速等能力。ack-fluid組件支持將多個不同類型的存儲服務作為數據源聚合到同一個Dataset中使用,還可以接入不同位置的存儲服務實現混合云環境下的數據管理與訪問加速。此外,ack-fluid組件可擴展兼容多種分布式緩存服務,為每個Dataset配置緩存服務,還提供數據集預熱、緩存容量監控和彈性伸縮等功能,可以大大降低計算任務遠程拉取數據的開銷,提高GPU計算效率。 | |
AI作業生命周期管理 |
|
使用場景
云原生AI套件的核心場景包括持續優化異構資源效率、高效運行AI等異構工作負載。
場景一:持續優化異構資源效率
對云上各種異構計算資源(如CPU、GPU、NPU、VPU、FPGA)、存儲(OSS、NAS、CPFS、HDFS)、網絡(TCP、RDMA)資源,云原生AI套件支持對其進行抽象,統一管理、運維和分配,通過彈性和軟硬協同優化,持續提升資源利用率。
場景二:高效運行AI等異構工作負載
云原生AI套件內置支持TensorFlow、PyTorch、DeepSpeed、Ray、Horovod、Spark、Flink、Kubeflow、KServe、vLLM、Triton inference server等主流開源或者用戶自有的各種計算引擎和運行時,統一運行各類異構工作負載,統一管理作業生命周期,統一調度任務工作流,保證任務規模和性能。云原生AI套件一方面不斷優化運行任務的性能、效率和成本,另一方面持續改善開發運維體驗和工程效率。
用戶角色
云原生AI套件存在兩種用戶角色。
角色類型 | 說明 |
運維管理員 | |
算法工程師、數據科學家 | 使用云原生AI套件管理任務。更多信息,請參見基于Kubernetes部署運行模型訓練作業、對MLflow模型倉庫中的模型進行管理、模型分析優化。 |
使用流程
基于用戶角色,云原生AI套件的使用流程如下圖所示。
流程 | 說明 | 操作界面 |
1、準備工作 (運維管理員) | 注冊賬號 注冊阿里云賬號并完成實名認證。具體操作,請參見注冊阿里云賬號。 | |
創建ACK集群 開通ACK服務并創建ACK集群。推薦配置如下。關于配置的詳情說明,請參見創建ACK托管集群。
| ||
配置ACK集群依賴項及創建依賴云資源(可選)
| ||
2、系統與環境搭建 (運維管理員) | 開通安裝
| |
管理用戶和配額
| AI運維控制臺、kubectl | |
準備數據
| ||
(算法工程師、數據科學家) | 云原生AI套件支持命令行工具Arena、Web控制臺和一站式AI平臺等多種方式,幫助算法工程師和數據科學家進行模型開發、訓練、推理和任務管理。
| |
3、模型訓練與部署 (算法工程師、數據科學家) | 使用云原生AI套件提供的命令行工具Arena或AI套件開發控制臺時,模型訓練與部署如下。 模型開發
模型訓練
模型管理
模型部署 將模型發布為推理服務。更多信息,請參見AI服務部署。 | AI開發控制臺、Arena |
使用輕量化人工智能平臺 PAI提供的模型開發、訓練、部署等服務。 | ||
4、運維觀測 (運維管理員) | 運維觀測 查看資源大盤,包括集群、節點、訓練任務、資源配額等監控大盤。更多信息,請參見使用云原生AI監控大盤。 | |
配額管理
| ||
用戶管理 | ||
數據集管理
| ||
彈性任務管理 查看提交的彈性任務及任務詳情。具體參照,請參見查看彈性任務。 | ||
5、出賬及扣費 (運維管理員) | 自2024年06月06日00:00:00起,由付費模式轉變為免費開放。更多信息,請參見云原生AI套件計費說明。 | |
按天出賬
|
產品計費
關于云原生AI套件的計費詳情,請參見云原生AI套件計費說明。
更多信息
信息項 | 說明 |
快速入門(新手) | 通過簡單的實踐,帶您體驗和了解如何使用云原生AI套件進行開發或運維。更多信息,請參見云原生AI套件開發者使用指南、云原生AI套件管理員運維指南。 |
聚焦核心場景,為您提供云原生AI套件沉淀的解決方案。 | |
介紹云原生AI套件相關內容的最新動態。 | |
聯系我們 | 如果您對于云原生AI套件有任何反饋或疑問,請加入釘群(釘群號:33214567)聯系我們。 |