云原生AI套件是阿里云容器服務ACK提供的云原生AI技術和產品方案。使用云原生AI套件,您可以充分利用云原生架構和技術,在Kubernetes容器平臺上快速定制化構建AI生產系統,并為AI/ML應用和系統提供全棧優化。ACK Edge集群在云上環境保持AI套件完整的能力體驗,在云下環境能力有所裁剪。本文將詳細介紹不同節點和網絡類型下AI套件在ACK Edge集群上的能力和使用限制。
使用限制
限制項 | 限制條件 |
AI套件組件 | 您在使用AI套件特定組件時需要注意組件本身的使用限制,如集群版本,NVIDIA驅動版本等,具體信息,請參見AI套件組件介紹。 |
ACK Edge集群 | 如果您希望在邊緣節點上使用云原生AI套件,目前僅支持特定的邊緣節點操作系統和GPU型號,具體信息,請參見添加邊緣節點。 |
能力概覽
ACK Edge集群與ACK集群Pro版核心差異主要體現在以下兩個方面:
網絡連通性:ACK集群Pro版要求集群中的節點在同一個VPC內且網絡連通。但在ACK Edge集群中情況較為復雜,需要從節點池維度考慮網絡情況。不同網絡情況下,AI套件能力也不同。
云上節點池:云上節點池的網絡情況與ACK集群Pro版相同,管理同一個VPC內網絡連通的ECS節點。
網絡類型為專用型邊緣節點池:專用型邊緣節點池管理與云上專線連接的邊緣節點,實現云上云下的網絡互通。
網絡類型為基礎型邊緣節點池:基礎型邊緣節點池管理通過公網接入的邊緣節點,網絡連通性無法確定。
節點環境:ACK Edge集群主要用來納管您的線下資源,與云上ECS相比,節點環境復雜(如GPU型號,GPU驅動,OS版本等),GPU隔離的能力無法支持。
AI套件能力 | 對應組件名稱 | 云上環境 | 邊緣環境 | 操作鏈接 | |
云上節點池 | 專用型邊緣節點池 | 基礎型邊緣節點池 | |||
彈性 | ack-alibaba-cloud-metrics-adapter | 支持 | 支持 | 支持 | |
加速 | 支持 | 支持 | 支持 | ||
調度(批量任務調度、GPU共享、GPU拓撲感知) | 支持 | 僅不支持GPU顯存隔離,剩余均支持 | 僅不支持GPU顯存隔離,剩余均支持 | ||
調度(任務隊列) | 支持 | 支持 | 支持 | ||
交互方式(Arena) | 支持 | 支持 | 支持 | ||
交互方式(控制臺) | ack-ai-dashboard ack-mysql | 支持 | 支持 | 支持 | |
工作流 | 支持 | 支持 | 支持 | ||
監控 | ack-arena-exporter | 支持 | 支持 | 支持 |
在邊緣節點池中,AI套件的加速能力只能在節點間網絡互通的邊緣節點池使用。
使用方式
基于ACK Edge集群的云邊架構,我們建議您在使用AI套件的過程中通過節點池來管理不同的資源。
管控節點池:部署AI套件管控組件的云上節點池。
該節點池的節點不需要有GPU資源。
默認會使用ACK Edge集群自動創建的云上節點池default-nodepool作為管控節點池。
如果您需要開啟AI套件的所有功能,該節點池需至少擴容至4個節點,以保證組件有足夠的資源可以正常運行。具體操作,請參見擴容云上節點。
彈性節點池:開啟節點自動伸縮的云上節點池。
如果您有彈性推理的需求,可以通過該節點池實現隨業務需求動態變化的服務器彈性擴縮容。
邊緣節點池:管理線下數據中心中不同類型的節點。
建議您根據節點屬性使用邊緣節點池來管理一組相關的節點。例如您可以按照CPU架構劃分為AMD節點池和Arm節點池,或者按照網絡情況劃分專線節點池和公網節點池等。