阿里云容器服務靈駿版是容器服務 Kubernetes 版針對智能計算靈駿提供的集群類型,提供全托管和高可用控制面的標準Kubernetes集群服務,支持以靈駿計算節點作為Kubernetes集群的工作節點。本文介紹阿里云ACK靈駿托管版集群的產品簡介、功能介紹和核心優勢等。
索引
使用說明
如需使用ACK靈駿托管版集群,請先前往智能計算靈駿控制臺,創建帶有ACK的靈駿集群服務。更多信息,請參見創建帶有ACK的靈駿集群服務。
關于ACK靈駿托管版集群的更多操作以及更多功能的使用,請參見:
產品簡介
ACK靈駿托管版集群提供了全托管和高可用控制面的標準Kubernetes集群服務,支持高效管理異構資源、調度異構任務,作為支撐人工智能平臺PAI的云原生底座,并提供AI、HPC等高性能計算場景下的云原生增強能力。下圖展示了ACK靈駿托管版集群的產品架構,并體現出在整個軟硬分層、統一優化的集成產品方案中,ACK靈駿托管版集群提供了穩定、可靠、高效、安全的云原生AI基礎設施服務。關于靈駿,請參見什么是靈駿。
功能介紹
集群管理
ACK靈駿托管版集群的核心管理能力與ACK Pro托管版集群一致。集群控制面由ACK創建并托管,管控節點默認為3個可用區的高可用部署。提供集群的生命周期管理,以及集群授權、集群監控、集群升級、組件管理等集群運維操作。
節點管理
ACK靈駿托管版集群為靈駿計算節點提供靈駿節點池類型,支持節點池生命周期管理以及節點批量添加和移除,提供與ECS節點池一致的管理和運維,包括節點配置、節點運維、節點托管、調度應用至指定節點池等,以及監控診斷和自動化運維等能力。
云原生AI
ACK靈駿托管版集群默認提供云原生AI增強組件,支持多GPU卡的拓撲感知調度,結合GPU容器虛擬化方案eGPU提供共享GPU調度和隔離;針對AI、HPC等任務特點,支持Gang、Capacity、Binpack等任務調度策略;還支持數據集編排和訪問加速。
核心優勢
安全穩定
ACK靈駿托管版集群具備ACK Pro托管版集群的企業級特性,提供控制面托管和高可用,免去了繁瑣的集群搭建和配置工作;保障集群的穩定性、可靠性、安全性,支持賠付標準的SLA,滿足企業級大規模生產環境的業務需求。
簡化運維
ACK靈駿托管版集群提供標準的Kubernetes服務,并與智能計算靈駿以及其他相關云產品進行深度集成。為集群和靈駿計算節點提供了簡單的操作和自動化的運維,保持與ECS節點一致的管理體驗,減少了大量的適配和運維成本。
提效加速
ACK靈駿托管版集群提供GPU的共享調度和拓撲感知調度等能力,優化異構資源的使用效率和性能;為AI、HPC等任務提供了豐富的調度策略、任務優先級隊列,優化AI訓練和推理任務效率,統一AI資源和負載的標準化管理和交付。