GPU容器共享技術cGPU是阿里云基于內核虛擬GPU隔離的容器共享技術。即多個容器共享一張GPU卡,從而實現業務的安全隔離,提高GPU硬件資源的利用率并降低使用成本。
為什么選擇cGPU
兼容性好
不僅適配標準的Docker和Containerd工作方式,而且還無縫兼容Kubernetes(K8s)工作方式。
操作簡單
無需重編譯AI應用,運行時無需替換CUDA庫。
資源靈活劃分
物理GPU的資源可以進行任意劃分。例如,GPU顯存動態劃分,支持M級劃分、GPU利用率動態劃分,算力支持最小2%粒度的劃分。
GPU實例規格無限制
適用于GPU裸金屬實例,虛擬化實例,vGPU實例等各種GPU實例。
應用場景豐富
支持在離線混部業務(即在線業務和離線業務)、支持CUDA AI和渲染應用場景。
功能強大
具備高優先級的搶占功能和較高的可運維能力,支持熱升級、支持多卡劃分功能。
cGPU架構圖
GPU容器共享技術cGPU的架構圖如下所示:
為了提高GPU硬件資源的利用率,需要在單張顯卡上運行多個容器,并在多個容器間隔離GPU應用。
cGPU通過自研的內核驅動為容器提供虛擬的GPU設備,在保證性能的前提下隔離顯存和算力,為充分利用GPU硬件資源進行訓練和推理提供有效保障。您可以通過命令方便地配置容器內的虛擬GPU設備。
文檔內容是否對您有幫助?