日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

異構計算集群概述

阿里云容器服務ACK支持對各種異構計算資源進行統一調度和運維管理,能夠顯著提高異構計算集群資源的使用效率。本文介紹阿里云容器服務ACK支持的異構計算集群。

背景信息

隨著5G、人工智能、HPC( High Performance Computing)、邊緣計算等業務的興起,人們對算力的性能要求達到了一個新的高度,以CPU為代表的通用計算越來越不能滿足這些業務的算力需求。因此,人們逐漸將注意力轉移到以領域專有架構DSA(Domain Specific Architecture)為代表的異構計算上,各種異構計算設備(GPU、FPGA等)在這些業務領域承擔著重要的角色。

如何大規模管理這些異構計算資源成為一個比較棘手的問題。為了解決這個問題,阿里云容器服務提供一站式管理異構計算資源方案,實現對異構計算資源的統一調度和運維管理。

異構計算集群介紹

阿里云容器服務ACK支持對GPU、FPGA、ASIC和RDMA異構資源進行統一調度和運維管理,提高集群資源的使用效率。容器服務ACK支持的異構計算集群及具體功能如下。

異構資源

功能描述

GPU

阿里云容器服務ACK支持創建帶有T4、P100、V100等市場主流GPU卡的集群。更多信息,請參見創建GPU集群創建專有GPU集群

  • 支持以GPU卡為單位申請集群GPU資源。

  • 支持自動擴縮容集群GPU節點。更多信息,請參見基于GPU指標實現彈性伸縮

  • 支持GPU共享調度和算力隔離功能。阿里云自研的GPU共享調度將多個模型推理應用運行在同一個GPU上,能夠顯著降低成本。通過阿里云自研cGPU方案,在無需修改應用容器的前提下,提供GPU顯存和算力的隔離能力,提高應用的穩定性。支持的GPU設備分配策略如下,更多信息,請參見共享GPU調度概述通過共享GPU調度實現算力分配

    • 單Pod單GPU卡共享和隔離:常用于模型推理場景。

    • 單Pod多GPU卡共享和隔離:常用于分布式模型訓練代碼的開發。

    • 按GPU卡的Binpack和Spread分配策略:Binpack分配策略指多個Pod會優先共享使用同一GPU卡,適用于需要提升GPU卡利用率的場景;Spread分配策略指多個Pod會盡量分散使用不同GPU卡,適用于GPU高可用場景。

  • 支持GPU拓撲感知調度功能:通過Node節點獲取異構計算資源的拓撲結構,調度器端基于節點的拓撲信息,完成調度決策,為NVLINK、PCIe Switch、QPI和RDMA NIC提供最佳的調度選擇,實現最優的運行性能。更多信息,請參見GPU拓撲感知調度概述

  • 支持GPU資源的全方位監控:提供節點和應用視角的監控指標,設備(軟硬件)異常自動檢測和告警,支持獨占GPU和共享GPU場景。更多信息,請參見使用Kubernetes事件中心監控GPU異常使用阿里云Prometheus監控集群GPU資源

FPGA

阿里云容器服務ACK支持創建帶有FPGA設備的集群。更多信息,請參見創建FPGA集群

  • 支持以單個FPGA為單位申請資源。

  • 支持利用阿里云Kubernetes的FPGA節點標簽進行調度。更多信息,請參見調度負載至FPGA節點

ASIC

阿里云容器服務ACK支持創建帶有NETINT ASIC設備的集群,支持以單張NETINT ASIC卡為單位申請集群資源。更多信息,請參見創建ASIC集群

RDMA

容器服務ACK支持創建帶有RDMA設備的集群。更多信息,請參見eRDMA

  • 支持通過Arena提交使用RDMA設備的分布式深度學習訓練任務。

  • 支持對網絡帶寬有高要求的任務,如分布式深度學習訓練任務等。