日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

AI負載調度

本文介紹彈性資源調度、AI任務調度、異構資源調度和任務隊列調度,幫助用戶提升集群的資源利用率和作業運行效率。

彈性調度

ACK為不同彈性資源提供了混合調度的能力。

功能描述參考文檔
彈性調度阿里云提供了不同種類的彈性資源,如ECS和ECI,以及不同的付費類型如包年包月、按量付費和搶占實例等。

彈性調度提供差異化調度ECS和ECI資源的能力,支持自定義彈性資源優先級調度策略。在應用發布或擴容過程中,按照自定義資源策略,設置應用實例Pod被調度到不同類型節點資源的順序。同時在縮容過程中按照原調度順序逆序縮容。

例如在擴容過程中,優先使用已有資源池中的ECS資源,當ECS資源分配完之后,再使用ECI資源。當應用縮容時,可以優先縮容ECI節點,在提升效率的同時降低您的使用成本。

任務調度

ACK為批量計算的任務提供了Gang scheduling和Capacity Scheduling調度能力。

功能描述參考文檔
Gang schedulingAll-or-Nothing作業要求所有的任務在同一時間被調度,如果只是部分任務啟動的話,啟動的任務將持續等待剩余的任務被調度。在極端情況下,所有作業都處于掛起狀態,從而導致死鎖。

為了解決這個問題,阿里云提供Gang Scheduling功能,保障所有相關聯的進程能夠同時啟動,防止因部分進程的異常而導致整個關聯進程組的阻塞的問題。

使用Gang scheduling
Capacity Scheduling當集群中有多個用戶時,通過Kubernetes原生的ResourceQuota方式進行固定資源分配,因為不同的用戶使用資源的周期和方式不同,會造成集群的整體資源利用率較低。

ACK借鑒Yarn Capacity Scheduling的設計思路,基于Scheduling Framework的擴展機制,在調度側通過引入彈性配額組,實現Capacity Scheduling功能,在確保用戶資源分配的基礎上,通過資源共享的方式來提升集群的整體資源利用率。

使用Capacity Scheduling
Kube Queue調度器以Pod為單位進行調度。當集群中任務類型的工作負載數量多時,會導致Pod對調度器的運行速率影響較大,并且不同用戶提交的作業之間存在相互影響。

任務隊列ack-kube-queue旨在管理Kubernetes中的AI/ML工作負載和批處理工作負載。允許系統管理員使用自定義隊列的作業隊列管理,以提高隊列的靈活性。結合Quota系統,ack-kube-queue自動優化了工作負載和資源配額管理,以便最大化利用集群資源。

使用任務隊列ack-kube-queue

異構資源調度

ACK為CPU、GPU等異構資源提供了GPU共享調度、GPU/CPU拓撲感知調度等能力。ACK調度GPU使用的節點標簽信息,請參見GPU節點調度屬性標簽說明及標簽值的切換方法

功能

描述

參考文檔

共享GPU調度

GPU共享調度可以降低使用GPU的經濟成本,保障程序運行的穩定性。

ACK Pro版集群支持以下GPU設備分配策略:

  • 單Pod單GPU卡共享和隔離,常用于支持模型推理場景。

  • 單Pod多GPU卡共享和隔離,常用于支持分布式模型訓練代碼的開發。

  • 按GPU卡的Binpack和Spread分配策略,常用于提升GPU卡利用率和GPU高可用的場景。

共享GPU調度專業版

GPU/CPU拓撲感知調度

調度器基于節點異構資源的拓撲信息,如GPU卡之間的NVLink、PcieSwitch等通信方式、CPU的NUMA拓撲結構等,在集群維度進行最佳的調度選擇,為工作負載提供更好的性能。

FPGA調度

在進行FPGA計算時,通過Kubernetes集群統一管理FPGA設備。根據應用的需求,把資源調度到具有FPGA設備的節點上。

調度負載至FPGA節點

任務隊列調度

ACK為AI/ML工作負載和批處理工作負載提供自定義的任務隊列調度能力。詳細信息,請參見使用任務隊列ack-kube-queue