日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

ack-ai-installer組件介紹與變更說明

ack-ai-installer是增強ACK Pro版集群和ACK Edge集群Pro版調度能力的Device Plugin(設備插件)的組件集合,支持結合ACK Scheduler(ACK基于Kubernetes Scheduling Framework擴展機制,針對不同任務負載、不同彈性資源的統一調度系統)完成一些針對異構計算資源的復雜調度,包括共享GPU調度、GPU拓撲感知調度等。本文介紹ack-ai-installer組件的基礎信息、使用說明和變更記錄。

組件介紹

結合ACK Scheduler,ack-ai-installer可以提供共享GPU調度(包括共享隔離能力)、GPU拓撲感知調度等調度能力。ack-ai-installer目前包括如下組件。

gpushare-device-plugin和cgpu-installer

ACK Pro版集群和ACK Edge集群Pro版的ACK Scheduler默認支持獨占GPU調度,ack-ai-installer(gpushare-device-plugin)結合ACK Scheduler可以實現共享GPU調度和共享隔離能力。共享GPU調度可以使多個應用程序或進程共享一張GPU卡資源,以提高系統的資源利用率。 在共享GPU調度的基礎上,ack-ai-installer(cgpu-installer)還結合了阿里云GPU容器共享技術cGPU,支持GPU顯存隔離,使不同的應用程序或進程在GPU內存中相互隔離,避免各個任務之間相互干擾,提高整個系統的性能和效率。同時,ack-ai-installer(cgpu-installer)還支持GPU算力隔離,并提供不同的分配策略(平均、搶占、權重等),可以更精細化地調度和使用GPU的算力資源。關于共享GPU調度與隔離的更多信息,例如安裝方式、使用場景等,請參見安裝共享GPU調度組件、通過共享GPU調度實現算力分配。

gputopo-device-plugin

結合ACK Scheduler,ack-ai-installer(gputopo-device-plugin)支持實現GPU拓撲感知調度,在節點的GPU組合中選擇具有最優訓練速度的組合。關于GPU拓撲感知調度的更多信息,例如安裝步驟、使用場景等,請參見GPU拓撲感知調度。

使用說明

ack-ai-installer組件僅支持在ACK Pro版集群和ACK Edge集群Pro版中通過云原生AI套件控制臺頁面安裝,在ACK靈駿托管版集群中以組件的形式預安裝,且集群版本均需為1.18及以上。

變更說明

2024年11月

版本號

變更內容

變更時間

變更影響

1.11.1

發布cGPU 1.5.13版本,修復容器殘留進程可能導致的小概率內核崩潰。

2024年11月19日

此次升級不會對業務造成影響。

1.10.1

發布cGPU 1.5.12版本,修復535等新版本驅動部分CUDA API顯存隔離失敗的問題。

2024年11月07日

此次升級不會對業務造成影響。

2024年09月

版本號

變更內容

變更時間

變更影響

1.9.16

  • cGPU為1.5.11版本。

  • 修改cGPU安裝流程到init-container中。

2024年09月26日

此次升級不會對業務造成影響。

1.9.15

發布cGPU 1.5.11版本,修復解碼相關問題。

2024年09月19日

此次升級不會對業務造成影響。

2024年08月

版本號

變更內容

變更時間

變更影響

1.9.14

  • 修復了一些MPS Daemon使用的問題。

  • 發布cGPU 1.5.10版本,增加了Policy 6用以做算力和顯存的等比例切分。

2024年08月21日

此次升級不會對業務造成影響。

1.9.14

發布cGPU 1.5.9版本,增加了policy 6用以做算力和顯存的等比例切分

2024年08月13日

此次升級不會對業務造成影響。

2024年05月

版本號

變更內容

變更時間

變更影響

1.9.11

發布cGPU 1.5.7版本,支持L系列GPU和550+版本GPU驅動。

2024年05月14日

此次升級不會對業務造成影響。

1.9.10

發布cGPU 1.5.7版本,修復cgpu policy set無效的問題。

2024年05月09日

此次升級不會對業務造成影響。

2024年01月

版本號

變更內容

變更時間

變更影響

1.8.8

發布cGPU 1.5.6版本,發布了新的cGPU License Server策略。

2024年01月04日

此次升級不會對業務造成影響。

2023年12月

版本號

變更內容

變更時間

變更影響

1.8.7

  • cGPU為1.5.5版本。

  • 支持MPS的共享GPU調度。

2023年12月20日

此次升級不會對業務造成影響。

2023年11月

版本號

變更內容

變更時間

變更影響

1.8.5

發布cGPU 1.5.5版本,修復cgpu-procfs觸發的Kernel Panic問題。

2023年11月23日

此次升級不會對業務造成影響。

2023年08月

版本號

變更內容

變更時間

變更影響

1.8.2

  • cGPU為1.5.3版本。

  • 支持動態MIG切分的能力。

  • 修復device-plugin-recover反復重啟問題。

2023年08月29日

此次升級不會對業務造成影響。

2023年07月

版本號

變更內容

變更時間

變更影響

1.7.7

  • 發布cGPU 1.5.3版本,

  • 修復nvidia-container-toolkit和nvidia-container-runtime-hook軟連接錯亂的問題。

  • 修復不兼容高版本驅動(470.182.03 、515.105.01、525.105.17及其之后發布的版本的驅動)的問題。

2023年07月04日

此次升級不會對業務造成影響。

2023年04月

版本號

變更內容

變更時間

變更影響

1.7.6

  • 發布cGPU 1.5.2版本,修復systemd cgroup權限錯亂問題。

  • 解決cGPU在5XX以上驅動的兼容支持問題。

  • 解決cGPU對nvidia-container-runtime 1.10以上版本的支持問題。

  • 修復cGPU 1.5.1版本在containerd上的支持問題。

2023年04月26日

此次升級不會對業務造成影響。

1.7.5

發布cGPU 1.5.2版本。

2023年04月18日

此次升級不會對業務造成影響。