當您的集群已經安裝共享GPU調度組件,但節點GPU驅動版本與集群中已存在的cGPU版本不兼容,或者節點操作系統版本與集群中已存在的cGPU版本不兼容時,您需要將共享GPU調度組件升級到最新版本。
步驟一:確認共享GPU調度組件的升級方式
您需要根據集群共享GPU調度組件(ack-ai-installer)的安裝方式選擇升級方式。安裝共享GPU調度組件有兩種方式。
通過云原生AI套件安裝(推薦):在云原生AI套件頁面安裝共享GPU調度組件ack-ai-installer。具體操作,請參見安裝共享GPU調度組件。
通過應用目錄安裝(該方式已關閉):在應用市場的應用目錄頁面安裝共享GPU調度組件ack-ai-installer。目前該安裝方式已關閉。但對于已通過該方式安裝的存量組件,您仍然可以在此方式完成組件的升級。
重要如果您卸載了集群中通過此方式安裝的組件,再次安裝時,您需要開通云原生AI套件服務并完成安裝。
登錄容器服務管理控制臺,在左側導航欄選擇集群。
在集群列表頁面,單擊目標集群名稱,然后在左側導航欄,選擇 。
確認云原生AI套件頁面是否顯示開通服務字樣。
如有,則表明共享GPU調度組件通過應用目錄完成了安裝,反之則是通過云原生AI套件完成了安裝。
步驟二:升級組件
通過云原生AI套件升級
登錄容器服務管理控制臺,在左側導航欄選擇集群。
在集群列表頁面,單擊目標集群名稱,然后在左側導航欄,選擇 。
在組件列表區域,定位ack-ai-installer組件并在操作列單擊升級。
通過應用目錄升級
登錄容器服務管理控制臺,在左側導航欄選擇集群。
在集群列表頁面,單擊目標集群名稱,然后在左側導航欄,選擇 。
在Helm列表,定位ack-ai-installer組件,在操作列單擊更新,根據頁面指引選擇最新的Chart版本并完成組件更新。
重要如需進行Chart的自定義配置,請在修改配置后確認組件的更新。
更新后,請在Helm列表確認ack-ai-installer組件的Chart版本為最新版本。
步驟三:升級存量節點
ack-ai-installer組件升級完成后,并不會升級存量節點的cGPU版本。請參見下方說明,判斷節點是否啟用cGPU隔離功能。
若集群中包含啟用了cGPU隔離功能的GPU節點,還需升級存量節點的cGPU版本。具體操作,請參見升級節點cGPU版本。
若集群中不存在已開啟cGPU隔離能力的節點,則忽略此步驟。
說明若節點上存在標簽
ack.node.gpu.schedule=cgpu
或ack.node.gpu.schedule=core_mem
,代表已啟用cGPU隔離能力。升級存量節點cGPU版本需要停掉節點上的所有業務Pod,請根據業務場景,在低峰期執行此操作。