本文為您介紹如何配置節點自愈消息通知,以便在靈駿智算資源底層機器節點出現異常時能夠及時接收通知。在收到通知后,請盡快清退該節點上的任務,以確保靈駿節點的自愈功能順利完成。
背景信息
當系統發現節點異常時,會通過自愈能力自動切換備機,保障您的資源穩定性和高可用性。支持針對以下兩種場景開啟通知功能:
節點禁止調度
節點自愈受阻:異常節點存在運行任務,阻礙節點自愈。因此,需要您配合進行以下操作:
DSW實例:手動保存環境并關閉實例,或者通過調度中心的DSW配置策略實現自動重啟實例。
DLC任務:手動停止任務。
使用限制
目前該功能僅針對靈駿智算資源。支持的地域包括華北6(烏蘭察布)和新加坡。
開啟消息通知
當系統導致節點禁止調度或您的任務運行在異常節點上時,支持通過站內信、郵件或短信的方式通知您。為了方便您及時收到此類信息,建議開啟以下通知:
登錄PAI控制臺。
在右上角單擊,進入消息中心。
在左側導航欄選擇
。在消息類型列找到或短信。
,確認已添加消息接收人后,勾選站內信、郵箱配置完成后,如果系統發現異常節點,將通知您所涉及的節點名稱、資源配額及節點上運行的任務信息。
操作指南
收到通知后,請按照以下操作步驟清退異常節點上的DSW實例和DLC任務:
遷移DSW實例
方式一:手動遷移
對于異常節點上的DSW實例,如果您正處于瀏覽器打開狀態,DSW實例中會彈窗提醒您盡快保存環境并關閉實例,以保障靈駿節點自愈。
方式二:自動遷移
登錄PAI控制臺。
在左側導航欄單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應的工作空間。
在工作空間詳情頁面,單擊調度中心頁簽。
在DSW配置策略區域,打開開啟異常節點實例自動遷移開關。
該功能開啟后,當靈駿底層機器節點發生異常時,系統會自動關閉并重啟實例,支持底層節點自愈流程,保障您的資源完整可用性。重啟過程會為您保存環境鏡像,但運行中進程無法恢復。
對于異常節點上的DSW實例,如果您正處于瀏覽器打開狀態,DSW實例中會彈窗提醒您盡快保存環境并關閉實例,以及展示自動重啟剩余時間,以保障靈駿節點自愈。
停止DLC任務
單擊站內信、郵件或短信中的詳情鏈接,進入資源配額頁面。
根據提供的節點信息,單擊并查看該節點下的任務列表。
單擊DLC任務名稱,進入任務詳情頁面。然后單擊右上角
,來停止DLC任務。單擊克隆,您的任務將復用原有配置,并調度到正常節點上。具體操作,請參見克隆訓練任務。