本文為您介紹如何通過配置消息接收人,以便快速獲取靈駿機器節點的異常信息,以及配置DSW實例進行遷移的具體操作。
背景信息
當靈駿底層機器節點發生異常時,系統會通過節點自愈能力自動切換備機,保障用戶機器資源組的穩定性和高可用性。節點自愈的前提是需要異常節點上的Pod全部回收。因此,如果異常節點上有正在運行的DSW實例,您需要手動保存環境并關閉實例,或者通過調度中心的DSW配置策略實現自動重啟實例。
如果靈駿機器節點出現異常,DSW將會通過短信、郵件等方式立即通知您當前賬號所配置的聯系人。
地域限制
目前僅靈駿計算資源組中的DSW實例支持節點自愈。支持的地域包括華北6(烏蘭察布)和新加坡。
前提條件
已開通靈駿智算資源,詳情請參見新建資源組并購買靈駿智算資源。
已創建DSW實例,該實例使用靈駿智算資源。具體操作,請參見創建DSW實例。
步驟一:配置短信和郵件提示
登錄PAI控制臺。
在右上角單擊,進入消息中心。
在左側導航欄選擇消息接收管理>基本接收管理。
在消息類型列找到產品消息>產品運維通知,確認已添加消息接收人后,勾選郵箱和短信。
配置完成后,如果靈駿機器節點發生異常,您將會收到對應的短信和郵件提示。
步驟二:配置DSW遷移
手動遷移
對于異常節點上的DSW實例,如果您正處于瀏覽器打開狀態,DSW實例中會彈窗提醒您盡快保存環境并關閉實例,以保障靈駿節點自愈。
自動遷移
登錄PAI控制臺。
在左側導航欄單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應的工作空間。
在工作空間詳情頁面,單擊調度中心頁簽。
在DSW配置策略區域,打開開啟異常節點實例自動遷移開關。
該功能開啟后,當底層靈駿計算資源節點發生異常時,系統會自動關閉并重啟實例,支持底層節點自愈流程,保障您的資源完整可用性。重啟過程會為您保存環境鏡像,但運行中進程無法恢復。
對于異常節點上的DSW實例,如果您正處于瀏覽器打開狀態,DSW實例中會彈窗提醒您盡快保存環境并關閉實例,以及展示自動重啟剩余時間,以保障靈駿節點自愈。