由于本地盤不提供數據高可用能力,為提升本地盤的使用體驗,阿里云提供了豐富的本地盤運維能力,方便您及時了解本地盤實例是否發生異常并及時采取行動。本文介紹常見的運維場景以及相關系統事件。
常見運維場景及相關系統事件
本地盤實例常見的運維場景及相關系統事件如下圖所示。
您可以通過修改實例維護屬性自定義實例自動恢復的方式,例如實例維護屬性為自動重新部署,則在自動恢復實例時默認會進入重新部署實例相關的場景。更多信息,請參見修改實例維護屬性。
彈性裸金屬服務器實例還可以安裝插件xdragon_hardware_detect_plugin,定期檢測彈性裸金屬服務器實例上的本地盤的健康狀態。具體操作,請參見安裝監控插件。
場景①
SystemMaintenance.Reboot對應的運維流程如下:
SystemMaintenance.Reboot支持的事件狀態,請參見ECS系統事件匯總。典型的事件狀態變化示意圖,請參見系統事件的狀態和窗口期。
場景②
SystemMaintenance.Redeploy對應的運維流程如下:
SystemMaintenance.Redeploy支持的事件狀態,請參見ECS系統事件匯總。典型的事件狀態變化示意圖,請參見系統事件的狀態和窗口期。
場景③
SystemFailure.Reboot對應的運維流程:
系統開始自動重啟實例。
您收到重啟實例的通知。
實例自動重啟中,您無需操作,等待完成即可。
您檢查實例和應用是否正常。
SystemFailure.Reboot支持的事件狀態,請參見ECS系統事件匯總。典型的事件狀態變化示意圖,請參見系統事件的狀態和窗口期。
場景④
SystemFailure.Redeploy對應的運維流程:
SystemFailure.Redeploy支持的事件狀態,請參見ECS系統事件匯總。典型的事件狀態變化示意圖,請參見系統事件的狀態和窗口期。
場景⑤
針對場景⑤,您可以將實例重新部署到其他宿主機或者僅更換壞盤。更換壞盤時,請注意以下事項:
并非所有本地盤實例的磁盤都支持磁盤隔離,只有系統事件的操作中包含磁盤隔離時,您才能隔離受損磁盤。
磁盤隔離和磁盤維修為兩個獨立的操作,磁盤維修的前提是先進行磁盤隔離,但磁盤隔離后并不一定能維修,即并非所有實例都支持本地盤的維修。只有當阿里云發送恢復磁盤的通知時,您才能發起維修。
重新部署實例可以快速恢復本地盤可用性,但會丟失所有本地盤的數據。具體操作,請參見重新部署本地盤實例。
更換壞盤可以保留除壞盤外其他本地盤的數據,對應的運維流程如下:
您收到磁盤故障以及計劃隔離壞盤的通知。
您完成準備工作,包括修改/etc/fstab配置文件、備份數據等。
如果系統事件中包括隔離壞盤事件或對應操作,您應響應通知,授權隔離壞盤。
如果系統事件中包括Reboot事件或對應操作,您需要重啟實例。
阿里云在宿主機上移除壞盤,并插入新盤,然后發送恢復磁盤的通知。
如果系統事件中包括恢復磁盤事件或對應操作,您應響應通知,授權恢復磁盤。
如果系統事件中包括Reboot事件或對應操作,您需要重啟實例。
說明更換壞盤需要您和阿里云配合完成,具體操作,請參見隔離損壞的本地盤和隔離損壞的本地盤(CLI)。
更換壞盤相關系統事件支持的事件狀態和對應的變化示意圖如下。
場景⑥
針對場景⑥,您可以將實例重新部署到其他宿主機或者原地維修。原地維修時,請注意以下事項:
原地維修并不能保證100%數據無損也無法保證100%維修成功,建議您在授權維修前,對關鍵業務數據進行備份。
并非所有本地盤實例的磁盤都支持停機維修。
維修期間,該本地盤實例無法啟動,但該實例還會根據實例的計費方式正常計費。
原地維修的周期為14個工作日,在維修期間您可以通過重新部署或釋放維修中的實例來終止維修流程。
重新部署實例可以快速恢復本地盤可用性,但會丟失所有本地盤的數據。具體操作,請參見重新部署本地盤實例。
授權維修對應的運維流程如下:
您收到本地盤實例原地維修事件的通知。
您按需選擇一種響應方式。
在用戶操作窗口期內自行停止實例并授權維修。
等待系統自動執行停機維修操作。
阿里云對宿主機上的硬件進行維修,維修完成后,發送維修完成事件。
您檢查實例和應用是否正常,并按需同步數據。
SystemMaintenance.StopAndRepair支持的事件狀態,請參見ECS系統事件匯總。典型的事件狀態變化示意圖,請參見系統事件的狀態和窗口期。