故障演練是整體容災流程中極其重要的一環。 本文介紹ECS容災中故障演練的操作流程。
故障演練的意義
故障演練將被容災保護的服務器在云上拉起并驗證應用正確性,是容災流程整體中及其重要的一環,它的核心意義在于:
方便地驗證被容災保護的應用可以在容災站點正常拉起。
確保操作人員熟悉容災恢復流程,確保在生成站點真正發生故障時,操作人員可以順暢地進行容災切換。
前提條件
保護組處于增量復制中或者已有恢復點之后,您就可以進行故障演練。如何創建跨可用區和跨地域容災的保護組,請參見跨可用區容災啟動復制和跨地域容災啟動復制。
對于創建自定義演練環境場景,您需要提前創建演練環境所需的VPC網絡、交換機映射和安全組映射等。
操作流程
創建故障演練環境。
說明對于創建自定義演練環境場景,您需要提前創建演練環境所需的VPC網絡、交換機映射和安全組映射等。并創建演練環境后,進行演練網絡配置。
啟動故障演練。
驗證應用或業務。
清空演練環境。
選擇創建演練環境的方式
創建方式 | 適用場景 | 優點 | 缺點 |
自動創建并啟動 | 適用于業務比較獨立,不需公網或者和其他網絡通信的配置即可驗證業務的場景。 說明 例如提供內部業務的ECS應用,業務不涉及配置負載均衡SLB、域名、安全組(開放端口)等。 |
指定保護組后,系統自動創建演練環境所需資源,包括VPC網絡、交換機映射和安全組映射。 | 不可自定義演練后新創建的ECS實例名稱的前綴。自定義的ECS實例名稱有利于您快速識別故障演練ECS。 |
創建自定義演練環境 | 適合業務和其他網絡有交互,需要額外的網絡方面配置才可驗證的場景。演練環境配置好以后可以一直保留。 說明 例如多臺ECS通過負載均衡SLB對外提供服務的場景,您需要為業務配置負載均衡SLB、域名、安全組(開放端口)等。 |
|
您需要單獨指定演練VPC、配置交換機映射、安全組映射,可能存在實例IP沖突,導致演練失敗。 |
自動創建并啟動
登錄混合云容災管理控制臺。
在左側導航欄,單擊切換到云盤異步復制型容災。
單擊站點對列表。
在容災站點對頁面,單擊目標容災站點對,選擇故障演練頁簽。
說明您也可以進入對應保護組頁簽,在操作列選擇故障演練操作。
單擊自動創建并啟動。
在啟動演練對話框,從下拉框選擇保護組,單擊下一步。
預覽保護組資源,確認完成后,單擊確認。
說明當容災站點實例規格和實例操作系統不滿足要求時,您可以根據生產站點ECS實例規格、操作系統和界面提示,選擇合適的實例規格。您可以通過修改實例規格和修改操作系統修改容災站點實例規格和操作系統。若規格族和操作系統無法滿足您的需求,請提工單聯系阿里云技術支持。
啟動容災復制前,您也可以修改自定義數據和修改容災端IP。
IP地址異常,是IP地址已被使用,請移除原演練ECS實例或在網絡配置中更改交換機映射。
在確認啟動演練對話框,單擊確認,啟動演練。
重要系統會暫停當前保護組復制狀態,然后基于最近一次可恢復點創建出新的可用盤。通常情況下,暫停會在5分鐘內自動恢復。演練磁盤就緒后,系統會在容災站點創建出演練ECS實例,等演練組創建成功后即可開始驗證業務。
保護組演練會自動啟動容災端ECS且不會自動停止生產端ECS。請您謹慎評估業務,并結合安全組、網絡隔離等手段隔離生產流量,避免業務風險。
演練保護組狀態會先后進入初始化、演練中、演練組創建成功狀態。
演練ECS實例啟動成功后,您就可以驗證業務。
清理演練環境。
刪除故障演練組
刪除故障演練組會刪除演練過程中創建的ECS、云盤、彈性網卡、快照、鏡像等資源。
在目標演練保護組的操作列,單擊刪除故障演練組,完成確認,即可刪除。
說明您也可以進入對應保護組頁簽,在操作列刪除指定故障演練組,可以批量刪除故障演練組。
刪除演練環境
在演練環境區域,單擊刪除,完成確認,即可刪除。
創建自定義演練環境
登錄混合云容災管理控制臺。
在左側導航欄,單擊切換到云盤異步復制型容災。
單擊站點對列表。
在容災站點對頁面,單擊目標容災站點對,選擇故障演練。
說明您也可以進入對應保護組頁簽,在操作列選擇故障演練操作。
單擊創建自定義演練環境。
在創建演練環境對話框,設置故障演練后新創建ECS實例名稱的前綴,從下拉框中選擇演練VPC,然后單擊確認。
說明ECS實例前綴為新創建ECS實例名稱的前綴。例如您容災演練的ECS實例名稱為
ecse
,ECS實例前綴取值為Drill_test_20230925_
,則新生成的ECS實例名稱為Drill_test_20230925_ecs
。您需要提前在容災站點創建演練環境所使用的VPC。
配置演練環境網絡。
在演練環境區域,單擊演練網絡配置參數后的詳情。
在演練網絡配置對話框,添加交換機映射和添加安全組映射。
在演練環境區域,單擊啟動演練,開始故障演練。
在啟動演練對話框,從下拉框選擇保護組,單擊下一步。
預覽保護組資源,確認完成后,單擊確認。
說明當容災站點實例規格和實例操作系統不滿足要求時,您可以根據生產站點ECS實例規格、操作系統和界面提示,選擇合適的實例規格。您可以通過修改實例規格和修改操作系統修改容災站點實例規格和操作系統。若規格族和操作系統無法滿足您的需求,請提工單聯系阿里云技術支持。
啟動容災復制前,您也可以修改自定義數據和修改容災端IP。
IP地址異常,是IP地址已被使用,請移除原演練ECS實例或在網絡配置中更改交換機映射。
在確認啟動演練對話框,單擊確認,啟動演練。
重要系統會暫停當前保護組復制狀態,然后基于最近一次可恢復點創建出新的可用盤。通常情況下,暫停會在5分鐘內自動恢復。演練磁盤就緒后,系統會在容災站點創建出演練ECS實例,等演練組創建成功后即可開始驗證業務。
保護組演練會自動啟動容災端ECS且不會自動停止生產端ECS。請您謹慎評估業務,并結合安全組、網絡隔離等手段隔離生產流量,避免業務風險。
演練保護組狀態會先后進入初始化、演練中、演練組創建成功狀態。
演練ECS實例啟動成功后,您就可以驗證業務。
清理演練環境。
刪除故障演練組
刪除故障演練組會刪除演練過程中創建的ECS、云盤、彈性網卡、快照、鏡像等資源。
在目標演練保護組的操作列,單擊刪除故障演練組,完成確認,即可刪除。
說明您也可以進入對應保護組頁簽,在操作列刪除指定故障演練組,可以批量刪除故障演練組。
刪除演練環境
在演練環境區域,單擊刪除,完成確認,即可刪除。