本文中含有需要您注意的重要提示信息,忽略該信息可能對您的業務造成影響,請務必仔細閱讀。
容災系統部署在阿里云的兩個地域中,當生產站點發生故障(例如海嘯、地震)時,業務系統切換到容災站點。生產站點和容災站點部署在不同的地域,提供容災即服務,RPO低至1分鐘、RTO低至15分鐘的高可靠的業務持續性保障,有效避免了地域性災害導致的系統故障。
準備工作
在實現跨地域容災之前,您需要選擇一個不同于生產環境的地域作為容災目標地域。在該地域上創建云上專有網絡(VPC),并創建復制網絡交換機和恢復網絡交換機。更多信息,請參見搭建云上專有網絡。
步驟一:創建容災站點對
準備工作完成后,按如下步驟對源站ECS進行跨地域容災保護:
在左側導航欄,選擇 。
單擊切換到連續復制型容災。
在容災中心頁面右上方,選擇+添加。
在創建容災站點對面板,完成以下配置,然后單擊創建。
選擇容災類型為跨地域容災。
配置生產站點信息。
生產站點用于指定需要容災的服務器在云上的位置。
參數
說明
名稱
為生產站點命名。例如杭州主站。不超過60個字符。命名規則如下:
不能以特殊字符及數字開頭。
特殊字符只可包含半角句號(.)、下劃線(_)和短劃線(-)。
地域
從地域列表中,選擇主站所在的地域。例如華東1(杭州)。
VPC
從VPC列表中,選擇準備工作中為主站創建好的VPC。例如默認VPC。
配置容災站點信息。
容災站點災備備用的計算和存儲資源都會在選中的專有網絡環境中創建。
參數
說明
名稱
為容災站點命名。例如上海從站。不超過60個字符。命名規則如下:
不能以特殊字符及數字開頭。
特殊字符只可包含半角句號(.)、下劃線(_)和短劃線(-)。
地域
從地域列表中,選擇從站所在的地域。例如華東2(上海)。
VPC
從VPC列表中,選擇從站所屬的VPC。例如默認VPC。
步驟二:添加被保護服務器
容災站點對創建完成后,按如下步驟添加被保護服務器:
在容災中心的受保護服務器頁簽,選中步驟一中已創建的容災站點對。
單擊+添加,勾選要保護的ECS,然后單擊確認。
您可以選擇至少1個ECS進行保護,最多可以支持10個ECS。
服務器狀態顯示客戶端安裝中,隨后顯示已初始化。如果服務器狀態未顯示已初始化,選擇
以完成客戶端初始化。
步驟三:啟動復制
啟動容災復制,將服務器復制到云上,并維持實時復制。按如下步驟啟動復制:
單擊受保護服務器頁簽,在要啟動容災復制服務器右側對應的操作列表,選擇 。
在啟動復制面板,配置如下參數,然后單擊啟動。
參數
說明
恢復點策略
從下拉列表中選擇創建恢復點的時間間隔,Cloud Backup每天每隔該時間創建一個恢復點,單位為小時。
硬盤類型
支持高效云盤、ESSD和SSD。
復制網絡
從下拉列表中選擇復制網絡。Cloud Backup使用該網絡復制容災數據到云上。
Cloud Backup默認讀取從站VPC網絡的可用虛擬交換機。復制網絡和恢復網絡的交換機可以是同一個,同一個網絡做恢復時速度更快。復制網絡和恢復網絡不在一個可用區時,將導致RTO時間變長。建議配置和恢復網絡相同的可用區。
恢復網絡
從下拉列表中選擇恢復網絡。容災恢復時,Cloud Backup使用該網絡恢復容災數據,例如容災演練或故障切換時恢復出來的ECS使用該網絡創建。
Cloud Backup默認讀取從站VPC網絡的可用虛擬交換機。復制網絡和恢復網絡的交換機可以是同一個,同一個網絡做恢復時速度更快。復制網絡和恢復網絡不在一個可用區時,將導致RTO時間變長。建議配置和復制網絡相同的可用區。
復制中斷后是否自動重啟
是否復制中斷后啟動重啟。勾選表示復制中斷后,啟動重啟復制任務。
此時,容災復制會先后進入啟動復制、全量復制、實時復制中三個階段。
啟動復制:ECS容災服務正在掃描系統數據,評估總體數據量,這一階段通常會持續幾分鐘。
全量復制:ECS容災服務正在把整臺服務器的有效數據傳輸到阿里云,這一階段所用時間取決于服務器數據量、網絡帶寬等因素。控制臺進度條將會展示復制進度。
實時復制中:全量復制完成后,阿里云上已經復制了您的全量數據,然后阿里云復制服務AReS(Aliyun Replication Service)將會在服務器上監視所有對磁盤的寫操作,并持續地實時復制到阿里云。
(可選)容災演練
一旦進入實時復制狀態,您就可以對服務器進行容災演練操作了。
容災演練將被容災保護的服務器在云上拉起并驗證應用正確性,是容災流程整體中極其重要的一環,其核心意義在于:
方便地驗證被容災保護的應用可以在云上正常啟動。
確保操作人員熟悉容災恢復流程,確保在主站真正發生故障時,操作人員可以順暢地進行容災切換。
按如下步驟進行容災演練:
在受保護服務器頁簽,單擊要啟動容災演練服務器右側對應的操作列表下的容災演練。
在容災演練面板,選擇恢復網絡、IP地址、是否使用ECS規格、硬盤類型、恢復點、彈性公網IP、切換后執行腳本。然后單擊啟動。
說明云備份服務會自動為每個服務器保留最近24小時的24個恢復點。
如果不使用ECS規格,還需要填寫CPU、內存信息。
此時,阿里云會在后臺基于用戶選定的時間點將服務器啟動。后臺容災演練過程中,實時數據復制不受影響。
幾分鐘后,您會看到容災演練完成,單擊容災演練信息下的鏈接,驗證數據與應用。
清空演練環境。
驗證完成后,單擊該服務器右側對應的操作列表下的清空演練環境,此時恢復出來的ECS會被刪除。
說明容災演練恢復出來的ECS驗證完成后,建議盡快清空演練環境,以降低費用支出。
步驟四:故障切換
定期的容災演練保證了您的業務可以隨時在云上啟動。而當您的主站發生重大故障,需要在云上馬上重啟核心業務時,則需要進行故障切換操作。
故障切換操作適用于被保護服務器已經出現嚴重故障的情形,進行該操作會停掉實時復制流程。您需要重新啟動復制,并完成一次全量復制才能對被保護服務器繼續進行容災保護。
按如下步驟進行故障切換:
在受保護服務器頁簽,在要啟動故障切換的服務器右側對應的操作列表下,選擇 。
在故障切換面板,選擇恢復網絡、IP地址、是否使用ECS規格、硬盤類型、恢復點、彈性公網IP、切換后執行腳本。然后單擊啟動。
重要當前時間恢復點只能使用一次。
故障切換完成后,單擊故障切換/故障恢復信息下的鏈接,檢查數據和應用。
如果檢查后發現當前時間點應用運行正常,選擇
。說明在故障切換或者切換恢復點完成,并且已經確認被容災保護的服務器恢復出的應用已經接管了業務的情況下,完成故障切換操作是為了清理容災復制在云上占用的資源,節約資源使用。
如果檢查后發現當前時間點應用狀態不符合要求,例如數據庫一致性問題,或者源端被污染的數據已經被同步到另一個地域,請在確認故障切換前,選擇
。
說明切換恢復點操作與故障切換操作類似,僅需選擇更早的恢復點即可。
步驟五:反向復制
被保護服務器的應用完成從某個地域(如地域A)容災復制到另一個地域(如地域B)后,還可以實施反向復制,即從地域B反向復制到地域A。
按如下步驟進行反向復制:
在受保護服務器頁簽,在要啟動反向復制的服務器右側對應操作列表下,選擇 ,確認反向注冊被保護服務器。
在操作列表,選擇 。
在啟動反向復制面板,勾選是否進行原機恢復,選擇復制網絡和恢復網絡。然后單擊啟動。
警告跨地域及跨可用區容災支持原機恢復。當使用原機恢復時,所使用的ECS主機中的數據會被清除,請謹慎選擇。
待服務器進入反向實時復制狀態時,在操作列表,選擇 。
在故障恢復面板,填寫CPU、內存信息、選擇恢復網絡、IP地址、編輯恢復后執行腳本。
故障恢復完成后,在操作列表,選擇 ,再次注冊被保護服務器。