日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

什么是多活容災

多活容災MSHA(Multi-Site High Availability)是在阿里巴巴電商業務環境演進出來的多活容災商業化產品,是應用高可用服務AHAS的核心模塊,為客戶提供容災架構建設能力。橫向支持容災架構的上線、運維、演練、切流,升級到下線。縱向支持業務流量的全鏈路管理,從流量接入到服務化調用再到異步化消息,最終完成數據落庫。

什么是多活

多活是指分布在多個站點同時對外提供服務。與傳統的災備的最主要區別就是多活里的所有站點同時對外提供服務,不僅解決了容災本身問題,還提升了業務連續性,實現了容量的擴展。

多活容災解決的問題

災備容災建立在數據級容災的基礎上,常用的實現方式是在備機房構建一套相同的應用系統,災難發生時會在約定時間范圍內恢復運行,盡可能減少災難帶來的損失。實際的災備系統落地效果,存在以下幾個問題:

  • 災備中心平時不提供服務,關鍵時刻無法確定切換到災備中心是否可以切換成功;

  • 災備中心平時不提供服務,整個災備資源處于閑置狀態,成本浪費比較嚴重;

  • 災備中心平時不提供服務,所以平時提供服務的數據中心還停留在單地域,當業務體量大到一定程度時,這種模式無法解決單地域資源瓶頸的問題;

為了應對傳統災備容災的問題,我們需要實踐多活容災,整體上能獲得以下架構優勢:

  • 分鐘級RTO:恢復時間快,阿里內部生產級別恢復時間平均在 30s 以內,外部客戶生產系統恢復時間平均在 1 分鐘。

  • 資源充分利用:資源不存在閑置的問題,多機房多資源充分利用,避免資源浪費。

  • 切換成功率高:依托于成熟的多活技術架構和可視化運維平臺,相較于現有容災架構,切換成功率高, 阿里內部年切流數千次的成功率高達 99.9%以上。

  • 流量精準控制:多活容災支持流量自頂到底封閉,依托精準引流能力將特定業務流量打入對應機房,企業可基于此優勢能力孵化全域灰度、重點流量保障等特性。

容災系統評價指標

容災系統主要為了在災難發生時業務不發生中斷,那么當災難發生時,用戶最關心的是什么呢?以下是國際通用的容災系統的評審標準Share 78,可以作為廣大用戶衡量和選擇容災解決方案的指標。以下是備份/恢復的范圍:

  • 災難恢復計劃的狀態

  • 在應用中心與備份中心之間的距離

  • 應用中心與備份中心之間是如何相互連接的

  • 數據是怎樣在兩個中心之間傳送的

  • 有多少數據被丟失

  • 怎樣保證更新的數據在備份中心被更新

  • 備份中心可以開始備份工作的能力

因此,容災系統的設計,主要也是圍繞這幾個用戶需求。由于用戶投入資金的數量限制,想用少的資金達到第6級容災級別顯然是有難度的,我們設計出的系統也只能是在現有的條件下盡量減少故障歷時,盡量多的恢復數據,這也是衡量我們所設計出來的容災系統質量的指標。實際的容災系統設計過程中,我們重點關注的是RTO和RPO兩個指標。

  • RPO(Recovery Point Objective)

即數據恢復點目標,以時間為單位,即在災難發生時,系統和數據必須恢復的時間點要求。RPO標志系統能夠容忍的最大數據丟失量。系統容忍丟失的數據量越小,RPO的值越小。

  • RTO(Recovery Time Objective)

即恢復時間目標,以時間為單位,即在災難發生后,信息系統或業務功能從停止到必須恢復的時間要求。RTO標志系統能夠容忍的服務停止的最長時間。系統服務的緊迫性要求越高,RTO的值越小。

image

RPO針對的是數據丟失,而RTO針對的是服務丟失,RTO和RPO的確定必須在進行風險分析和業務影響分析后根據不同的業務需求確定。好的容災系統需要盡量滿足用戶的需求,但是容災系統的設計往往受多種條件的制約,如可用的技術、現網狀況、用戶意志、用戶業務等,但到目前為止,起決定性的因素,是容災建設的成本。

容災架構建設方法

根據對容災系統建設模型,容災系統建設過程分為分析、設計和實施三個階段。

image

下面分別對各個階段作出說明:

  1. 分析階段

在取得管理層的正式同意后,獲得人員和資源的保證。首先收集業務過程的信息、技術基礎架構的支撐環境、災難類型等方面的內容,然后進行業務影響分析和風險分析,確定由于中斷和預期災難可能造成的影響。分析的結果用以確定業務關鍵級別、業務恢復時間和可承受的數據損失程度。

  1. 設計階段

在本階段,結合以上的分析成果,以及企業對容災的投入規劃,制訂企業短期、長期范圍內的容災策略和目標,先定義初步的方案。再進一步結合各種因素進行分析,在候選的方案中剔除不合適的方案,將剩余的可用的方案提交給評估組,評估組經過充分詳細的評審,選擇最合適的容災方案。通過對業務進行分級,對核心業務和非核心業務建設不同的容災等級預期,我們建議對關基系統、等保3級等核心系統建設多活,而對一些非核心業務可以建設災備或僅做數據容災。

  1. 實施階段

根據選擇的容災方案,整合企業相關資源,確定容災的體系架構和災難恢復計劃,通過技術手段和服務以達到所要求的容災目標。任何制訂的計劃,都必須經過不斷的測試和修正,才能滿足企業不斷發展的需求。同時,通過培訓、測試過程,也能夠使企業內部人員熟悉自己在容災流程中所扮演的角色,保證在災難真正發生的時刻能夠有條不紊地執行恢復流程。測試的過程可以分為局部驗證和演習兩種方式。隨著商業需求、新技術的不斷升級以及新的內部和外部規則的變化,IT系統也會隨之改變。要確保災難恢復計劃的有效性,必須定期檢查和修改計劃。

容災架構保鮮

多活容災旨在給出一套幫助業務應對未來潛在災難場景下的解決方案。但業務會持續發展,架構也會不斷演進,容災治理始終解決的是發展中問題。因此容災治理不僅要持續建設更高階的容災架構技術,還需要增強“基礎設施”、“業務系統”、“保障工具”、“生產制度”和“應急人員”之間的協同。唯有時刻追求能力保鮮,才能立足于日新月異的復雜環境。

容災演練作為一種管理型技術手段,可以幫助業務度量容災能力,暴露潛在風險短板。演練按照演練目的可以分為三個類型,即:沙盤推演、模擬演練及實際業務接管演練。業務接管演練還會配合一些生產故障演練,雖然會對線上引入一定影響,但是演練效果往往更加真實。容災演練一般會經歷下面四個階段的演進:

  1. 階段一,可控的暴露問題

圍繞“基礎設施”和“業務系統”提前梳理出影響可用率的風險因子,確定風險因子具體影響大小、是否可自愈、是否為跌零因子,此階段需要通過生產小規模的生產實驗來探索和驗證。

  1. 階段二,可靠的收斂問題

通過階段一的驗證,已經可以初步得出有效的跌零因子,同時也暴露出一些問題和風險。接下來需要繼續堅持把已知的風險進行收斂,并常態保鮮演練。本階段通常以演練成功率作為驅動指標。

  1. 階段三,可信的量化問題

經過階段二,“基礎設施”和“業務系統”已經初步具備確定性。這時候需要開始關注“保障工具”、“生產制度”、“應急人員”這三個動態因素對整體結果帶來的影響。這一階段可以采用類似攻防對抗、突襲的方式來驅動,逐漸建立度量體系,完成度量指標的梳理和數據化沉淀。

  1. 階段四,可能的挖掘問題

通過階段三的積累,已經掌握了一定的結構化的數據,此時可以借助智能化的方案,挖掘出一些隱藏的、潛在的弱點和風險。