業(yè)務連續(xù)性基線
業(yè)務連續(xù)性側重強調(diào)在長期的云上運營過程中保證業(yè)務不中斷。業(yè)務中斷是IT運維中較常見的事故,與數(shù)據(jù)泄露等風險不同,業(yè)務中斷并不存在僥幸。一旦發(fā)生業(yè)務中斷企業(yè)將即刻面臨實際的業(yè)務損失,業(yè)務恢復所耽誤的時間越長損失就會越大。且伴隨著停機造成的直接盈利損失,還有客戶信心流失、信譽損傷、名譽損傷,甚至影響更廣泛的商業(yè)合作的達成。
企業(yè)應在重要業(yè)務上云之前優(yōu)先制定能保障業(yè)務連續(xù)性的合規(guī)治理基線,確保重要業(yè)務上云之后不會因誤操作、防護不足、負載激增等導致業(yè)務中斷,同時也要確保真有中斷發(fā)生的時候能快速恢復,盡可能減少因業(yè)務中斷所造成的損失。
應對的風險
企業(yè)應考慮以下風險可能影響業(yè)務連續(xù)性:
不連續(xù)的資源管理風險。無人為操作,因業(yè)務依賴的IT資源欠費導致的資源自動釋放,致使業(yè)務中斷。
誤操作風險。運維人員錯誤的大量刪除IT資源,致使業(yè)務中斷。
突增的負載。大多數(shù)互聯(lián)網(wǎng)業(yè)務普遍存在所謂“高峰期”,對高峰期預判不足,可能導致因負載過量而業(yè)務中斷。
超長的恢復時間。當業(yè)務中斷真實發(fā)生時,如果沒有預設備份機制和快速的災后恢復機制,會導致業(yè)務中斷的時間數(shù)倍延長,這期間的業(yè)務損失是幾何倍的增長。
治理基線
企業(yè)應根據(jù)實際業(yè)務性質決定采用的治理策略,尤其是對公網(wǎng)防護能力、備份恢復能力、彈性能力的選擇,這些將帶來較大的成本。以下提供較通用的基線策略,可以作為參考:
根據(jù)IT所承載的實際業(yè)務,對IT資源進行關鍵性分級,對于承載關鍵業(yè)務、會影響重要客戶或大量客戶、業(yè)務本身需要較高穩(wěn)定性SLA的IT資源進行標記。并對不同關鍵性層級的IT資源區(qū)分采取不同的治理策略。
對于關鍵性的IT資源應開啟自動續(xù)費并確保賬號中有足夠的余額,或設置資源到期提前提醒及時續(xù)費,避免因欠費而停機中斷。
在全局保證最小人群具備刪除資源的權限,避免權限泛濫提升誤操作的概率。
刪除資源等影響業(yè)務連續(xù)性的關鍵操作應要求必須開啟MFA認證,執(zhí)行高危操作時增加多元認證確認。
為關鍵性較高的計算、網(wǎng)絡、存儲、數(shù)據(jù)庫資源開啟釋放保護,避免來自自動腳本的誤刪除。
為面向公網(wǎng)的IP啟用DDoS高防,清洗流量型和資源耗盡型DDoS攻擊,隱藏被保護的源站服務器。
為業(yè)務開啟云防火墻,管理互聯(lián)網(wǎng)到業(yè)務的訪問控制策略(南北向)和業(yè)務與業(yè)務之間的微隔離策略(東西向),進行流量監(jiān)控、精準訪問控制、實時入侵防御。
為應用開啟防火墻防護外部訪問風險,防御各類OWASP常見Web攻擊并過濾海量惡意CC攻擊,避免網(wǎng)站資產(chǎn)數(shù)據(jù)泄露。
實時監(jiān)控關鍵性IT資源的負載,計算、網(wǎng)絡等核心資源的負載應始終保持在80%以下,避免因負載過重導致業(yè)務中斷。
采用彈性擴容縮容的運維方案,在業(yè)務高峰期快速擴容確保穩(wěn)定性。
為每個業(yè)務制定明確的RTO和RPO,采取能滿足容災要求的備份機制和恢復機制。
對核心業(yè)務的數(shù)據(jù)平臺制定高頻率備份和多區(qū)域復制
為關鍵性業(yè)務虛機啟用熱備份和高可用模式
企業(yè)應根據(jù)業(yè)務的發(fā)展不斷升級與加固穩(wěn)定性防護和災備機制,同時迭代相應的治理框架。