日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

設(shè)計(jì)方案

更新時(shí)間:

基于穩(wěn)定性支柱設(shè)計(jì)原則,整體穩(wěn)定性設(shè)計(jì)方案可參考如下:

(應(yīng)用上云規(guī)劃-應(yīng)用上云實(shí)施-圖5)  備份 2 2.jpg

架構(gòu)設(shè)計(jì)原則

軟件系統(tǒng)從所有的功能都在一個(gè)應(yīng)用程序內(nèi)運(yùn)行的單體應(yīng)用架構(gòu),到不同的功能模塊分別部署在不同的服務(wù)器上的傳統(tǒng)分布式應(yīng)用架構(gòu),再到服務(wù)細(xì)分通過輕量級(jí)的通信機(jī)制進(jìn)行互相調(diào)用的微服務(wù)架構(gòu),到現(xiàn)在將云計(jì)算、容器化、微服務(wù)架構(gòu)等技術(shù)結(jié)合起來的云原生架構(gòu)。在軟件系統(tǒng)架構(gòu)演進(jìn)中不變的是系統(tǒng)的基本屬性,包含存儲(chǔ)、計(jì)算和網(wǎng)絡(luò),變的是存儲(chǔ)、計(jì)算和網(wǎng)絡(luò)的實(shí)現(xiàn)方式和規(guī)模,往大規(guī)模、高性能、高可靠、易擴(kuò)展等方向迭代演進(jìn),所以對(duì)架構(gòu)穩(wěn)定性提出了更高的要求。

系統(tǒng)可預(yù)見的穩(wěn)定性風(fēng)險(xiǎn)包含軟硬件故障和不可預(yù)期的流量,小到線程級(jí)風(fēng)險(xiǎn),大到地域級(jí)災(zāi)難,從此出發(fā)可通過容災(zāi)、容錯(cuò)、容量三方面建立系統(tǒng)架構(gòu)穩(wěn)定性。

容災(zāi)

容災(zāi)就是在災(zāi)難發(fā)生時(shí),在保證生產(chǎn)系統(tǒng)的數(shù)據(jù)盡量少丟失的情況下,保持生存系統(tǒng)的業(yè)務(wù)不間斷地運(yùn)行。異地多活、同城雙活都屬于容災(zāi)的范疇。借助阿里云多區(qū)域(Region)及可用區(qū)(Availability Zone,簡稱AZ)能力,應(yīng)用可以用較小成本來完成容災(zāi)架構(gòu)部署。

容災(zāi)需要具備較為完善的數(shù)據(jù)保護(hù)與災(zāi)難恢復(fù)功能,保證生產(chǎn)中心不能正常工作時(shí)數(shù)據(jù)的完整性及業(yè)務(wù)的連續(xù)性,并在最短時(shí)間內(nèi)由災(zāi)備中心接替,恢復(fù)業(yè)務(wù)系統(tǒng)的正常運(yùn)行,將損失降到最小。

容錯(cuò)

容錯(cuò)是指在分布式系統(tǒng)中,系統(tǒng)出現(xiàn)故障時(shí),通過設(shè)計(jì)和實(shí)現(xiàn)可靠的機(jī)制和策略,使系統(tǒng)能夠自動(dòng)檢測、排除或者糾正錯(cuò)誤,保證系統(tǒng)能夠正常運(yùn)行,從而提高系統(tǒng)的可靠性和穩(wěn)定性。

容量

容量是在一定時(shí)間內(nèi),系統(tǒng)能夠處理的最大工作量或數(shù)據(jù)量,或指系統(tǒng)所能夠承載的最大負(fù)載。系統(tǒng)容量與系統(tǒng)的硬件、軟件、架構(gòu)以及網(wǎng)絡(luò)帶寬等因素密切相關(guān)。在云上,還需要關(guān)注單個(gè)阿里云賬號(hào)下的云服務(wù)配額,避免因觸及云服務(wù)配額限制導(dǎo)致的業(yè)務(wù)故障。

變更設(shè)計(jì)原則

在企業(yè)的運(yùn)維管理與運(yùn)行過程中,就會(huì)有變更產(chǎn)生。變更是指添加、修改或刪除任何可能對(duì)服務(wù)產(chǎn)生直接或間接影響的內(nèi)容。當(dāng)變更失敗時(shí)可能會(huì)帶來嚴(yán)重后果:業(yè)務(wù)中斷、客戶輿情等等一系列問題。為了降低變更帶來的業(yè)務(wù)風(fēng)險(xiǎn),需要遵循變更設(shè)計(jì)原則:可灰度、可監(jiān)控、可回滾。

可灰度

可灰度,需要建立起完整的灰度發(fā)布機(jī)制,完善的灰度機(jī)制有助于變更失敗時(shí)降低業(yè)務(wù)影響,提升用戶體驗(yàn)。

灰度發(fā)布機(jī)制包含但不限于以下幾點(diǎn):灰度方式、灰度批次、間隔時(shí)間、灰度觀測等?;叶劝l(fā)布需注意:

  1. 灰度間隔時(shí)間:合理設(shè)定灰度間隔時(shí)間,不宜過長。過長的灰度間隔時(shí)間可能導(dǎo)致下游應(yīng)用出現(xiàn)數(shù)據(jù)不一致等問題。

  2. 灰度發(fā)布方式:合理選擇灰度發(fā)布方式,可按用戶、按區(qū)域、按渠道等方式進(jìn)行灰度,避免出現(xiàn)灰度過程中用戶體驗(yàn)不一致的問題。

  3. 灰度發(fā)布批次:建議先小范圍的進(jìn)行灰度驗(yàn)證,再逐步擴(kuò)大灰度范圍。

  4. 灰度觀測指標(biāo):明確灰度期間的可觀測指標(biāo),用于判斷發(fā)布結(jié)果,避免造成連鎖反應(yīng)。

可回滾

大部分變更要做好應(yīng)急恢復(fù)手段,最常用的技術(shù)手段就是回滾。

理論上回滾永遠(yuǎn)是最合適最有效的方法,當(dāng)問題發(fā)生時(shí),保證業(yè)務(wù)連續(xù)運(yùn)行永遠(yuǎn)是第一要義。實(shí)際中可能存在其他解決方案,但后果無法預(yù)料,所以選擇回滾是最好方式。

在發(fā)布時(shí)建議多版本小更新,避免因變更版本跨度較大,帶來的系統(tǒng)依賴關(guān)系問題導(dǎo)致無法回滾。

可觀測

在變更過程中,會(huì)影響到現(xiàn)有環(huán)境以及上下游業(yè)務(wù),通過對(duì)業(yè)務(wù)、鏈路、資源等做到可觀測,就能夠第一時(shí)間發(fā)現(xiàn)問題。在觀測過程中,關(guān)注業(yè)務(wù)指標(biāo)(如下單成功率)和應(yīng)用指標(biāo)(如CPU、Load、異常數(shù)量等)。當(dāng)指標(biāo)較多時(shí),優(yōu)先關(guān)注高優(yōu)先級(jí)的業(yè)務(wù)指標(biāo),業(yè)務(wù)指標(biāo)能夠最直觀反映當(dāng)前系統(tǒng)狀況,當(dāng)業(yè)務(wù)指標(biāo)發(fā)生變化時(shí),往往應(yīng)用指標(biāo)也會(huì)有相應(yīng)的變化。

變更前需準(zhǔn)備好對(duì)應(yīng)的檢查清單。在變更期間,要做到持續(xù)觀察監(jiān)控?cái)?shù)據(jù),確定是否有負(fù)面影響或問題。在變更結(jié)束后,對(duì)變更前后的業(yè)務(wù)指標(biāo)進(jìn)行對(duì)比,沒有問題后才結(jié)束變更。

應(yīng)急響應(yīng)機(jī)制

應(yīng)急響應(yīng)機(jī)制的關(guān)鍵點(diǎn)在于事件發(fā)生后,有標(biāo)準(zhǔn)的操作流程和動(dòng)作。阿里巴巴在過去十幾年的安全生產(chǎn)過程中,沉淀了一套故障應(yīng)急響應(yīng)機(jī)制,簡稱應(yīng)急響應(yīng)1-5-10。是指在1分鐘內(nèi)發(fā)現(xiàn)故障,5分鐘內(nèi)組織相關(guān)人員進(jìn)行初步排查,10分鐘內(nèi)開展故障恢復(fù)和處理工作。企業(yè)在設(shè)計(jì)應(yīng)急響應(yīng)機(jī)制時(shí),可以參考該方式明確響應(yīng)期間的標(biāo)準(zhǔn)動(dòng)作和流程,確保在事件發(fā)生時(shí),相關(guān)干系人都能夠明確自身職責(zé)和所需要采取的措施。

故障發(fā)現(xiàn)

故障一旦發(fā)生,越早發(fā)現(xiàn)故障,能夠越早進(jìn)行響應(yīng)。建議通過以下途徑實(shí)現(xiàn)故障的快速發(fā)現(xiàn):

  • 統(tǒng)一告警:在發(fā)現(xiàn)故障后,需要將相關(guān)信息及時(shí)告知相關(guān)人員,包括系統(tǒng)管理員、運(yùn)維人員等??梢酝ㄟ^短信、郵件、釘釘?shù)确绞竭M(jìn)行告警,確保所有相關(guān)人員第一時(shí)間得知故障情況,以便快速組織應(yīng)急響應(yīng)。

  • 監(jiān)控大屏:監(jiān)控大屏是指將所有系統(tǒng)的運(yùn)行情況以圖形化的方式展示在屏幕上,以便實(shí)時(shí)監(jiān)控系統(tǒng)健康狀況。在發(fā)生故障時(shí),監(jiān)控大屏可以快速反應(yīng)故障情況,并提供相關(guān)數(shù)據(jù),為故障排查及處理提供依據(jù)。

  • 風(fēng)險(xiǎn)預(yù)測:風(fēng)險(xiǎn)預(yù)測是指在發(fā)生故障前,通過數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等方式,預(yù)測系統(tǒng)的風(fēng)險(xiǎn)情況,提前進(jìn)行預(yù)防和處理。在故障應(yīng)急響應(yīng)中,風(fēng)險(xiǎn)預(yù)測可以作為重要參考,幫助快速識(shí)別問題的根本原因,提高故障處理效率和精度。

故障響應(yīng)

在發(fā)現(xiàn)故障后,需要快速定位問題,通常有以下做法:

  • 組織協(xié)調(diào):故障發(fā)生后,需要迅速組織相關(guān)人員進(jìn)行應(yīng)急響應(yīng)。組織協(xié)調(diào)包括設(shè)置指揮中心、確定應(yīng)急響應(yīng)流程、分配任務(wù)等。這些工作的目的是提高應(yīng)急響應(yīng)的效率和準(zhǔn)確性,讓每個(gè)人都清楚自己的任務(wù)和責(zé)任,避免出現(xiàn)混亂和誤操作。

  • 告警關(guān)聯(lián)分析:在故障發(fā)生時(shí),系統(tǒng)會(huì)自動(dòng)產(chǎn)生告警信息。為了更好地定位故障原因,需要對(duì)各種告警信息進(jìn)行關(guān)聯(lián)分析。這樣可以快速確定故障的范圍和影響,并且能夠幫助排查故障的根本原因。告警關(guān)聯(lián)分析可以使用各種工具和算法,如事件關(guān)聯(lián)分析、機(jī)器學(xué)習(xí)等。

  • 知識(shí)圖譜:知識(shí)圖譜是指通過將各種數(shù)據(jù)和知識(shí)進(jìn)行關(guān)聯(lián)和組織,建立一種知識(shí)庫或知識(shí)圖譜,以便在故障發(fā)生時(shí)快速定位和解決問題。在應(yīng)急響應(yīng)中,知識(shí)圖譜可以指導(dǎo)故障排查和處理工作,提高效率和準(zhǔn)確性。知識(shí)圖譜可以使用各種工具和技術(shù),如自然語言處理、圖數(shù)據(jù)庫等。

故障恢復(fù)

定位故障原因后,按照應(yīng)急預(yù)案快速恢復(fù)業(yè)務(wù),并在事后進(jìn)行復(fù)盤總結(jié)。

  • 預(yù)案執(zhí)行:在故障響應(yīng)的過程中,需要按照事先制定的應(yīng)急預(yù)案進(jìn)行執(zhí)行。應(yīng)急預(yù)案包括了應(yīng)急響應(yīng)流程、各個(gè)崗位的職責(zé)、處理流程等。預(yù)案執(zhí)行能夠保證故障恢復(fù)和處理的規(guī)范化和標(biāo)準(zhǔn)化。

  • 故障自愈:故障自愈是指系統(tǒng)自動(dòng)檢測到故障并采取自動(dòng)恢復(fù)措施。故障自愈技術(shù)可以幫助故障恢復(fù)和處理更加快速和準(zhǔn)確。例如,利用容器技術(shù),系統(tǒng)可以自動(dòng)遷移容器來解決故障。

  • 故障復(fù)盤:故障復(fù)盤是指對(duì)故障進(jìn)行分析和總結(jié),以便更好地避免故障的再次發(fā)生。在故障復(fù)盤過程中,需要對(duì)故障的起因、影響、處理過程等進(jìn)行詳細(xì)的記錄和分析,并制定相關(guān)的措施。故障復(fù)盤也是一種學(xué)習(xí)和提高的過程,能夠不斷完善系統(tǒng)和提高團(tuán)隊(duì)的應(yīng)急響應(yīng)能力。

演練常態(tài)化

故障演練提供了一種端到端的測試?yán)砟钆c工具框架,本質(zhì)是通過主動(dòng)引入故障來充分驗(yàn)證軟件質(zhì)量的脆弱性。從提前發(fā)現(xiàn)系統(tǒng)風(fēng)險(xiǎn)、提升測試質(zhì)量、完善風(fēng)險(xiǎn)預(yù)案、加強(qiáng)監(jiān)控告警、提升故障應(yīng)急效率等方面做到故障發(fā)生前有效預(yù)防,故障發(fā)生時(shí)及時(shí)應(yīng)對(duì),故障恢復(fù)后回歸驗(yàn)證?;诠收媳旧泶蛟旆植际较到y(tǒng)韌性,持續(xù)提升軟件質(zhì)量,增強(qiáng)團(tuán)隊(duì)對(duì)軟件生產(chǎn)運(yùn)行的信心。故障演練可分為方案驗(yàn)證的容災(zāi)演練、穩(wěn)定性驗(yàn)收的紅藍(lán)攻防,以及故障應(yīng)急驗(yàn)證的突襲演練。

容災(zāi)演練

容災(zāi)演練是通過模擬實(shí)例、機(jī)房或地域級(jí)故障,判斷系統(tǒng)服務(wù)的逃逸能力,驗(yàn)證系統(tǒng)的容災(zāi)能力以及面對(duì)災(zāi)難時(shí)的應(yīng)對(duì)能力。容災(zāi)演練可以幫助企業(yè)更好的驗(yàn)證RPO、RTO指標(biāo),及時(shí)發(fā)現(xiàn)和解決相關(guān)問題,提高系統(tǒng)的可用性和可靠性。

紅藍(lán)攻防

紅藍(lán)攻防是在想定情況誘導(dǎo)下進(jìn)行的作戰(zhàn)指揮和行動(dòng)演練,是部隊(duì)在完成理論學(xué)習(xí)和基礎(chǔ)訓(xùn)練之后實(shí)施的,近似實(shí)戰(zhàn)的綜合性訓(xùn)練,是軍事訓(xùn)練的高級(jí)階段。演習(xí)通常分為紅軍,藍(lán)軍,多以紅軍守,藍(lán)軍進(jìn)攻為主。

紅藍(lán)攻防不僅能夠用于安全演練,在穩(wěn)定性演練中同樣適用。在穩(wěn)定性攻防中,藍(lán)軍從第三方角度發(fā)掘各類脆弱點(diǎn),并向業(yè)務(wù)所依賴的各種軟硬件注入故障,不斷驗(yàn)證業(yè)務(wù)系統(tǒng)的可靠性。而紅軍則需要按照預(yù)先定義的故障響應(yīng)和應(yīng)急流程進(jìn)行處置。在演練結(jié)束后,建議針對(duì)故障中的發(fā)現(xiàn)、響應(yīng)、恢復(fù)三個(gè)階段的時(shí)長和操作內(nèi)容進(jìn)行復(fù)盤,并梳理改進(jìn)點(diǎn)進(jìn)行優(yōu)化,提升業(yè)務(wù)系統(tǒng)的穩(wěn)定性。

突襲演練

突襲演練是一種手段以及目標(biāo)對(duì)紅軍不透明的組織形式。通過突襲演練可以全面檢驗(yàn)技術(shù)團(tuán)隊(duì)在面對(duì)突發(fā)故障時(shí)的應(yīng)急和恢復(fù)能力,提升人員的安全意識(shí)。在突襲演練中,紅藍(lán)雙方是純對(duì)抗的關(guān)系,因此對(duì)紅藍(lán)雙方提出了更高的要求,藍(lán)軍不僅需要了解目標(biāo)系統(tǒng)的薄弱點(diǎn),更需要了解目標(biāo)系統(tǒng)的業(yè)務(wù),紅軍不僅僅需要修復(fù)故障,還需要快速的發(fā)現(xiàn)故障和有效的應(yīng)急協(xié)同。相比較計(jì)劃演練,突襲演練涉及到的人員,場景,流程也會(huì)更加復(fù)雜,同時(shí)不但確保演練計(jì)劃的私密性,還需要充分評(píng)估在紅軍未及時(shí)處理故障時(shí)的影響面控制。