日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

網絡智能運維設計

更新時間:

概述

本文簡介

隨著數字化轉型的深入,企業越來越依賴云計算技術來支撐業務運營。云上網絡運維對于確保云平臺高效、安全運行至關重要,不僅關乎數據的安全傳輸,還直接影響服務的可用性。

與傳統IT架構相比,云環境下的網絡和產品功能更為復雜、抽象程度更高。面對龐大的參數配置空間和不可見的底層實現,傳統的依靠人工經驗的方法已難以勝任,必須采用先進的自動化工具輔助決策。因此,構建全面的云上網絡智能運維體系變得尤為重要。利用這個體系能夠及時識別和解決潛在的問題,保障業務連續性與穩定性。

在運維實踐中,我們的目標是實現問題的迅速定位與解決、預防潛在故障的發生以及構建和優化網絡架構與性能。為此,我們推薦采取以下方法:

  1. 告警:通過部署云監控系統來實時感知系統的運行狀態,并在檢測到異常時立即觸發告警通知。這有助于快速感知和響應問題,減少服務中斷時間。

  2. 巡檢:定期執行全面的網絡巡檢,以識別并修復可能存在的隱患或風險點。這種方法可以有效避免引發重大事故的隱患。

  3. 觀測:基于流量數據和智能運維(AIOps)系統對網絡環境實施持續性的觀察。通過對關鍵指標進行跟蹤分析,不僅可以發現趨勢性變化從而提前做好規劃準備,同時也能針對現有架構提出改進建議,進一步提升網絡的穩定性與性能。

本文關鍵詞

  • NIS:網絡智能服務 NIS(Network Intelligence Service)是一系列云上網絡AIOps工具集,提供了云上網絡從網絡規劃到網絡運維全生命周期。包括流量分析、網絡巡檢、網絡性能監控、網絡診斷、路徑分析、網絡拓撲等功能,幫助用戶優化網絡架構、提升網絡運維效率、降低網絡運營成本。

  • 云監控:云監控(CloudMonitor)是一項針對阿里云資源和互聯網應用進行監控的服務。

  • VPC:專有網絡VPC(Virtual Private Cloud)是用戶基于阿里云創建的自定義私有網絡, 不同的專有網絡之間二層邏輯隔離,用戶可以在自己創建的專有網絡內創建和管理云產品實例,比如ECS、SLB、RDS等。

  • EIP:彈性公網 IP(Elastic IP Address)是可以獨立購買和持有的公網IP地址資源。

  • NATNAT網關(NAT Gateway)可以提供網絡地址轉換服務。

  • ALB:應用型負載均衡ALB(Application Load Balancer)是阿里云推出的專門面向HTTP、HTTPS和QUIC等應用層負載場景的負載均衡服務,具備超強彈性及大規模應用層流量處理能力。ALB具備處理復雜業務路由的能力,與云原生相關服務深度集成,是阿里云官方提供的云原生Ingress網關。

  • NLB網絡型負載均衡NLB(Network Load Balancer )是阿里云面向萬物互聯時代推出的新一代四層負載均衡,支持超高性能和自動彈性能力,單實例可以達到1億并發連接,幫您輕松應對高并發業務。

  • CLB:傳統型負載均衡CLB(Classic Load Balancer)是將訪問流量根據轉發策略分發到后端多臺云服務器的流量分發控制服務。CLB擴展了應用的服務能力,增強了應用的可用性。

  • 云企業網:云企業網CEN(Cloud Enterprise Network)是運行在阿里云私有全球網絡上的一張高可用網絡。云企業網通過轉發路由器TR(Transit Router)幫助您在跨地域專有網絡之間,專有網絡與本地數據中心間搭建私網通信通道,為您打造一張靈活、可靠、大規模的企業級云上網絡。

  • VPN網關:VPN 網關(VPN Gateway)是一款提供網絡連接服務的產品,通過建立加密隧道的方式實現企業本地數據中心、企業辦公網絡、互聯網客戶端與阿里云之間安全可靠的網絡連接。

  • 物理專線:物理專線是通過物理電纜或光纖連接不同機房的物理線路連接,通常由運營商提供和維護。根據不同的交付形態,連接阿里云專線接入點機房的物理專線分為獨享物理專線和共享物理專線。

  • 高速通道:高速通道(Express Connect)是一款連接企業數據中心與阿里云的網絡服務,可在企業數據中心與云上網絡之間建立高速、穩定、安全的私網通信通道。高速通道的數據傳輸過程可信可控,能有效提高網絡通信的質量及安全性。

  • VBR:阿里云基于軟件自定義網絡SDN架構下的三層Overlay技術和交換機虛擬化技術,將物理專線的接入端口隔離起來,并抽象成邊界路由器VBR(Virtual border router)VBR是CPE(Customer-premises equipment)設備和專有網絡VPC之間的一個路由器,作為數據從VPC到本地數據中心IDC的轉發橋梁。

設計原則

在本篇網絡卓越架構設計中,我們建議遵循以下原則

告警驅動的運維響應機制

  1. 事件訂閱機制:對影響業務的時間設置訂閱并制定告警機制。此步驟有助于第一時間發現系統異常、性能問題或安全威脅。

  2. 嚴重告警即時響應流程:制定嚴格的應急響應計劃,特別是對于標記為“嚴重”的告警,需要有明確的預案,并指定專人負責協調處理,直到問題完全解決。

  3. 定期查看事件中心:設定固定的周期性檢查計劃,用于審查事件中心中的歷史記錄。通過對這些數據的分析,可以提前識別出趨勢性問題或慢性隱患,采取預防性措施防止服務中斷。

巡檢為核心的隱患排查機制

建議實施定期的網絡巡檢,依據巡檢報告,全面識別并解決隱患和潛在風險。通過構建系統化的網絡運維管理體系,主動監控網絡狀態,迅速應對可能影響網絡穩定性和安全性的因素。

觀測導向的網絡優化機制

  • 保持流量分析功能的啟用狀態,基于吞吐、丟包、時延、用戶分布等數據對網絡流量進行不間斷監控和深入分析,有利于運維人員基于流量情況對業務架構做優化。

  • 使用拓撲生成工具幫助運維人員了解網絡的實時狀態,優化網絡結構。

  • 使用網絡洞察儀,以達到對公網環境和問題的精準把握,從而實現公網的優化管理。

設計關鍵點

依靠“告警”感知和定位問題

掌握告警能力

系統事件告警

系統事件:系統事件匯集了各類云產品的故障和運維事件。通過訂閱系統事件,您可以在事件發生時及時收到通知或觸發外部系統。您需要設置系統事件的訂閱范圍,包括:產品、事件類型、事件名稱、事件等級、應用分組、事件內容和事件資源。

我們建議基于云監控系統事件的告警能力,開啟云監控的網絡模塊的所有“系統事件”。依據阿里云所設定的系統事件框架,用戶能夠接收到并監控關鍵性的警報通知。通過這一機制,可以確保對重要信息的及時關注與響應,從而有效提升系統的穩定性和安全性。

云監控支持的系統事件請參考支持的云產品及其系統事件。

網絡系統事件分類:

  1. 帶寬和性能限制

  • 超限事件:包括私網帶寬、公網帶寬、ALB、CLB、NLB等各類負載均衡器的帶寬和連接數超限。

  • 丟包:由于帶寬超限導致的丟包事件,涉及ALB、CLB、VPC、NAT等。

  • QPS和請求限制:ALB的QPS超限導致503錯誤碼。

  1. 連接管理和會話控制

  • 會話超限和連接丟失:ALB、CLB的會話超限導致新建連接丟失,NLB新建連接突增等。

  • 失敗連接情況:CLB、NLB的失敗連接數驟增。

  1. 路由和網絡穩定性

  • 路由超限:CEN路由數量、BGP動態路由數量等超限。

  • 網絡波動:CEN網絡抖動、VPC私網抖動等情況。

  • 鏈路故障:EC專線鏈路故障、BGP連接故障等。

  1. VPN和IPSEC相關

  • 帶寬和連接問題:VPN帶寬超限、IPSec連接協商結果等。

  • 健康檢查:VPN和IPSec的健康檢查成功或失敗。

  1. 終端節點和連接管理

  • 終端節點操作:包括終端節點連接的接受、拒絕、增加和刪除等事件。

  1. 證書問題

  • 證書和安全問題:負載均衡證書到期提醒,VPN相關證書到期等。

業務告警

閾值事件:當閾值報警規則滿足報警條件時,會同時觸發云監控的閾值事件,通過訂閱閾值事件,您可以對報警通知進行細粒度的控制和定制化,例如:合并降噪、自定義通知方式等。您需要設置閾值事件的訂閱范圍,包括:產品分類、監控指標、嚴重等級和應用分組。

我們建議基于云監控中的監控指標,對業務關鍵性能指標進行精細化的報警規則與閾值設定,基于報警規則設定相關閾值事件告警。結合趨勢分析、異常檢測的手段,能夠及時準確地捕捉到潛在問題或異常波動,從而為運維團隊提供強有力的支持,確保服務穩定性和用戶體驗。

云監控支持的監控指標請參考附錄1 云產品監控指標。

訂閱告警通知

通知設置取值如下:按照報警級別劃分為:嚴重(Critical)、警告(Warn)、信息(Info)和恢復。

針對不同級別的告警信息,我們建議配置與之對應的通知機制。對于被歸類為“嚴重”且直接影響業務連續性的告警,推薦采用電話告警作為首要通知手段,并立即響應與處理。對于那些雖然觸發了告警但并未對日常運營造成實質性影響的情況,則建議設立每日固定時間窗口進行統一審查及后續管理。這樣既能確保關鍵問題得到及時解決,又能有效避免資源浪費于非緊急事項上。

管理通知模板請參考管理通知模板。

系統事件告警

創建云監控系統事件的訂閱:可以通過云監控控制臺>事件中心>事件訂閱,創建“系統事件”訂閱。

業務告警
  1. 基于業務創建告警規則

    當需要監控各云產品資源的使用情況時,可以創建報警規則。如果資源的監控指標達到報警條件,云監控自動發送報警通知,幫助客戶及時得知異常監控數據,并快速處理。

    基于云監控的監控指標,用戶可以基于自身的業務指標創建告警事件??梢酝ㄟ^云監控控制臺>報警服務>報警規則,創建“報警規則”。

  2. 創建云監控閾值事件的訂閱

    可以通過云監控事件訂閱,對報警通知進行定制化處理。在本指南中,通過訂閱閾值事件、對報警進行合并降噪、升級報警聯系組、自定義報警通知方式、將報警按照數據模板(JSON格式)推送至目標渠道。

    可以通過云監控控制臺>事件中心>事件訂閱,創建“閾值事件”訂閱。

告警處理

系統事件告警

在云監控平臺中發生的事件,用戶可通過訪問控制臺內的“事件中心”模塊下的“通知歷史”子項,來查看系統事件相關的通知記錄。運維人員能夠依據事件中心提供的詳細信息及建議采取相應的行動措施,從而有效地管理和解決潛在問題。

對于標記為嚴重級別的事件通知,應立即啟動緊急處理流程,確??焖夙憫詼p輕任何可能的影響。而對于日常運營過程中遇到的一般性事件,則推薦運維人員每日定期檢查“事件中心”,以此作為例行維護的一部分,確保系統的穩定運行與高效性能。

業務告警

為了確保業務的高效運作,可以通過訪問云監控控制臺中的“事件中心”模塊下的“通知歷史”子項,依據自定義規則查看業務告警。

建議基于業務訴求,設計滿足預設條件時觸發函數計算服務(FC)或者執行自動化腳本來自動處理問題,或定期管理事件中心內的記錄。這樣不僅能夠提高問題解決的速度,還能通過自動化能力來優化資源使用情況。

依靠“巡檢”挖掘和消除隱患

掌握巡檢能力

  1. 穩定性風險

    在高可用性架構設計中,如果主備配置存在缺陷,則可能導致故障切換機制失效,進而影響系統的連續性和穩定性。此外,資源部署策略不當會擴大故障的影響范圍,即所謂的“爆炸半徑”增大,這意味著一旦發生問題,受影響的服務或組件數量將顯著增加,從而對整體業務造成更大的沖擊。

    因此,基于巡檢優化資源配置方案、確保主備切換邏輯的正確實現是提高系統容錯能力和降低潛在風險的關鍵措施。

  2. 安全性風險

    ACL的策略可能未能精確匹配實際需求,導致非授權訪問或流量過濾不充分的問題。安全組規則定義的過于寬泛,為不必要的端口和服務開放了過多權限,違反了最小權限原則(Principle of Least Privilege, PoLP),增加了遭受惡意攻擊的風險。

    巡檢對現有ACL、安全組規則進行細致審查,確保僅允許必要的通信路徑,從而提高整體網絡安全水平。

  3. 性能風險

    在性能上,可能由于網絡性能問題或繞行現象,從而引起了額外的傳輸延遲。也可能出現流量頻繁超出設計容量上限,造成流量丟包的問題。

    建議使用巡檢對網絡時延進行監控,并基于巡檢報告對告警資源進行擴容處理,以滿足日益增長的數據傳輸需求,并確保服務質量(QoS)達到預期標準。

  4. 成本浪費

    成本面臨的主要問題在于資源利用效率低下,導致了不必要的資源浪費;多樣化的計費模式,在選擇上可能存在不當之處,這不僅影響了成本效益比,也可能對整體財務規劃造成不利影響。

    可以通過巡檢優化資源配置策略來提升利用率,并且基于詳細的成本效益分析,合理選取最適宜的計費方案,以達到控制開支、提高投資回報率的目的。

網絡巡檢項請參考網絡巡檢。

執行巡檢

建議定期(如每周)執行網絡巡檢生成報告,以便及時掌握現網運行狀態,精準定位并分析網絡資源利用中存在的潛在問題或異常情況。通過持續監控與評估,可以有效提升網絡架構穩定性,降低成本,確保業務連續性不受影響。

通過NIS控制臺 >網絡巡檢 >查看歷史報告 >重新發起巡檢,查看每周的網絡巡檢報告。

  1. 基于評分評估網絡整體狀況:通過分析巡檢通過率,對整個網絡的健康狀況進行綜合評價。這種方法能夠提供一個直觀且量化的視角,幫助運維團隊快速識別網絡性能的整體水平及其潛在問題區域。

  2. 按風險等級逐級審查:按照優先級順序,從高風險到低風險依次審閱各項指標。根據巡檢報告中提供的專業建議,針對不同級別的風險點采取相應的優化措施。此過程不僅有助于及時處理可能影響系統穩定性的嚴重隱患,同時也為持續改進網絡環境提供了明確的方向與路徑。

隱患處理

隱患處理舉例:

  1. 成本控制項

    • EIP: 基于閑置EIP檢查,釋放資源的空余造成的浪費。

    • CEN: 根據實際流量調整跨地域帶寬,確保不會過度預置資源。

  2. 穩定性提升

    • 超限風險:網絡帶寬水位超限風險、其他規格超限風險。

    • AZ級單點故障隱患:ALB、NLB、TR單可用區部署造成的穩定性風險。

    • 鏈路級單點故障隱患:高速通道單專線、全球加速單可用區、VPN單隧道等風險。

    • 業務不可用風險:業務異常風險。

依靠“觀測”做網絡全局優化

掌握觀測能力

  1. 拓撲生成 – 可視化方式查看網絡全貌

    網絡拓撲圖可以清晰地展示網絡中資源的連接和關系,可視化網絡結構,幫助客戶快速了解的云上網絡架構,進行網絡配置驗證、網絡問題排查和云網絡資源統一運維。

    拓撲

    可展示的信息

    VPC

    資源:ECS、交換機、路由器等

    路由:VPC內、外相關網元及其路由表

    CEN

    全球TR、TR連接的VPC、TR間互聯等

    SLB

    SLB的可用區、VIP、EIP、安全組等

  2. 流量分析 – 多維度查看流量排序

    流量分析可以監控網絡中的實時流量以及追溯歷史流量。流量分析還可以根據分析結果在控制臺生成可視化的時序曲線圖。可以根據流量數據或者流量監控指標排查并解決問題。

    • 公網流量分析:根據綁定公網IP的實例類型分析地域內例如傳統型負載均衡CLB(Classic Load Balancer)的公網IP的流量、云服務器 ECS(Elastic Compute Service)實例的公網IP的流量、公網NAT網關的公網IP的流量、彈性公網IP(Elastic IP Address,簡稱EIP)的流量以及在同一個共享帶寬包中EIP的流量。

    • 混合云流量分析:分析轉發路由器 TR(TransitRouter)連接邊界路由器VBR(Virtual Border Router)時,混合云場景下流經VBR出入方向的流量。

    • 跨域流量分析:分析不同地域間流經TR出入方向的跨域流量,并能夠以一元組、二元組、五元組展示。

    • 同域流量分析:分析TR連接專有網絡 VPC(Virtual Private Cloud)時,同地域跨VPC場景下流經TR出入方向的流量。

    • 網元流量分析:在網絡智能服務管理控制臺的概覽頁面,支持分析公網NAT網關的流量數據,且可以在控制臺生成可視化的時序曲線圖。

  3. 公網質量 – 運營商網絡質量下降帶來的影響

    • 運營商公網質量(RTT、重傳率)下降感知

    • 運營商公網質量下降事件(哪個時間段、哪個運營商、哪個區域、多大流量)感知

    • 公網質量下降影響的公網IP感知

按需觀測

  1. 網絡拓撲

    NIS控制臺中,通過訪問“網絡拓撲”模塊,您可以選定特定的網絡實例,并啟動拓撲生成流程。此過程支持拓撲下鉆功能,以獲取網絡不同層級信息。利用這一功能,能夠促進對當前網絡資源配置狀態的全面理解與可視化呈現,還便于進行網絡管理和運維。

    1. VPC拓撲:專有網絡拓撲包括資源拓撲與路由拓撲,為您展示專有網絡VPC下各類資源之間的關聯關系與路由轉發路徑,并支持查看相關網絡實例的基本信息,進行實例診斷,路徑分析等操作。

    2. CEN拓撲:云企業網拓撲基于實時配置,為您展示云企業網上各個轉發路由器已建立的同地域和跨地域連接情況,可視化云企業網構建起的全球資源在云間的連接關系,并支持查看相關網絡實例的基本信息。幫助您更直觀地了解和管理云上組網。

    3. SLB拓撲:負載均衡拓撲為您展示負載均衡中具備綁定關系的監聽和后端服務器組的組網關系,并支持查看相關網絡實例的基本信息,進行實例診斷等操作,幫助您查看流量分發是否符合預期。

  2. 流量分析

    NIS控制臺中,通過訪問“流量分析”模塊,您可以監控網絡中的實時流量以及追溯歷史流量。使用流量分析功能,可以快速幫助您基于一元組(本端IP)、二元組(本端IP、對端IP)、五元組(本端IP、本端端口、協議、對端IP、對端端口)信息,分析TopN級別流量。

    使用流量分析之前,您需要分別開通公網流量分析,混合云流量分析、跨域流量分析和同域流量分析功能。

    • 公網流量分析功能是以地域或者公網IP粒度開通,如果選擇地域則開通該地域下全部公網IP。

    • 混合云流量分析功能是以TR下的VBR連接為粒度開通。

    • 跨域流量分析功能是以TR下的跨地域連接為粒度開通。

    • 同域流量分析功能是以TR下的專有網絡連接為粒度開通。

  3. 網絡洞察儀

    NIS控制臺中,通過訪問“網絡洞察儀”模塊,您可以使用洞察儀獲取實時公網質量評估數據,及時感知公網質量劣化,接收公網質量異常事件和影響面分析。

    您需要為洞察儀配置網絡監測對象,創建之后,等待約10分鐘,洞察儀將為您開啟資源流量采集并發布特定指標。點擊洞察儀名稱可查看網絡質量評分、公網質量事件、影響的公網IP等公網事件,幫助您感知公網質量,及時對業務做出調整。

分析優化

  1. 基于網絡拓撲的觀測做優化

    1. 網絡拓撲圖有助于全面分析網絡架構,涵蓋結構概述、路徑分析及資源分配狀況。

    2. 利用拓撲可高效識別潛在問題:

      • 冗余檢查:確保具備充足的冗余措施以避免單點故障。

      • 配置審核:審查設備配置是否遵循最佳實踐,并修正錯誤設置。

      • 安全檢查:檢查可能存在的安全風險,如非必要開放的端口和服務。

    3. 對于未充分利用或閑置資源,建議采取如下操作:

      • 資源回收:釋放不再需要的IP地址與端口。

      • 優化配置:優化資源配置,停用不必要服務。

  2. 基于流量分析做流量和業務優化

    1. 公網優化

      通過公網流量分析,可以精準地識別用戶群體的主要分布區域。在熱點地區部署業務服務,能夠顯著降低用戶的訪問延遲,提升用戶體驗。

      利用帶寬利用率、五元組統計(源IP、目的IP、源端口、目的端口及傳輸層協議)以及往返時間(RTT)等關鍵性能指標,持續監控當前公網網絡狀態。這些數據不僅有助于識別流量高峰期,還能為容量規劃和流量管理提供依據,確保在網絡高負載情況下仍能維持服務的高可用性和穩定性。

    2. 內網優化

      對于內部網絡環境下的流量優化,建議對大象流進行檢測(流量TOP N分析),即通過對流量排名前N位的數據流進行深入分析,以識別并解決異常流量使用情況。此方法有助于保障關鍵業務流量優先級,減少非關鍵任務對整體網絡性能的影響。定期檢查TCP重傳率也是評估內網丟包狀況及其對業務連續性潛在影響的有效手段之一。根據上述監測結果采取適當措施進行調整與優化,可進一步提高內網通信效率及可靠性。

  3. 基于網絡洞察儀定位公網問題

    基于網絡洞察儀,客戶可以實時洞察在【客戶端位置+運營商網絡】鏈路上的公網流量運行狀況,基于智能動態基線算法檢測客戶的公網流量是否發生性能下跌事件和公網可用性下跌事件,并提供詳細的事件分析,包括受影響流量分析和公網鏈路探測等,幫助進行異常排查??蛻粢部梢詫崟r使用公網流量來源地圖查看RTT和訪問流量信息,監測公網實時數據??梢曰谝陨闲畔?,客戶可以對公網進行實時調整,避免業務受損。

設計最佳實踐

基于上述設計理念,我們總結了網絡運維三步走的最佳實踐。

看告警,解問題

按“天”查看。嚴重告警要手機實時收取告警消息。

image

常巡檢,消隱患

按“周”運行。

image

多觀測,做優化

按“需”分析。

image

應用場景介紹

網絡運維告警場景

  • 通知風險和異常:如果發生了實例資源可用性或性能受損的事件,例如因實例超規格使用造成性能受損、因運營商鏈路丟包影響業務可用性、實例到期費用預警等,阿里云會將事件推送到NIS或云監控的事件中心進行展示,及時響應這些事件,避免因資源可用性或性能受損影響業務。

  • 實現自動化運維:在NIS事件中心的控制臺展示的事件均定義了事件狀態,方便區分相應系統運維任務的執行情況,而且事件產生及狀態變化時會上報至云監控,可以根據自身需要搭建事件驅動的自動化運維體系。

網絡運維巡檢場景

在搭建和維護大型網絡組網和資源時,由于短時間對云產品的了解有限,可能導致存在與最佳實踐有偏差的網絡配置情況,后續通過不斷的完善配置,將會產生大量的網絡資源實例,但由于人力難以支撐對網絡資源的配置和使用進行校驗和檢查,可以通過網絡巡檢能力對整體網絡架構和資源進行排查梳理,并為您提供網絡優化建議。

網絡運維觀測場景

  • 網絡拓撲結構分析:通過網絡拓撲功能對阿里云網絡架構進行全面解析,旨在識別并優化網絡節點間連接方式及其布局。網絡拓撲圖可以清晰地展示網絡中資源的連接和關系,可視化網絡結構,幫助您快速了解您的云上網絡架構,進行網絡配置驗證、網絡問題排查和云網絡資源統一運維。

  • 網絡流量監測與管理:為云上網絡的流量監控提供統一的平臺,方便客戶網絡運維管理人員進行統一化監控。流量分析可以監控網絡中的實時流量以及追溯歷史流量。

  • 公共互聯網質量評估:針對公共互聯網鏈路執行定期或持續性的質量測試,包括但不限于延遲(latency)、丟包率(packet loss rate)及抖動(jitter)等多項關鍵指標的測量與分析,以此來衡量外部接入服務的整體表現,并采取相應措施改善用戶體驗。