事件中心
網絡智能服務 NIS(Network Intelligence Service)事件中心提供主動告警能力,幫助您及時獲知風險,查看可能受影響的資源,避免業務受損。
應用場景
NIS事件由阿里云定義,用于記錄和通知云網絡資源的信息,例如運維任務執行情況、資源是否出現異常、資源狀態變化等。
通知風險和異常
如果發生了實例資源可用性或性能受損的事件,例如因實例超規格使用造成性能受損、因運營商鏈路丟包影響業務可用性、實例到期費用預警等,阿里云會將事件推送至NIS控制臺的事件中心進行展示,建議您及時響應這些事件,避免因資源可用性或性能受損影響業務。
實現自動化運維
在NIS控制臺展示的事件均定義了事件狀態,方便區分相應系統運維任務的執行情況,而且事件產生及狀態變化時會上報至云監控,方便您進一步根據自身需要搭建事件驅動的自動化運維體系。
使用限制
已停售的實例規格族不支持事件功能,更多信息,請參見各云服務的停售公告。
基本信息
事件類型
事件由阿里云定義,用于記錄和通知云網絡資源的信息。按照起因進行分類,事件可以分為:
類別 | 說明 | 舉例事件 |
問題事件 | 已經造成業務受損的異常事件,并且7天內狀態一直處于進行中的事件。 |
|
風險事件 | 可能造成業務受損的異常事件,并且7天內狀態一直處于進行中的事件。 |
|
事件等級
按照對實例正常運行的影響程度進行劃分,事件分為以下幾個等級:
嚴重:影響重大,需要盡快處理,否則可能導致實例無法使用。
警告:有一定影響,需要您在影響持續期間加以關注,或者選擇合適時間處理。
信息:您自行選擇是否關注即可。
關于事件Code、名稱、說明與處理建議等。具體信息,請參見事件匯總。
事件匯總
匯總NIS支持的事件,并為各事件提供處理建議。
問題事件不支持監控性能共享型CLB實例。
問題事件
事件code | 事件名稱 | 事件等級 | 云監控事件名稱 | 事件說明和影響 | 告警規則 | 用戶側處理建議 |
公網實例 | ||||||
problem-internetBandwidthOverlimit | 公網帶寬超限丟包 | 嚴重 | 實例帶寬超限丟包 | 公網實例的實際帶寬流量超出了當前帶寬規格,出現丟包情況。 其中公網實例指與公網流量相關的實例,如:彈性公網IP實例、帶寬包實例或傳統型負載均衡CLB實例等。 | 嚴重:最近10分鐘高頻觸發帶寬超限,產生丟包。 | 建議擴容,提升帶寬峰值。 |
公網NAT網關 | ||||||
problem-nat-sessionOverLimit | NAT會話超限丟棄連接 | 嚴重 | NAT會話超限丟棄連接 | 公網NAT網關會話數量超出規格,出現新建會話失敗情況,且丟包>100 packet/s。 | 嚴重:最近10分鐘高頻觸發并發會話數超限,且丟包>100 packet/s。 | 建議升配或拆分為多個公網NAT網關實例。具體操作,請參見管理NAT網關配額和創建和管理公網NAT網關實例。 |
problem-nat-sessionNewOverLimit | NAT新建會話超限丟棄連接 | 嚴重 | NAT新建會話超限丟棄連接 | 公網NAT網關新建會話速率超出規格,出現新建會話失敗情況,且丟包>100 packet/s。 | 嚴重:最近10分鐘高頻觸發新建會話數超限,且丟包>100 packet/s。 | |
problem-nat-portAllocationError | NAT源端口分配失敗 | 嚴重 | NAT源端口分配失敗 | 公網NAT網關實例配置的EIP個數過少,出現源端口分配失敗情況,且丟包>10 packet/s。 說明 該事件暫不支持設置訂閱。 | 嚴重:最近10分鐘高頻觸發源端口分配失敗現象,且丟包>10 packet/s。 | 建議增加綁定到公網NAT網關實例的EIP。具體操作,請參見創建和管理公網NAT網關實例。 |
problem-nat-datapathUnavailable | NAT數據鏈路不可用 | 嚴重 | NAT數據鏈路不可用 | NAT數據鏈路不可用。過去10分鐘,您的NAT網關可用性為0%,即所有流量受影響,您的NAT 網關資源無法正常工作,可能存在導致不可用的平臺事件,阿里云工程師正在緊急恢復中。 | 嚴重:最近10分鐘NAT網關可用性為0%。 | 如果您已經通過多NAT網關部署為業務獲得高可用性,建議進行NAT網關切換,具體操作,請參見通過多NAT網關部署為業務獲得高可用性;否則,建議您聯系阿里工程師獲取最新恢復進展。 |
problem-nat-datapathDegraded | NAT數據鏈路降級 | 嚴重 | NAT數據鏈路降級 | NAT數據鏈路降級。過去10分鐘,您的NAT網關可用性已低于80%,即20%以上流量受影響,您的NAT 網關資源無法正常工作,可能存在導致數據包丟棄的平臺事件,阿里云工程師正在緊急恢復中。 | 嚴重:最近10分鐘NAT網關可用性<80%,產生丟包。 | |
傳統型負載均衡CLB(Classic Load Balancer) | ||||||
problem-clb-connectionOverLimit | CLB會話超限新建連接丟失 | 嚴重 | CLB會話超限新建連接丟失 | CLB新建連接或并發連接數超出規格,出現新建會話失敗情況,丟棄連接速率較高。 | 嚴重:最近10分鐘高頻觸發并發會話數超限,產生丟包。 | 建議升配或更改為網絡型負載均衡 NLB(Network Load Balancer)或應用型負載均衡 ALB(Application Load Balancer)實例。 具體操作,請參見管理CLB配額。NLB和ALB的產品介紹,請參見什么是網絡型負載均衡NLB、什么是應用型負載均衡ALB。 |
problem-clb-bandwidthOverLimit | CLB帶寬規格超限丟包 | 嚴重 | CLB帶寬規格超限丟包 | CLB實際流量超出帶寬規格,出現丟包情況。 | 嚴重:最近10分鐘高頻觸發帶寬規格超限,且丟包量>100 bps。 | 建議擴容。具體操作,請參見調整性能保障型實例的規格。 |
problem-clb-connectionFail | CLB失敗連接數驟增 | 嚴重 | CLB失敗連接數驟增 | CLB因為(后端服務器規格超限/負載過高/業務異常),出現失敗連接突增情況。 | 嚴重:最近10分鐘CLB新建連接失敗數驟增,滿足以下全部條件后觸發告警: 條件一:失敗連接數>100/s; 條件二:失敗連接數相較上個10分鐘窗口環比上升30%; 條件三:通過AI學習歷史失敗連接數平穩基線范圍,10分鐘里連續存在突破智能基線上限>30%。 | 視原因建議(升配后端服務器規格/升配CLB規格/檢查后端業務狀態)。 |
NLB | ||||||
problem-nlb-connectionFail | NLB失敗連接數驟增 | 嚴重 | NLB失敗連接數驟增 | NLB實例的VIP(Virtual IP address)已經連續十分鐘出現失敗連接數突增現象,可能存在以下原因:
| 嚴重:NLB實例失敗連接數同時滿足以下條件觸發告警。 條件一:在持續610秒的監控窗口內,連續3分鐘失敗連接數突破智能預測基線上邊界比例>100%; 條件二:在持續610秒的監控窗口內,連續7分鐘失敗連接數環比上個小時上升≥50%; 條件三:在持續610秒的監控窗口內,連續8分鐘失敗連接數≥1000。 | 建議檢查后端服務器水位或業務狀態是否異常。 具體操作,請參見NLB實例診斷。 |
problem-nlb-newConnectionSurge | NLB新建連接丟棄 | 嚴重 | NLB新建連接丟棄 | NLB實例的VIP因為新建連接數驟增,連續出現(毫秒/秒級)新建連接請求丟棄現象。 | 嚴重:NLB實例的連接數同時滿足以下條件觸發告警。 條件一:VIP每秒丟棄連接數,在10分鐘里超過8個點>0; 條件二:VIP每秒新建連接數,在10分鐘里超過8個點<200000。 |
建議拆分多個NLB實例,將流量分配到不同的NLB實例或聯系客戶經理單獨報備。 |
problem-nlb-newConnectionOverLimit | NLB新建連接超限 | 嚴重 | NLB新建連接超限 | NLB實例的VIP新建連接已經超出NLB單個VIP自動彈性上限,連續出現新建連接請求丟棄現象。 | 嚴重:NLB實例的連接數同時滿足以下條件觸發告警。 條件一:VIP每秒丟棄連接數,在10分鐘里超過8個點>0; 條件二:VIP每秒新建連接數,在10分鐘里超過8個點≥200000。 | |
problem-nlb-concurrentConnectionOverLimit | NLB并發連接超限 | 嚴重 | NLB并發連接超限 | NLB實例的VIP并發連接數已經超出NLB單個VIP自動彈性上限,連續出現新建連接請求丟棄現象。 | 嚴重:NLB實例的連接數同時滿足以下條件觸發告警。 條件一:VIP每秒丟棄連接數,在10分鐘里超過8個點>0; 條件二:VIP最大并發連接數,在10分鐘里超過8個點>5000000。 | |
ALB | ||||||
problem-alb-intranetBandwidthOverLimit | ALB私網帶寬超限產生丟包 | 嚴重 | ALB私網帶寬超限產生丟包 | ALB實例的VIP地址上出方向或入方向帶寬達到上限,ALB域名解析的單一VIP有帶寬限額。 | 嚴重:ALB實例丟棄流量,在10分鐘里超過8個點>100 bps。 | 建議為ALB實例設置CNAME域名解析。具體操作,請參見為ALB添加CNAME記錄。 |
problem-alb-sessionOverLimit | ALB會話超限導致新建連接丟失 | 嚴重 | ALB會話超限導致新建連接丟失 | ALB實例的VIP地址上新建連接或并發連接數超出上限,出現新建會話失敗情況。ALB域名解析的單一VIP有新建連接數限額。 | 嚴重:ALB實例每秒丟棄連接數,在10分鐘里超過8個點>0。 | |
problem-alb-qpsOverLimit | ALB QPS超限產生503錯誤碼 | 嚴重 | ALB QPS超限產生503錯誤碼 | ALB實例的VIP地址上最大每秒請求數(QPS)達到VIP上限,ALB域名解析的單一VIP有QPS限額。 | 嚴重:ALB實例每秒丟棄請求數,在10分鐘里超過8個點>200 qps,且持續10分鐘環比7分鐘之前,實例每秒丟棄請求數環比上升≥30%。 | |
云企業網CEN(Cloud Enterprise Network) | ||||||
problem-cen-routeOverLimit | CEN路由數量超限 | 嚴重 | CEN路由數量超限 | CEN路由配額超限,可能引起網絡問題。 | 嚴重:CEN路由配額超限,引起網絡問題。 | 建議升級轉發路由器TR(Transit Router)具體操作,請參見升級基礎版轉發路由器。 |
TR | ||||||
problem-cen-vpcAttachBandwidthOverLimit | VPC連接帶寬超限丟包 | 嚴重 | VPC連接帶寬超限丟包 | CEN轉發路由器實際流量超出帶寬規格,出現丟包情況。 | 嚴重:入方向丟包率,在10分鐘里超過5個點>0。 | 建議擴容,提升帶寬峰值。具體操作,請參見管理云企業網配額。 |
problem-cen-peerAttachBandwidthOverLimit | 跨域連接帶寬超限丟包 | 嚴重 | 跨域連接帶寬超限丟包 | CEN轉發路由器實際流量超出帶寬規格,出現丟包情況。 | 嚴重:TR實例實際流量同時滿足以下條件觸發告警。 條件一:流出帶寬峰值利用率,在10分鐘里超過8個點≥90%。 條件二:出方向限速丟包速率,在10分鐘里超過8個點>100 pps。 | 建議擴容,提升帶寬峰值。具體操作,請參見管理云企業網配額。 |
風險事件
事件code | 事件名稱 | 事件等級 | 云監控事件名稱 | 事件說明和影響 | 告警規則 | 用戶側處理建議 |
公網實例 | ||||||
risk-internetPacketLoss | 公網鏈路丟包風險 | 警告 | 公網鏈路丟包風險 | 探測發現阿里云 {Region地域} 到{國家} - {地區} - {運營商}的物理鏈路發生了丟包告警,當前賬號在此鏈路的流量可能存在抖動風險。 | 嚴重:若滿足以下任一條件,則觸發告警。 條件一:探測到地區級的運營商鏈路丟包率>50%; 條件二:探測到全國性的運營商鏈路丟包,且當前賬號在此鏈路的流量最近10分鐘平均帶寬≥0.05 Mbps。 說明
警告:公網鏈路丟包率<50%,且最近10分鐘平均帶寬>0.5 Mbps。 | 請關注這條鏈路上的實例帶寬是否符合實際業務要求(可參考流量分析中五元組數據),若有異常可考慮將關鍵業務遷移到其他地域;若無異常可忽略此告警。 |
risk-internetBandwidthOverlimit | 公網帶寬超限丟包風險 | 警告 | 公網帶寬超限丟包風險 | 根據歷史數據統計,在未來某一時刻實例實際帶寬流量超出當前規格的發生概率大于90%。 | 警告:某一時刻流量超出規格的概率>90%,產生丟包。 | 建議關注,若出現超規格情況建議擴容。 |
VPN 網關 | ||||||
risk-vpn-bpsOverLimit | VPN帶寬超限風險 | 警告 | VPN帶寬超限風險 | VPN實例轉發流量最近十分鐘帶寬利用率有3次超過90%。 | 警告:帶寬利用率,在10分鐘里超過3個點>90%。 | 警告:帶寬利用率,在10分鐘里超過8個點高于30% |
risk-vpn-bgpRouteLimit | BGP動態路由數量超限風險 | 警告 | BGP動態路由數量超限風險 | VPN實例最近十分鐘學習到的BGP動態路由數量已超過實例BGP路由配額的90%。 | 警告:路由利用率,在10分鐘里超過1個點>90%。 | 建議關注,若出現超規格情況建議您可以根據實際網絡規劃在對端VPN網關進行網段聚合。 |
高速通道 | ||||||
risk-ec-physicalConnectionFail | 專線端口/鏈路故障 | 警告 | 專線端口/鏈路故障 | 運營商物理專線或設備端口故障導致業務中斷。 | 警告:監控分鐘級的VBR實例IDC到VPC方向流入速率,若同時滿足以下條件,則觸發告警。 條件一:3≤專線端口下跌次數<20; 條件二:專線端口下跌連續2個時間點以上; 條件三:非全量專線端口下跌狀態。 | 建議您聯系您的商務經理溝通處理。 |
risk-ec-bgpRouterFail | BGP連接故障 | 警告 | BGP連接故障 | 物理專線網絡連通性故障或BGP配置異常,導致BGP連接故障和路由丟失。 | 警告:BGP連接狀態從已連接變成其他狀態,則觸發告警。 | 建議您聯系您的商務經理溝通處理。 |
risk-ec-inTrafficDroppedToZero | VBR入方向流量陡降 | 警告 | VBR入方向流量陡降 | 運營商物理專線或設備端口故障導致VBR入方向流量陡降。 | 警告:監控分鐘級的VBR實例IDC到VPC方向流入速率,若同時滿足以下條件,則觸發告警。 條件一:持續3分鐘,每分鐘環比前7分鐘的平均速率下跌≥99%; 條件二:持續3分鐘,每分鐘環比前7分鐘的平均速率下跌絕對值≥1 Mbps; 條件三:持續3分鐘,每分鐘環比前15、30和60分鐘的平均速率下跌絕對值≥0.5 Mbps; 條件四(智能基線告警):通過學習VBR實例的歷史流入速率周期性規律,預測下一周期流入速率穩定區間,若在周期到達時,3分鐘內持續2分鐘突破預測區間下限≥99%,則判定為異常下跌。 | 請確認是否是正常業務流量行為,或是否存在健康檢查切換,若存在業務受損,請聯系您的商務經理處理。 |
risk-ec-outTrafficDroppedToZero | VBR出方向流量陡降 | 警告 | VBR出方向流量陡降 | 運營商物理專線或設備端口故障導致VBR出方向流量陡降。 | 警告:監控分鐘級的VBR實例VPC到IDC方向流出速率,若同時滿足以下條件,則觸發告警。 條件一:持續3分鐘,每分鐘環比前7分鐘的平均速率下跌≥99%; 條件二:持續3分鐘,每分鐘環比前7分鐘的平均速率下跌絕對值≥1 Mbps; 條件三: 持續3分鐘,每分鐘環比前15、30和60分鐘的平均速率下跌絕對值≥0.5 Mbps; 條件四(智能基線告警):通過學習VBR實例的歷史流出速率周期性規律,預測下一周期流出速率穩定區間,若在周期到達時,3分鐘內持續2分鐘突破預測區間下限≥99%,則判定為異常下跌。 | 請確認是否是正常業務流量行為,或是否存在健康檢查切換,若存在業務受損,請聯系您的商務經理處理。 |
操作導航
操作 | 說明及相關文檔 |
查看事件 | 您可以通過以下方式查看事件: |
訂閱事件 | 您可以通過云監控自主訂閱事件,訂閱后,將以電話、短信、郵件等方式及時通知您事件的發生與進展,請參見設置NIS事件訂閱。 |
解決事件 | 查看事件之后,您可以根據相應的建議解決問題,請參見事件匯總。 |