系統事件由阿里云定義,用于記錄和通知云資源的信息,例如運維任務執行情況、資源是否出現異常、資源狀態變化等。
阿里云有眾多產品支持系統事件,例如ECS、RDS、SLB等。本文僅說明云服務器ECS支持的系統事件,如需了解其他產品的系統事件,請參考對應產品的幫助文檔。
使用限制
已停售的實例規格族不支持系統事件功能,更多信息,請參見已停售的實例規格。
應用場景
通知風險和異常
針對未在ECS控制臺展示的系統事件(包括影響ECS資源可用性和造成性能受損的系統事件),例如因系統維護重啟實例等運維事件、實例到期等費用預警事件,阿里云會將系統事件推送至ECS控制臺展示,部分高危事件還會發送短信、郵件、站內信通知,并支持在ECS控制臺或者通過OpenAPI響應。建議您及時響應這些系統事件,避免因ECS資源可用性或性能受損影響業務。具體操作,請參見查詢和響應ECS系統事件。
例如,包年包月實例即將因到期停止時,在ECS控制臺醒目提示您及時續費,避免因到期停止而影響業務。
實現自動化運維
在ECS控制臺展示的系統事件均定義了事件狀態,方便區分相應系統運維任務的執行情況,而且系統事件產生時及狀態變化時會上報至云監控,方便您進一步根據自身需要搭建事件驅動的自動化運維體系。更多事件狀態的信息,請參見系統事件的狀態和窗口期。
說明每種事件狀態都會對應一個云監控事件名稱,例如ECS事件Code為InstanceFailure.Reboot支持的事件狀態包括Executing、Executed,則其對應的云監控事件名稱包括Instance:InstanceFailure.Reboot:Executing、Instance:InstanceFailure.Reboot:Executed。
狀態變化事件包括了一些未在ECS控制臺中展示的系統事件,例如實例運行狀態變化、搶占式實例中斷等,這些系統事件不支持直接在ECS控制臺和通過OpenAPI響應。ECS中沒有針對這些系統事件定義事件狀態,但系統事件產生時仍然會上報至云監控,方便您根據自身需要搭建事件驅動的自動化運維體系。
例如,您手動啟停實例時會產生實例狀態改變的系統事件,并不意味著風險或異常,但您希望向自有系統寫入此類操作日志。這時可以自行為實例狀態改變事件設置事件通知,并通過回調等方式將啟停信息寫入操作日志。
系統事件類型
系統事件由阿里云定義,用于記錄和通知云資源的信息。按照起因進行分類,系統事件可以分為:
云服務器ECS支持的各類系統事件以及對應的處理建議,請參見ECS系統事件匯總。
類別 | 說明 | 是否在ECS控制臺展示 |
計劃內運維事件 | 阿里云為提升底層宿主機的安全性而主動升級宿主機軟件,或者主動預測并規避底層宿主機的軟硬件故障風險。如果在執行相應運維任務過程中可能影響ECS資源可用性或造成性能受損,阿里云會提前告知您執行時間、對象、影響等信息,您可以在這些系統事件的計劃執行時間內,選擇業務低谷期自行響應系統事件,避免業務在高峰期受到影響。 說明 計劃內運維事件也稱主動運維事件,是阿里云基于百萬級服務器的管理運維經驗,服務上萬家大型企業客戶的能力沉淀,以及達摩院的前沿機器學習算法,對底層宿主機的軟硬件故障風險進行預測和主動規避。當宿主機上的故障風險無法規避時,阿里云會通過計劃內運維事件提前通知受影響的ECS用戶,為用戶贏得一定的業務切換的緩沖時間。如果用戶未提前響應計劃類運維事件,故障風險發生時會導致ECS實例出現宕機或重啟。 | 是 說明 當發生計劃內運維事件的實例為大數據型或本地SSD型(不包含i4p),該事件將在本地盤實例事件下展示。關于更多本地盤事件信息,請參見本地盤實例運維場景和系統事件。 |
非預期運維事件 | 當底層宿主機出現突發軟硬件故障,或者實例發生OOM、內核錯誤(kernel panic)等情況時,導致實例突發重啟、宕機等異常。阿里云會及時發送非預期運維事件,并盡快恢復ECS資源可用性,同時通知您相應系統運維任務的執行情況。 說明 非預期運維事件一般指的是因底層宿主機發生了無法預測的故障,或者ECS實例的操作系統發生了內核錯誤等問題,導致ECS實例突然出現宕機或重啟。
| 是 說明 當發生非預期運維事件的實例為大數據型或本地SSD型(不包含i4p),該事件將在本地盤實例事件下展示。關于更多本地盤事件信息,請參見本地盤實例運維場景和系統事件。 |
實例費用事件 | 影響費用的事件,例如實例到期、賬號欠費,導致實例即將被停止或釋放。 | 是 |
本地盤實例事件 | 本地盤實例事件包括本地磁盤事件(如本地盤損壞)和本地盤實例的事件(如因本地盤受損導致實例可能無法正常運行、本地盤實例底層宿主機出現軟硬件故障等)。 說明 本地盤實例事件僅為展示發生計劃內運維事件或非預期運維事件的大數據型或本地SSD型(不包含i4p)實例,方便您處理本地盤實例事件,并非具體的事件類型。關于本地盤事件說明,請參見本地盤實例運維場景和系統事件。 | 是 |
突發性能實例性能受限事件 | 突發性能實例性能受限事件是指突發性能實例的CPU積分已經耗盡,實例的CPU將會持續運行在基準性能附近,可能對實例的應用運行、實例管控、運維等操作產生影響,包括出現訪問緩慢,卡頓等情況的提醒事件。 | 是 |
實例安全事件 | 影響實例安全的事件,例如實例遭遇DDoS攻擊或進入黑洞,導致實例的安全受到威脅。 | 是 |
實例因底層升級需遷移事件 | 阿里云在升級和改造物理基礎設施時,可能影響對應地域和可用區中的實例,您可以根據系統事件的引導遷移實例。 | 是 |
狀態變化事件 | 您自行操作實例,導致實例的生命周期變化,例如手動開關機;或者阿里云發現實例的某些屬性發生變化,進而導致實例的生命周期或其他狀態發生變化。包括:
|
|
系統事件等級
按照對實例正常運行的影響程度進行劃分,系統事件分為以下幾個等級:
嚴重:影響重大,需要盡快處理,否則可能導致實例無法使用,例如因賬號欠費釋放資源、因實例錯誤重新部署實例。
警告:有一定影響,需要您在影響持續期間加以關注,或者選擇合適時間處理,例如突發性能實例性能受限時可以運行,但無法超過基準性能。
信息:您自行選擇是否關注即可,例如磁盤快照已創建完成。
系統事件的狀態和窗口期
在ECS控制臺中展示的系統事件,按下表所述方式定義事件狀態。
不同系統事件支持的事件狀態,請參見ECS系統事件匯總中的云監控事件名稱列。
狀態 | 屬性 | 說明 |
Inquiring | 中間狀態 | 問詢中,等待您授權,授權后會進入Executing狀態。 |
Scheduled | 中間狀態 | 計劃執行運維任務,但尚未開始執行,開始執行后會進入Executing狀態。 |
Executing | 中間狀態 | 運維任務正在執行中。 |
Executed | 穩定狀態 | 運維任務已經執行完成。 |
Avoided | 穩定狀態 | 您在用戶操作窗口期內自行遷移了實例,規避了系統事件的影響。 |
Failed | 穩定狀態 | 運維任務執行失敗。 |
Canceled | 穩定狀態 | 系統取消了運維任務。 |
典型的事件狀態變化示意圖如下所示。
系統事件包括的窗口期如下:
用戶操作窗口期
從發送系統事件到計劃執行時間之間的時間段。您可以在用戶操作窗口期內自行操作,或者等待系統自動執行。時長說明如下:
計劃內運維事件通常為24~48小時。
說明處于Inquiring狀態的系統事件,沒有時長限制,在您授權后才會開始執行運維任務。
突發故障、違規操作等非計劃內因素導致的非預期運維事件,通常沒有用戶操作窗口期。
包年包月實例因到期停止的系統事件為3天。
按量付費實例因賬號欠費停止的系統事件小于1小時。
事件執行窗口期
開始執行任務到任務執行完成之間的時間段。時長說明如下:
通知修復故障的系統事件通常在10分鐘內完成。
突發故障、違規操作等非計劃內因素導致的非預期運維事件,只有短暫的事件執行窗口期。
ECS事件Code和云監控事件名稱的格式
ECS事件Code、云監控事件名稱遵循了一定的命名格式,便于您理解事件的含義。格式如下:
ECS事件Code:包括事件起因、對資源的影響的信息,格式為
<事件起因>.<對資源的影響>
。云監控事件名稱:包括資源類型、事件起因、對資源的影響、事件狀態的信息,格式為
<資源類型>:<事件起因>.<對資源的影響>:<事件狀態>
。
并非所有ECS事件Code和云監控事件名稱都會包括所有信息,例如云監控事件名稱Disk:ErrorDetected:Executing
代表磁盤已經出現損壞,因此無需包括對資源后續影響的信息。
下表通過幾個示例說明ECS事件Code和云監控事件名稱中包含的信息。
如果ECS事件Code示例列為未定義,代表該系統事件未在ECS控制臺中展示,不支持直接在ECS控制臺和通過OpenAPI響應。更多事件說明,請參見ECS系統事件匯總。
類別 | ECS事件Code示例 | 云監控事件名稱示例 | 說明 |
計劃內運維事件 | SystemMaintenance.Reboot | Instance:SystemMaintenance.Reboot:Inquiring |
|
非預期運維事件 | ErrorDetected | Disk:ErrorDetected:Executing |
|
生命周期變化事件 | Snapshot:CreateSnapshotCompleted | Snapshot:CreateSnapshotCompleted |
|
操作導航
操作 | 說明及相關文檔 |
了解系統事件 | 操作前,可參考本文了解系統事件Code、名稱、等級、應用場景、使用限制、狀態、命名格式等。 |
查看系統事件 | 您可以通過控制臺或者阿里云CLI查看系統事件:
|
響應系統事件 | 對于一些高危系統事件(例如影響ECS資源可用性和造成性能受損的系統事件),建議您及時通過控制臺或者OpenAPI響應,按照建議進行處理,以免影響業務運行。
|
監控系統事件 | 為保障ECS實例上業務運行的穩定性以及實現自動化運維,建議您設置事件通知來監聽底層環境的變化。設置事件通知后,系統會推送消息到您設置的通知方式。
|
修改系統事件相關設置 | 根據需要修改系統事件相關設置: |