系統事件用于記錄和通知云資源信息,例如運維任務執行情況、資源是否出現異常和資源狀態變化等。您可以通過系統事件獲取ECS資源的風險和異常信息,例如某一實例到期、實例因底層升級需遷移或因系統維護重啟了某一實例等,然后及時響應和處理系統事件,避免因ECS資源可用性或性能受損而影響業務。本文匯總了云服務器ECS支持的系統事件(包括計劃內運維事件、非預期運維事件、實例費用事件和實例狀態變化事件等),并為各系統事件提供處理建議。
如果事件Code列為未定義,例如實例狀態改變通知(Instance:StateChange),代表該系統事件不支持通過ECS控制臺和ECS事件OpenAPI查詢。
計劃內運維事件
在實例操作系統內部進行重啟操作時,無法使事件對應的維護動作生效。因此,本文涉及的重啟實例操作指的是通過ECS控制臺或調用API方式進行,具體操作,請參見重啟實例或RebootInstance - 重啟實例。
事件Code | 事件名稱 | 事件等級 | 云監控事件名稱 | 事件說明和影響 | 用戶側處理建議 |
SystemMaintenance.Reboot | 因系統維護實例重啟 | 嚴重 |
| 阿里云檢測到ECS實例所在的底層宿主機存在潛在的軟硬件故障風險,該風險會導致ECS實例重啟,且該風險尚未直接成為故障,在系統維護計劃執行時間前24~48小時發送該系統事件。 | 建議您根據需要選擇一種響應方式: 說明
|
SystemMaintenance.Stop | 因系統維護實例停止 | 嚴重 |
| 阿里云檢測到ECS實例的底層宿主機存在潛在的軟硬件故障風險,該風險會導致ECS實例關機并停止,且該風險尚未直接成為故障,在系統維護計劃執行前的24~48小時內發送該系統事件。 | 建議您根據需要選擇一種響應方式:
說明 您可以修改實例的維護屬性,指定ECS實例遇到運維事件后的默認行為,更多信息,請參見修改實例維護屬性。 |
SystemMaintenance.Redeploy | 因系統維護實例重新部署 | 嚴重 |
| 阿里云檢測到ECS實例的底層宿主機存在潛在的軟硬件故障風險,該風險會導致ECS實例重新部署,且該風險尚未直接成為故障,在系統維護計劃執行時間前24~48小時發送該系統事件。 重要 使用了本地SSD盤或者本地HDD盤的實例會重新初始化數據盤,本地盤上的數據會被清空。 | 建議您完成準備工作,包括修改/etc/fstab配置文件、備份數據等,然后根據需要選擇一種響應方式:
說明
|
SystemMaintenance.IsolateErrorDisk | 因系統維護隔離壞盤 | 嚴重 |
| 阿里云檢測到ECS實例的本地盤出現軟硬件損壞時,立即發送該系統事件。 重要 根據帶有本地盤的ECS實例規格不同,部分ECS實例規格需要重啟并隔離受損磁盤,部分ECS實例規格支持在線隔離并修復受損磁盤。 | 建議您完成準備工作,包括修改/etc/fstab配置文件、備份數據等,然后選擇合適的時間授權隔離壞盤(在線隔離,無需重啟實例)。 說明 詳細的運維流程說明,請參見本地盤實例運維場景③。 |
SystemMaintenance.ReInitErrorDisk | 因系統維護重新初始化壞盤 | 嚴重 |
| 阿里云檢測到ECS實例的本地磁盤出現軟硬件損壞,并且更換了本地盤實例所在宿主機上損壞的本地盤后,立即發送該系統事件,通常在您授權隔離壞盤后五個工作日內。 重要 根據帶有本地盤的ECS實例規格不同,部分ECS實例規格需要重啟并隔離受損磁盤,部分ECS實例規格支持在線隔離并修復受損磁盤。 | 建議您選擇合適的時間授權恢復本地盤(在線恢復,無需重啟實例)。 說明 詳細的運維流程說明,請參見本地盤實例運維場景③。 |
SystemMaintenance.RebootAndIsolateErrorDisk | 因系統維護重啟實例并隔離壞盤 | 嚴重 |
| 阿里云檢測到ECS實例的本地磁盤出現軟硬件損壞,在執行在線隔離壞盤失敗時,立即發送該系統事件。 重要 根據帶有本地盤的ECS實例規格不同,部分ECS實例規格需要重啟并隔離受損磁盤,部分ECS實例規格支持在線隔離并修復受損磁盤。 | 建議您選擇合適的時間授權隔離壞盤,并自行重啟實例(離線隔離,需要重啟實例)。 說明 詳細的運維流程說明,請參見本地盤實例運維場景③。 |
SystemMaintenance.RebootAndReInitErrorDisk | 因系統維護重啟實例并重新初始化壞盤 | 嚴重 |
| 阿里云檢測到ECS實例的本地磁盤出現軟硬件損壞,在執行在線恢復本地盤失敗時,立即發送該系統事件。 重要 根據帶有本地盤的ECS實例規格不同,部分ECS實例規格需要重啟并隔離受損磁盤,部分ECS實例規格支持在線隔離并修復受損磁盤。 | 建議您選擇合適的時間授權恢復本地盤,并自行重啟實例(離線恢復,需要重啟實例)。 說明 詳細的運維流程說明,請參見本地盤實例運維場景③。 |
SystemMaintenance.StopAndRepair | 本地盤實例原地維修事件 | 嚴重 |
| 當阿里云識別到ECS實例的底層宿主機存在硬件故障風險,在系統維護計劃執行時間前48~168小時發送該系統事件。 | 建議您選擇合適的時間授權維修本地盤實例或重新部署本地盤實例。 說明 詳細的運維流程說明,請參見本地盤實例運維場景和系統事件。 |
SystemMaintenance.CleanReleasedDisks | EBS熱插拔失敗后的清理事件 | 警告 |
| 當阿里云識別到ECS實例的操作系統中存在因欠費被釋放的一塊或多塊云盤的配置信息時,發送該系統事件。 | 建議您選擇合適的時間,授權阿里云清理已釋放云盤的配置信息。 重要 阿里云會在您授權的指定時間對該實例進行關機,然后對云盤進行清理,清理完成后再次開機。 |
非預期運維事件
事件Code | 事件名稱 | 事件等級 | 云監控事件名稱 | 事件說明和影響 | 用戶側處理建議 |
SystemFailure.Reboot | 因系統錯誤實例重啟 | 嚴重 |
| 當阿里云識別到ECS實例因底層宿主機出現了非預期的軟硬件故障(如CPU、內存硬件損壞等)被重啟時,立即發送該系統事件。 | 建議您等待實例自動重啟完成,然后檢查實例和應用是否正常。 重啟過程中,阿里云會將該實例遷移到其他健康的宿主機上。 說明 您可以修改實例的維護屬性,指定ECS實例遇到運維事件后的默認行為,更多信息,請參見修改實例維護屬性。 |
InstanceFailure.Reboot | 實例因操作系統錯誤需重啟 | 嚴重 |
| 當阿里云識別到ECS實例因操作系統內部出現夯機,包括OOM、藍屏、卡死、不停打印串口日志或內核panic問題時,立即發送該系統事件。 | 建議您等待實例自動重啟完成,然后檢查實例和應用是否正常。 您可以開啟操作系統的Kdump服務,排查崩潰原因,避免再次引發同類問題。具體操作,請參見Linux實例如何開啟Kdump服務或開啟Windows實例的內核轉儲(Kernel Memory Dump)功能。 |
SystemFailure.Stop | 因系統錯誤實例停止 | 嚴重 |
| 當阿里云識別到ECS實例因底層宿主機出現了軟硬件故障(如CPU、內存硬件損壞等)被關機時,立即發送該系統事件。 | 建議您等待實例自動停止完成,然后啟動實例。 啟動實例時,阿里云會將該實例遷移到其他健康的宿主機上。 說明 您可以修改實例的維護屬性,指定ECS實例遇到運維事件后的默認行為,更多信息,請參見修改實例維護屬性。 |
SystemFailure.Redeploy | 因系統錯誤實例重新部署 | 嚴重 |
| 當阿里云識別到ECS實例因底層宿主機出現了軟硬件故障需要重新部署本地盤實例時,立即發送該系統事件。 說明 僅依賴宿主機硬件的實例支持此類事件,例如掛載本地盤或支持SGX加密計算的實例。 | 建議您完成準備工作,包括修改/etc/fstab配置文件、備份數據等,然后根據需要選擇一種響應方式:
說明 您可以修改實例的維護屬性,指定ECS實例遇到運維事件后的默認行為,更多信息,請參見修改實例維護屬性。 |
SystemFailure.Delete | 因實例創建失敗賬單自動取消 | 嚴重 |
| 當阿里云識別到ECS實例在創建,雖然下單成功但是實例創建失敗,立即發送該系統事件。 | 建議您等待系統自動釋放實例,通常在創建失敗五分鐘內自動釋放。 說明 如果您已經完成訂單支付,在實例釋放后會收到相應的退款。 為提高實例創建成功率,建議您:
|
ErrorDetected | 本地磁盤出現損壞告警 | 嚴重 |
| 當阿里云識別到ECS實例的本地盤出現了非預期的軟硬件損壞,導致該磁盤無法正常進行讀寫時,立即發送該系統事件。 | 建議您完成準備工作,包括修改/etc/fstab配置文件、備份數據等,然后選擇合適的時間操作隔離壞盤并恢復本地盤。 根據實例規格的不同,支持的操作也不同,具體說明如下:
說明 詳細的運維流程說明,請參見本地盤實例運維場景③。 |
Stalled | 磁盤性能受到嚴重影響 | 嚴重 |
| 當阿里云識別到ECS實例所掛載云盤出現IO堵塞,導致云盤性能受到嚴重影響,無法進行正常讀寫時,立即發送該系統事件。 | 建議您在應用層隔離對該云盤的讀寫操作,或從負載均衡實例中暫時移除該實例。 |
實例費用事件
事件Code | 事件名稱 | 事件等級 | 云監控事件名稱 | 事件說明和影響 | 用戶側處理建議 |
InstanceExpiration.Stop | 因包年包月期限到期實例停止 | 嚴重 | 未定義 | 在包年包月實例到期停止前3天,發送該系統事件。 | 建議您及時續費實例,具體操作,請參見續費實例。 |
InstanceExpiration.Delete | 因包年包月期限到期實例釋放 | 嚴重 | 未定義 | 在包年包月實例到期自動釋放前3天,發送該系統事件。 | 建議您及時續費實例,具體操作,請參見續費實例。 |
AccountUnbalanced.Stop | 因賬號欠費按量付費實例停止 | 嚴重 | 未定義 | 在按量付費實例因賬號欠費停止前1小時,發送該系統事件。 | 建議您及時為賬號充值,避免實例因支付方式余額不足而釋放。 |
AccountUnbalanced.Delete | 因賬號欠費按量付費實例釋放 | 嚴重 | 未定義 | 在按量付費實例因賬號欠費自動釋放前3天,發送該系統事件。 | 建議您及時為賬號充值,避免實例因支付方式余額不足而釋放。 |
未定義 | 因賬號欠費磁盤釋放 | 嚴重 | Disk:OverduePaymentRelease:因賬號欠費磁盤釋放 | 在按量付費云盤因賬號欠費自動釋放時,立即發送該系統事件。 | 建議您及時為賬號充值,避免實例因支付方式余額不足而釋放。 |
實例因底層升級需遷移事件
事件Code | 事件名稱 | 事件等級 | 云監控事件名稱 | 事件說明和影響 | 用戶側處理建議 |
SystemUpgrade.Migrate | 實例因底層升級需遷移 | 嚴重 | 未定義 | 如果阿里云升級和改造物理基礎設施時,可能影響對應地域和可用區中的實例,將提前向您發送該系統事件。 | 建議您登錄ECS控制臺查看系統事件詳情,并按照提示遷移實例。具體操作,請參見實例因底層升級需遷移。 |
突發性能實例性能受限事件
事件Code | 事件名稱 | 事件等級 | 云監控事件名稱 | 事件說明和影響 | 用戶側處理建議 |
Instance:BurstablePerformanceRestricted | 突發性能實例性能受限 | 警告 | Instance:BurstablePerformanceRestricted:突發性能實例性能受限 | 突發性能實例累積CPU積分為0時,立即發送該系統事件。 | 建議您根據需要選擇一種響應方式:
如果您需要自定義觸發通知的閾值,例如希望在累積CPU積分連續10分鐘小于10時收到通知,可以在云監控控制臺設置閾值報警規則。具體操作,請參見監控突發性能實例。 |
實例安全事件
事件Code | 事件名稱 | 事件等級 | 云監控事件名稱 | 事件說明和影響 | 用戶側處理建議 |
Security.DDoSDefense | DDoS安全攻擊事件 | 嚴重 |
| 當ECS實例遭受DDoS攻擊,且攻擊帶寬<免費防御的流量閾值時(DDoS基礎防護能力),阿里云會在觸發流量清洗時和清洗結束后,向您發送該事件。 | 建議您在收到該事件后進行應急處理,例如,設置清洗閾值,避免使用固定閾值可能導致的誤清洗。具體操作,請參見設置流量清洗閾值。 重要 如果您的正常業務流量(bps)大于黑洞閾值,請您及時提升資產規格,否則可能會被識別為異常流量導致資產進入黑洞。 |
Security.DDoSHole | 嚴重 |
| 當DDoS攻擊的峰值帶寬>ECS實例的DDoS的防御能力時,被攻擊的ECS實例IP產生黑洞,阿里云會在進入黑洞時和解除黑洞后,向您發送該事件。 | 長期防護DDoS攻擊是降低被攻擊風險的最佳途徑,針對大流量DDoS攻擊,建議使用阿里云DDoS高防服務。更多詳情,請參見什么是DDoS高防。 | |
SecurityPunish.Locked | 實例被安全封禁事件 | 嚴重 |
| 當阿里云識別到您的ECS實例存在安全違規內容(包括挖礦類、欺詐類、有害信息等違規)時,將提前向您發送該系統事件。 | 建議您根據需要選擇一種響應方式:
|
SecurityPunish.WebsiteBanned | 實例內網站被封禁事件 | 嚴重 |
| 當阿里云識別到您的ECS實例上存在安全違規的域名或網站時,立即封禁該網站或域名,并發送該系統事件。 | 建議您清理違規內容后申請解封,更多詳細信息,請參見違規信息處罰快速解封。 |
Security.TpmAlert | 可信事件 | 警告 |
| 當阿里云識別到安全增強型實例出現可信異常時,立即發送該事件。 | 建議您登錄ECS控制臺查看系統事件詳情,定位異常原因并處理異常。具體操作,請參見處理可信異常。 |
狀態變化事件
事件Code | 事件名稱 | 事件等級 | 云監控事件名稱 | 事件說明和影響 | 用戶側處理建議 |
Instance:PreemptibleInstanceInterruption | 搶占式實例中斷通知 | 警告 | Instance:PreemptibleInstanceInterruption:搶占式實例中斷通知 | 在搶占式實例被回收前5分鐘發送該系統事件。 | 建議您:
|
Instance:ModifyInstanceSpec.Reboot | 實例因規格變更需重啟生效 | 嚴重 |
| 在實例規格發生變更之后,需要通過重啟實例來使新規格配置生效。在新訂單生效后7天內,如用戶未主動進行實例重啟,系統會強制重啟實例,將實例規格變更為預期規格。 | 建議您: |
Instance:PerformanceModeChange | 突發性能實例性能模式切換 | 警告 | Instance:PerformanceModeChange:突發性能實例性能模式切換 | 在突發性能實例從無性能約束模式切換為性能約束模式、或者從性能約束模式切換為無性能約束模式時,產生該系統事件。 | 建議您根據需要判斷是否關注該系統事件,如需關注可以在云監控控制臺設置事件通知。具體操作,請參見訂閱ECS系統事件通知。 |
Instance:StateChange | 實例狀態改變通知 | 信息 | Instance:StateChange:實例狀態改變通知 | 在實例狀態發生改變時,例如從運行中變為停止中、從停止中變為已停止,產生該系統事件。 | 建議您根據需要判斷是否關注該系統事件,如需關注可以在云監控控制臺設置事件通知。具體操作,請參見訂閱ECS系統事件通知。 |
Instance:AutoReactivateCompleted | 完成自動重開機 | 信息 | Instance:AutoReactivateCompleted:完成自動重開機 | 在您結清了欠費賬單且實例完成自動重啟時,產生該系統事件。 | 建議您根據需要判斷是否關注該系統事件,如需關注可以在云監控控制臺設置事件通知。具體操作,請參見訂閱ECS系統事件通知。 |
Instance:LiveMigrationAcrossDDH | 實例在專有宿主機間熱遷移 | 信息 | Instance:LiveMigrationAcrossDDH:實例在專有宿主機間熱遷移 | 在實例發生熱遷移時,產生該系統事件。 | 建議您根據需要判斷是否關注該系統事件,如需關注可以在云監控控制臺設置事件通知。具體操作,請參見訂閱ECS系統事件通知。 |
Disk:DiskOperationCompleted | 磁盤操作完成 | 信息 | Disk:DiskOperationCompleted:磁盤操作完成 | 在手動掛載或卸載了按量付費磁盤時,產生該系統事件。 | 建議您根據需要判斷是否關注該系統事件,如需關注可以在云監控控制臺設置事件通知。具體操作,請參見訂閱ECS系統事件通知。 |
Disk:ConvertToPostpaidCompleted | 轉換磁盤到按量付費完成 | 信息 | Disk:ConvertToPostpaidCompleted:轉換磁盤到按量付費完成 | 在包年包月磁盤轉換為按量付費磁盤時,產生該系統事件。 | 建議您根據需要判斷是否關注該系統事件,如需關注可以在云監控控制臺設置事件通知。具體操作,請參見訂閱ECS系統事件通知。 |
Snapshot:CreateSnapshotCompleted | 磁盤快照創建完成 | 信息 | Snapshot:CreateSnapshotCompleted:磁盤快照創建完成 | 在磁盤的快照創建完成時,產生該系統事件。 | 建議您根據需要判斷是否關注該系統事件,如需關注可以在云監控控制臺設置事件通知。具體操作,請參見訂閱ECS系統事件通知。 |
Snapshot:SnapshotDeleted | 快照刪除完成事件 | 信息 | Snapshot:SnapshotDeleted:快照刪除完成事件 | 在手動快照或自動快照刪除完成時,產生該系統事件。 | 無 |