ECS系統(tǒng)事件匯總
系統(tǒng)事件用于記錄和通知云資源信息,例如運維任務執(zhí)行情況、資源是否出現(xiàn)異常和資源狀態(tài)變化等。您可以通過系統(tǒng)事件獲取ECS資源的風險和異常信息,例如某一實例到期、實例因底層升級需遷移或因系統(tǒng)維護重啟了某一實例等,然后及時響應和處理系統(tǒng)事件,避免因ECS資源可用性或性能受損而影響業(yè)務。本文匯總了云服務器ECS支持的系統(tǒng)事件(包括計劃內(nèi)運維事件、非預期運維事件、實例費用事件和實例狀態(tài)變化事件等),并為各系統(tǒng)事件提供處理建議。
如果事件Code列為未定義,例如實例狀態(tài)改變通知(Instance:StateChange),代表該系統(tǒng)事件不支持通過ECS控制臺和ECS事件OpenAPI查詢。
計劃內(nèi)運維事件
在實例操作系統(tǒng)內(nèi)部進行重啟操作時,無法使事件對應的維護動作生效。因此,本文涉及的重啟實例操作指的是通過ECS控制臺或調(diào)用API方式進行,具體操作,請參見重啟實例或RebootInstance - 重啟實例。
事件Code | 事件名稱 | 事件等級 | 云監(jiān)控事件名稱 | 事件說明和影響 | 用戶側(cè)處理建議 |
SystemMaintenance.Reboot | 因系統(tǒng)維護實例重啟 | 嚴重 |
| 阿里云檢測到ECS實例所在的底層宿主機存在潛在的軟硬件故障風險,該風險會導致ECS實例重啟,且該風險尚未直接成為故障,在系統(tǒng)維護計劃執(zhí)行時間前24~48小時發(fā)送該系統(tǒng)事件。 | 建議您根據(jù)需要選擇一種響應方式: 說明
|
SystemMaintenance.Stop | 因系統(tǒng)維護實例停止 | 嚴重 |
| 阿里云檢測到ECS實例的底層宿主機存在潛在的軟硬件故障風險,該風險會導致ECS實例關機并停止,且該風險尚未直接成為故障,在系統(tǒng)維護計劃執(zhí)行前的24~48小時內(nèi)發(fā)送該系統(tǒng)事件。 | 建議您根據(jù)需要選擇一種響應方式:
說明 您可以修改實例的維護屬性,指定ECS實例遇到運維事件后的默認行為,更多信息,請參見修改實例維護屬性。 |
SystemMaintenance.Redeploy | 因系統(tǒng)維護實例重新部署 | 嚴重 |
| 阿里云檢測到ECS實例的底層宿主機存在潛在的軟硬件故障風險,該風險會導致ECS實例重新部署,且該風險尚未直接成為故障,在系統(tǒng)維護計劃執(zhí)行時間前24~48小時發(fā)送該系統(tǒng)事件。 重要 使用了本地SSD盤或者本地HDD盤的實例會重新初始化數(shù)據(jù)盤,本地盤上的數(shù)據(jù)會被清空。 | 建議您完成準備工作,包括修改/etc/fstab配置文件、備份數(shù)據(jù)等,然后根據(jù)需要選擇一種響應方式:
說明
|
SystemMaintenance.IsolateErrorDisk | 因系統(tǒng)維護隔離壞盤 | 嚴重 |
| 阿里云檢測到ECS實例的本地盤出現(xiàn)軟硬件損壞時,立即發(fā)送該系統(tǒng)事件。 重要 根據(jù)帶有本地盤的ECS實例規(guī)格不同,部分ECS實例規(guī)格需要重啟并隔離受損磁盤,部分ECS實例規(guī)格支持在線隔離并修復受損磁盤。 | 建議您完成準備工作,包括修改/etc/fstab配置文件、備份數(shù)據(jù)等,然后選擇合適的時間授權隔離壞盤(在線隔離,無需重啟實例)。 說明 詳細的運維流程說明,請參見本地盤實例運維場景③。 |
SystemMaintenance.ReInitErrorDisk | 因系統(tǒng)維護重新初始化壞盤 | 嚴重 |
| 阿里云檢測到ECS實例的本地磁盤出現(xiàn)軟硬件損壞,并且更換了本地盤實例所在宿主機上損壞的本地盤后,立即發(fā)送該系統(tǒng)事件,通常在您授權隔離壞盤后五個工作日內(nèi)。 重要 根據(jù)帶有本地盤的ECS實例規(guī)格不同,部分ECS實例規(guī)格需要重啟并隔離受損磁盤,部分ECS實例規(guī)格支持在線隔離并修復受損磁盤。 | 建議您選擇合適的時間授權恢復本地盤(在線恢復,無需重啟實例)。 說明 詳細的運維流程說明,請參見本地盤實例運維場景③。 |
SystemMaintenance.RebootAndIsolateErrorDisk | 因系統(tǒng)維護重啟實例并隔離壞盤 | 嚴重 |
| 阿里云檢測到ECS實例的本地磁盤出現(xiàn)軟硬件損壞,在執(zhí)行在線隔離壞盤失敗時,立即發(fā)送該系統(tǒng)事件。 重要 根據(jù)帶有本地盤的ECS實例規(guī)格不同,部分ECS實例規(guī)格需要重啟并隔離受損磁盤,部分ECS實例規(guī)格支持在線隔離并修復受損磁盤。 | 建議您選擇合適的時間授權隔離壞盤,并自行重啟實例(離線隔離,需要重啟實例)。 說明 詳細的運維流程說明,請參見本地盤實例運維場景③。 |
SystemMaintenance.RebootAndReInitErrorDisk | 因系統(tǒng)維護重啟實例并重新初始化壞盤 | 嚴重 |
| 阿里云檢測到ECS實例的本地磁盤出現(xiàn)軟硬件損壞,在執(zhí)行在線恢復本地盤失敗時,立即發(fā)送該系統(tǒng)事件。 重要 根據(jù)帶有本地盤的ECS實例規(guī)格不同,部分ECS實例規(guī)格需要重啟并隔離受損磁盤,部分ECS實例規(guī)格支持在線隔離并修復受損磁盤。 | 建議您選擇合適的時間授權恢復本地盤,并自行重啟實例(離線恢復,需要重啟實例)。 說明 詳細的運維流程說明,請參見本地盤實例運維場景③。 |
SystemMaintenance.StopAndRepair | 本地盤實例原地維修事件 | 嚴重 |
| 當阿里云識別到ECS實例的底層宿主機存在硬件故障風險,在系統(tǒng)維護計劃執(zhí)行時間前48~168小時發(fā)送該系統(tǒng)事件。 | 建議您選擇合適的時間授權維修本地盤實例或重新部署本地盤實例。 說明 詳細的運維流程說明,請參見本地盤實例運維場景和系統(tǒng)事件。 |
SystemMaintenance.CleanReleasedDisks | EBS熱插拔失敗后的清理事件 | 警告 |
| 當阿里云識別到ECS實例的操作系統(tǒng)中存在因欠費被釋放的一塊或多塊云盤的配置信息時,發(fā)送該系統(tǒng)事件。 | 建議您選擇合適的時間,授權阿里云清理已釋放云盤的配置信息。 重要 阿里云會在您授權的指定時間對該實例進行關機,然后對云盤進行清理,清理完成后再次開機。 |
非預期運維事件
事件Code | 事件名稱 | 事件等級 | 云監(jiān)控事件名稱 | 事件說明和影響 | 用戶側(cè)處理建議 |
SystemFailure.Reboot | 因系統(tǒng)錯誤實例重啟 | 嚴重 |
| 當阿里云識別到ECS實例因底層宿主機出現(xiàn)了非預期的軟硬件故障(如CPU、內(nèi)存硬件損壞等)被重啟時,立即發(fā)送該系統(tǒng)事件。 | 建議您等待實例自動重啟完成,然后檢查實例和應用是否正常。 重啟過程中,阿里云會將該實例遷移到其他健康的宿主機上。 說明 您可以修改實例的維護屬性,指定ECS實例遇到運維事件后的默認行為,更多信息,請參見修改實例維護屬性。 |
InstanceFailure.Reboot | 實例因操作系統(tǒng)錯誤需重啟 | 嚴重 |
| 當阿里云識別到ECS實例因操作系統(tǒng)內(nèi)部出現(xiàn)夯機,包括OOM、藍屏、卡死、不停打印串口日志或內(nèi)核panic問題時,立即發(fā)送該系統(tǒng)事件。 | 建議您等待實例自動重啟完成,然后檢查實例和應用是否正常。 您可以開啟操作系統(tǒng)的Kdump服務,排查崩潰原因,避免再次引發(fā)同類問題。具體操作,請參見Linux實例如何開啟Kdump服務或開啟Windows實例的內(nèi)核轉(zhuǎn)儲(Kernel Memory Dump)功能。 |
SystemFailure.Stop | 因系統(tǒng)錯誤實例停止 | 嚴重 |
| 當阿里云識別到ECS實例因底層宿主機出現(xiàn)了軟硬件故障(如CPU、內(nèi)存硬件損壞等)被關機時,立即發(fā)送該系統(tǒng)事件。 | 建議您等待實例自動停止完成,然后啟動實例。 啟動實例時,阿里云會將該實例遷移到其他健康的宿主機上。 說明 您可以修改實例的維護屬性,指定ECS實例遇到運維事件后的默認行為,更多信息,請參見修改實例維護屬性。 |
SystemFailure.Redeploy | 因系統(tǒng)錯誤實例重新部署 | 嚴重 |
| 當阿里云識別到ECS實例因底層宿主機出現(xiàn)了軟硬件故障需要重新部署本地盤實例時,立即發(fā)送該系統(tǒng)事件。 說明 僅依賴宿主機硬件的實例支持此類事件,例如掛載本地盤或支持SGX加密計算的實例。 | 建議您完成準備工作,包括修改/etc/fstab配置文件、備份數(shù)據(jù)等,然后根據(jù)需要選擇一種響應方式:
說明 您可以修改實例的維護屬性,指定ECS實例遇到運維事件后的默認行為,更多信息,請參見修改實例維護屬性。 |
SystemFailure.Delete | 因?qū)嵗齽?chuàng)建失敗賬單自動取消 | 嚴重 |
| 當阿里云識別到ECS實例在創(chuàng)建,雖然下單成功但是實例創(chuàng)建失敗,立即發(fā)送該系統(tǒng)事件。 | 建議您等待系統(tǒng)自動釋放實例,通常在創(chuàng)建失敗五分鐘內(nèi)自動釋放。 說明 如果您已經(jīng)完成訂單支付,在實例釋放后會收到相應的退款。 為提高實例創(chuàng)建成功率,建議您:
|
ErrorDetected | 本地磁盤出現(xiàn)損壞告警 | 嚴重 |
| 當阿里云識別到ECS實例的本地盤出現(xiàn)了非預期的軟硬件損壞,導致該磁盤無法正常進行讀寫時,立即發(fā)送該系統(tǒng)事件。 | 建議您完成準備工作,包括修改/etc/fstab配置文件、備份數(shù)據(jù)等,然后選擇合適的時間操作隔離壞盤并恢復本地盤。 根據(jù)實例規(guī)格的不同,支持的操作也不同,具體說明如下:
說明 詳細的運維流程說明,請參見本地盤實例運維場景③。 |
Stalled | 磁盤性能受到嚴重影響 | 嚴重 |
| 當阿里云識別到ECS實例所掛載云盤出現(xiàn)IO堵塞,導致云盤性能受到嚴重影響,無法進行正常讀寫時,立即發(fā)送該系統(tǒng)事件。 | 建議您在應用層隔離對該云盤的讀寫操作,或從負載均衡實例中暫時移除該實例。 |
實例費用事件
事件Code | 事件名稱 | 事件等級 | 云監(jiān)控事件名稱 | 事件說明和影響 | 用戶側(cè)處理建議 |
InstanceExpiration.Stop | 因包年包月期限到期實例停止 | 嚴重 | 未定義 | 在包年包月實例到期停止前3天,發(fā)送該系統(tǒng)事件。 | 建議您及時續(xù)費實例,具體操作,請參見續(xù)費實例。 |
InstanceExpiration.Delete | 因包年包月期限到期實例釋放 | 嚴重 | 未定義 | 在包年包月實例到期自動釋放前3天,發(fā)送該系統(tǒng)事件。 | 建議您及時續(xù)費實例,具體操作,請參見續(xù)費實例。 |
AccountUnbalanced.Stop | 因賬號欠費按量付費實例停止 | 嚴重 | 未定義 | 在按量付費實例因賬號欠費停止前1小時,發(fā)送該系統(tǒng)事件。 | 建議您及時為賬號充值,避免實例因支付方式余額不足而釋放。 |
AccountUnbalanced.Delete | 因賬號欠費按量付費實例釋放 | 嚴重 | 未定義 | 在按量付費實例因賬號欠費自動釋放前3天,發(fā)送該系統(tǒng)事件。 | 建議您及時為賬號充值,避免實例因支付方式余額不足而釋放。 |
未定義 | 因賬號欠費磁盤釋放 | 嚴重 | Disk:OverduePaymentRelease:因賬號欠費磁盤釋放 | 在按量付費云盤因賬號欠費自動釋放時,立即發(fā)送該系統(tǒng)事件。 | 建議您及時為賬號充值,避免實例因支付方式余額不足而釋放。 |
實例因底層升級需遷移事件
事件Code | 事件名稱 | 事件等級 | 云監(jiān)控事件名稱 | 事件說明和影響 | 用戶側(cè)處理建議 |
SystemUpgrade.Migrate | 實例因底層升級需遷移 | 嚴重 | 未定義 | 如果阿里云升級和改造物理基礎設施時,可能影響對應地域和可用區(qū)中的實例,將提前向您發(fā)送該系統(tǒng)事件。 | 建議您登錄ECS控制臺查看系統(tǒng)事件詳情,并按照提示遷移實例。具體操作,請參見實例因底層升級需遷移。 |
突發(fā)性能實例性能受限事件
事件Code | 事件名稱 | 事件等級 | 云監(jiān)控事件名稱 | 事件說明和影響 | 用戶側(cè)處理建議 |
Instance:BurstablePerformanceRestricted | 突發(fā)性能實例性能受限 | 警告 | Instance:BurstablePerformanceRestricted:突發(fā)性能實例性能受限 | 突發(fā)性能實例累積CPU積分為0時,立即發(fā)送該系統(tǒng)事件。 | 建議您根據(jù)需要選擇一種響應方式:
如果您需要自定義觸發(fā)通知的閾值,例如希望在累積CPU積分連續(xù)10分鐘小于10時收到通知,可以在云監(jiān)控控制臺設置閾值報警規(guī)則。具體操作,請參見監(jiān)控突發(fā)性能實例。 |
實例安全事件
事件Code | 事件名稱 | 事件等級 | 云監(jiān)控事件名稱 | 事件說明和影響 | 用戶側(cè)處理建議 |
Security.DDoSDefense | DDoS安全攻擊事件 | 嚴重 |
| 當ECS實例遭受DDoS攻擊,且攻擊帶寬<免費防御的流量閾值時(DDoS基礎防護能力),阿里云會在觸發(fā)流量清洗時和清洗結束后,向您發(fā)送該事件。 | 建議您在收到該事件后進行應急處理,例如,設置清洗閾值,避免使用固定閾值可能導致的誤清洗。具體操作,請參見設置流量清洗閾值。 重要 如果您的正常業(yè)務流量(bps)大于黑洞閾值,請您及時提升資產(chǎn)規(guī)格,否則可能會被識別為異常流量導致資產(chǎn)進入黑洞。 |
Security.DDoSHole | 嚴重 |
| 當DDoS攻擊的峰值帶寬>ECS實例的DDoS的防御能力時,被攻擊的ECS實例IP產(chǎn)生黑洞,阿里云會在進入黑洞時和解除黑洞后,向您發(fā)送該事件。 | 長期防護DDoS攻擊是降低被攻擊風險的最佳途徑,針對大流量DDoS攻擊,建議使用阿里云DDoS高防服務。更多詳情,請參見什么是DDoS高防。 | |
SecurityPunish.Locked | 實例被安全封禁事件 | 嚴重 |
| 當阿里云識別到您的ECS實例存在安全違規(guī)內(nèi)容(包括挖礦類、欺詐類、有害信息等違規(guī))時,將提前向您發(fā)送該系統(tǒng)事件。 | 建議您根據(jù)需要選擇一種響應方式:
|
SecurityPunish.WebsiteBanned | 實例內(nèi)網(wǎng)站被封禁事件 | 嚴重 |
| 當阿里云識別到您的ECS實例上存在安全違規(guī)的域名或網(wǎng)站時,立即封禁該網(wǎng)站或域名,并發(fā)送該系統(tǒng)事件。 | 建議您清理違規(guī)內(nèi)容后申請解封,更多詳細信息,請參見違規(guī)信息處罰快速解封。 |
Security.TpmAlert | 可信事件 | 警告 |
| 當阿里云識別到安全增強型實例出現(xiàn)可信異常時,立即發(fā)送該事件。 | 建議您登錄ECS控制臺查看系統(tǒng)事件詳情,定位異常原因并處理異常。具體操作,請參見處理可信異常。 |
狀態(tài)變化事件
事件Code | 事件名稱 | 事件等級 | 云監(jiān)控事件名稱 | 事件說明和影響 | 用戶側(cè)處理建議 |
Instance:PreemptibleInstanceInterruption | 搶占式實例中斷通知 | 警告 | Instance:PreemptibleInstanceInterruption:搶占式實例中斷通知 | 在搶占式實例被回收前5分鐘發(fā)送該系統(tǒng)事件。 | 建議您:
|
Instance:ModifyInstanceSpec.Reboot | 實例因規(guī)格變更需重啟生效 | 嚴重 |
| 在實例規(guī)格發(fā)生變更之后,需要通過重啟實例來使新規(guī)格配置生效。在新訂單生效后7天內(nèi),如用戶未主動進行實例重啟,系統(tǒng)會強制重啟實例,將實例規(guī)格變更為預期規(guī)格。 | 建議您: |
Instance:PerformanceModeChange | 突發(fā)性能實例性能模式切換 | 警告 | Instance:PerformanceModeChange:突發(fā)性能實例性能模式切換 | 在突發(fā)性能實例從無性能約束模式切換為性能約束模式、或者從性能約束模式切換為無性能約束模式時,產(chǎn)生該系統(tǒng)事件。 | 建議您根據(jù)需要判斷是否關注該系統(tǒng)事件,如需關注可以在云監(jiān)控控制臺設置事件通知。具體操作,請參見訂閱ECS系統(tǒng)事件通知。 |
Instance:StateChange | 實例狀態(tài)改變通知 | 信息 | Instance:StateChange:實例狀態(tài)改變通知 | 在實例狀態(tài)發(fā)生改變時,例如從運行中變?yōu)橥V怪小耐V怪凶優(yōu)橐淹V梗a(chǎn)生該系統(tǒng)事件。 | 建議您根據(jù)需要判斷是否關注該系統(tǒng)事件,如需關注可以在云監(jiān)控控制臺設置事件通知。具體操作,請參見訂閱ECS系統(tǒng)事件通知。 |
Instance:AutoReactivateCompleted | 完成自動重開機 | 信息 | Instance:AutoReactivateCompleted:完成自動重開機 | 在您結清了欠費賬單且實例完成自動重啟時,產(chǎn)生該系統(tǒng)事件。 | 建議您根據(jù)需要判斷是否關注該系統(tǒng)事件,如需關注可以在云監(jiān)控控制臺設置事件通知。具體操作,請參見訂閱ECS系統(tǒng)事件通知。 |
Instance:LiveMigrationAcrossDDH | 實例在專有宿主機間熱遷移 | 信息 | Instance:LiveMigrationAcrossDDH:實例在專有宿主機間熱遷移 | 在實例發(fā)生熱遷移時,產(chǎn)生該系統(tǒng)事件。 | 建議您根據(jù)需要判斷是否關注該系統(tǒng)事件,如需關注可以在云監(jiān)控控制臺設置事件通知。具體操作,請參見訂閱ECS系統(tǒng)事件通知。 |
Disk:DiskOperationCompleted | 磁盤操作完成 | 信息 | Disk:DiskOperationCompleted:磁盤操作完成 | 在手動掛載或卸載了按量付費磁盤時,產(chǎn)生該系統(tǒng)事件。 | 建議您根據(jù)需要判斷是否關注該系統(tǒng)事件,如需關注可以在云監(jiān)控控制臺設置事件通知。具體操作,請參見訂閱ECS系統(tǒng)事件通知。 |
Disk:ConvertToPostpaidCompleted | 轉(zhuǎn)換磁盤到按量付費完成 | 信息 | Disk:ConvertToPostpaidCompleted:轉(zhuǎn)換磁盤到按量付費完成 | 在包年包月磁盤轉(zhuǎn)換為按量付費磁盤時,產(chǎn)生該系統(tǒng)事件。 | 建議您根據(jù)需要判斷是否關注該系統(tǒng)事件,如需關注可以在云監(jiān)控控制臺設置事件通知。具體操作,請參見訂閱ECS系統(tǒng)事件通知。 |
Snapshot:CreateSnapshotCompleted | 磁盤快照創(chuàng)建完成 | 信息 | Snapshot:CreateSnapshotCompleted:磁盤快照創(chuàng)建完成 | 在磁盤的快照創(chuàng)建完成時,產(chǎn)生該系統(tǒng)事件。 | 建議您根據(jù)需要判斷是否關注該系統(tǒng)事件,如需關注可以在云監(jiān)控控制臺設置事件通知。具體操作,請參見訂閱ECS系統(tǒng)事件通知。 |
Snapshot:SnapshotDeleted | 快照刪除完成事件 | 信息 | Snapshot:SnapshotDeleted:快照刪除完成事件 | 在手動快照或自動快照刪除完成時,產(chǎn)生該系統(tǒng)事件。 | 無 |