數據庫計劃內事件通用說明
為提供持續、穩定且優質的云數據庫服務,我們可能會對您的部分實例發起計劃運維事件進行軟硬件、配置升級和網絡換代升級,事件類型涉及實例遷移、主備切換、版本升級、參數調整等。運維事件通常會產生實例連接閃斷影響,請確保業務應用具備斷線重連機制。實際影響請以各事件對應的具體影響說明為準。
事件通知說明
計劃內事件通常會提前1~3天根據消息中心消息中心相關配置( )下發短信、郵件通知到消息訂閱人,請確保您的主賬號配置了正確的接收人并開啟短信和郵件通道訂閱。當您接收到標題為“數據庫計劃內運維事件通知”的通知后,您可以在對應產品控制臺的事件中心(或事件管理)的計劃內事件頁面中查看具體的事件類型、地域、原因、取消風險以及涉及的實例列表,也可以根據需要調整實例計劃切換時間為業務低峰期。
注意事項
事件按緊急程度不同分為兩類:
【S0緊急級別】風險修復:通常是非預期的需要盡快修復避免故障的場景,因此其通知可能會提前3天或更早且允許修改計劃切換時間的窗口更小,典型場景為緊急問題版本替換升級、宿主機異常修復、SSL證書過期升級等。
【S1計劃級別】系統維護:通常是低風險問題修復或有計劃的軟硬件升級換代,通常提前3天以上發送通知且允許用戶取消事件。
為了確保您能接收運維事件的預約通知,您需要登錄消息中心消息中心,確保云數據庫故障或運維通知的通知方式復選框處于選中狀態并設置消息接收人(推薦設置為數據庫運維人員),否則您將無法收到事件通知信息。通知方式為短信、郵件、站內信,建議同時選中短信和郵件,提高觸達成功率。通知方式為郵件、站內信,建議選中郵件,提高觸達成功率。
圖1 消息中心通知設置入口
圖2 云數據庫通知設置
如您需要第一時間獲知運維事件的動態或者希望通過事件驅動的方式做自定義運維自動化,您可以通過云監控平臺配置系統事件訂閱。云數據庫會對運維事件的生命周期(預約、開始、完成、取消等)推送云監控系統事件。具體操作,請參見管理事件訂閱(推薦)管理事件訂閱(推薦),可訂閱的云監控事件參見附錄1 云監控相關系統事件。
云監控事件格式示例:
{ "eventId": "c864b30b-7f69-5f04-b0e7-8dfb0eabcfd9", // 事件ID,同一個事件的ID相同 "product": "RDS", // 產品代碼 "reason": "Host software/hardware upgrade", // 事件原因 "extra": { "impactZh": "實例閃斷", // 事件影響 "impactEn": "Transient instance disconnection", // 事件影響 "eventCode": "rds_apsaradb_transfer", // 運維事件類型代碼 "eventNameEn": "Instance migration", // 運維事件名稱 "eventNameZh": "實例遷移", // 運維事件名稱 "switchTime": "2024-09-15T01:30:00+08:00", // 計劃切換時間,如果有切換即為實例連接閃斷的時間 "startTime": "2024-09-14T21:30:00+08:00", // 計劃開始時間,進入調度隊列等待執行 "cancelCode": "OutOfGoodPerfBySoftHardwareUpgrade", // 取消風險碼,參見附錄2: 詳細原因碼和取消風險 "detailCode": "HostSoftHardwareUpgrade", // 詳細原因碼,參見附錄2: 詳細原因碼和取消風險 "instanceInfo": "" }, "instanceId": "rm-2ze9d66o65q1g02g6", // 實例ID "eventType": "Maintenance", "instanceComment": "rm-2ze9d66o65q1g02g6", // 實例別名 "instanceType": "Instance", "publishTime": "2024-09-10T16:01:47+08:00" }
操作步驟
登錄各產品管理控制臺。
在左側導航欄單擊,并在控制臺上方選擇地域。
在計劃內事件頁面,可查看事件詳細信息,默認顯示的為計劃中未完結的事件,查看歷史已完結事件可以點擊已完成或已取消切換查詢,事件屬性的詳細介紹如下:
屬性
示例
說明
事件類型
風險修復
事件按緊急程度不同分為“風險修復”和“系統維護”。
運行狀態
等待執行
事件的調度狀態,需要關注的狀態如下:
等待設置時間:事件的執行時間為空,需要您根據業務情況設置時間,如果截至最晚操作時間仍未設置時間,系統會自動取消且不會自動執行。
等待執行:事件等待到達計劃開始時間進入到調度階段。
執行中:事件進入調度執行,此時無法人工干預,如需緊急終止需要提工單(非標操作可能有未知風險)。
成功結束:執行成功。
已取消:執行失敗或取消,常見取消原因。
客戶自主取消(UserCancel):用戶在控制臺或通過OpenAPI取消。
客戶響應超時(UserResponseTimeout):需要指定時間的事件超截止時間未設置時間,事件自動取消。
數據庫管控取消(SupervisorCancel):事件發起端主動取消。
無需執行的規避性取消(AvoidCancel):風險已解除或實例當前狀態已無需執行此事件,比如實例已經是最新版本無需再做升級。
系統自動取消(AutoCancel):系統會對計劃中事件定期巡檢,如果實例不具備執行事件條件可能會被取消,比如當前實例狀態異常無法下發動作。
執行超時(ExecuteTimeout):事件進入執行隊列未在預期時間內完結。
執行失敗(ExecuteFail):事件執行過程中有未知異常失敗。
事件類型
小版本升級
參見事件的類型與影響。
事件原因
-
業務影響
實例閃斷
不同事件的業務影響不同,參見事件的類型與影響。
運維建議
確認業務應用具備數據庫自動重連機制并關注業務影響
不同事件的運維建議不同,參見附錄1 云監控相關系統事件。
計劃開始時間
-
事件開始進入到調度隊列的時間,在開始時間之前,此事件對實例無任何影響,過了開始時間您仍可正常訪問數據庫,但是無法執行實例級別的操作(例如變更配置、遷移可用區等);狀態為“等待設置時間”時此時間為空。
計劃切換時間
-
主備或鏈路切換(如果有)的時間,通常指實例連接有閃斷影響的時間;此時間是預估值,發生切換在此時間附近都符合預期,極端情況下,比如涉及回切可用區場景下可能有二次切換。
說明考慮到事件調度、數據準備耗時等因素通常在切換之前需要一定的前置準備時間,因此開始時間和切換時間有一定間隔,不同數據庫產品不同事件間隔可能不同。
最晚操作時間
-
可設置切換時間的最晚時間,要調整的切換時間不能晚于此時間。
是否可取消
是
如需屏蔽本次事件您可以操作取消,通常“系統運維”類事件開放此功能。
重要計劃事件通常是云數據庫管控系統定期巡檢下發,當次取消后可能會在下個巡檢周期有新事件下發,如果頻繁取消也可能會出現風險升級,建議您根據業務情況選擇合適時間執行而不是取消事件。取消后的風險參見附錄2 詳細原因碼和取消風險。
是否可改時間
是
絕大多數都可以調整事件執行時間,很少場景的高危風險緊急修復沒有足夠的執行時間調整窗口可能不允許調整時間。
修改計劃事件(可選)
可選中需要調整執行時間的記錄,點擊修改計劃事件進入設置切換時間界面,支持兩種修改方式:
立即執行:即任務開始時間將設置為當前時間,隨后進入執行隊列立即執行。
指定切換時間:根據可配置切換時間范圍選擇合適的時間點作為切換時間執行,開始時間將會根據切換時間自動計算,但新的開始時間不能早于當前時間,否則無法修改。
修改周期時間窗口(可選)
點擊事件列表右上角的“周期時間窗口配置”可進入周期時間窗口配置頁面。
計劃內事件的執行時間通常是根據實例的運維時間自動計算的(參見設置可維護時間段 RDS|Tair/Redis|MongoDB|PolarDB),您也可以根據自己的運維需要自定義周期時間窗口,云數據庫在后續發起新事件時會優先根據您設置的時間窗口編排計算執行時間。
支持按月或周兩個維度設置窗口,例如設置的周期切換時間為每周一、周二的02:00~03:00,云平臺的計劃事件窗口為本周二至下周日,則事件的切換時間會命中本周二的02:00~03:00和下周一的02:00~03:00,通常優先選擇本周二切換。
重要此配置僅對未來新的事件有效,當前事件列表中的事件如果希望調整時間請點擊“設置執行時間”
此配置僅作為輔助計算執行時間的配置且僅對事件類型為“系統維護”的事件有效,實際計算的執行時間請以事件列表的時間為準。
此配置為賬號級別配置,配置后所有支持周期時間的數據庫產品均會同步生效。
取消計劃事件(可選)
可選中需要取消的事件記錄,點擊取消計劃事件進入取消界面,知曉取消風險后可點擊確認發起取消。
事件的類型與影響
事件類型 | 影響類型 | 影響說明 |
實例遷移 | 實例閃斷 | |
主備切換 | ||
實例參數調整 | ||
主機風險修復 | ||
SSL證書更新 | ||
備份模式升級 | ||
可用區遷移 | ||
小版本升級 | 實例閃斷 | |
小版本號間的差異 | 不同的小版本號(內核版本號)更新的內容有所區別,您需要關注升級后的小版本和當前小版本的差異,具體請參見相關產品的小版本更新日志(部分產品暫未開放小版本更新日志):
| |
代理小版本升級 | 實例閃斷 | |
小版本號間的差異 | 不同的小版本號更新的內容有所區別,您需要關注升級后的小版本和當前小版本的差異,具體請參見相關產品的小版本更新日志(部分產品沒有代理節點或暫未開放代理節點更新日志):
| |
網絡升級 | 實例閃斷 | |
VIP直連影響 | 部分網絡升級過程中可能涉及跨可用區遷移,實例的虛擬IP(VIP)地址會發生改變,如果客戶端使用VIP連接云數據庫將會引起連接中斷。 說明 為避免影響,您應當使用實例提供的域名形式的連接地址,同時關閉應用及其所屬服務器的DNS緩存。 | |
存儲網關升級 | I/O 抖動 | 可能出現短暫的I/O抖動或SQL時延增加,影響的時間不超過3秒。 |
受影響實例
根據實例類型和引擎查看下表中對應的文檔,了解待處理事件的原因及對應的影響,您還可以根據業務需求處理該事件(例如將 計劃切換時間 延后至業務低峰期)。
如果系統提示的計劃切換時間不合適,您可以將計劃切換時間設定在該事件產生后30天內的某個時間點。
如需第一時間獲知待處理事件的動態(例如事件的產生和執行情況),您可以通過云監控平臺配置事件報警。具體操作,請參見訂閱事件通知。
實例類型 | 引擎 | 相關文檔 |
不涉及 | ||
不涉及 | ||
不涉及 |
常見問題
1 關于通知
為提供持續、穩定且優質的云數據庫服務,我們可能會對您的部分實例發起計劃運維事件進行軟硬件、配置升級和網絡換代升級,事件類型涉及實例遷移、主備切換、版本升級、參數調整等。如果您開啟了實例的自動版本升級,您會定期收到小版本升級事件通知。
由于運營商的通知狀態回調有一定延時,您收到通知后可以等1~3分鐘嘗試重新刷新計劃內事件頁面,另外,請注意需要切換到實例所在的正確地域。
郵件標題關鍵字為“阿里云數據庫網絡升級通知”等非數據庫計劃內事件運維通知,是由底層網絡等基礎設施團隊發起的軟硬件升級,此類通常是集群或機房級別變更,并不是數據庫實例級別變更,無法針對某個實例修改執行時間或取消,因此不會有計劃內事件記錄,且具體的影響和說明請以當次的郵件或站內信為準。
2 關于開始時間和切換時間
過了開始時間,事件進入調度隊列等待執行,其中包括任務檢查、環境初始化以及運維動作編排等環節,此時可能還沒有下發實例級別任務,對實例可用性無任何影響,請耐心等待,您只需要關注切換時間。
不同數據庫產品不同變更事件對應的運維編排可能不同,過了開始時間下發任務的時機也不同,比如高可用實例的實例遷移過程通常為備庫跨機重搭+主備切換+備庫跨機重搭,如果只是做主實例遷移其遷移過程為主備切換+備庫重搭,此時過了開始時間也不會立即下發任務,會持續等待到切換時間附近下發切換。
您可以通過控制臺或API修改,具體操作參見修改計劃事件(可選)和ModifyActiveOperationTasks。
不支持修改計劃切換時間的場景如下:
事件狀態為執行中。
事件已經過了開始時間。
當前時間晚于事件最晚操作時間。
新的事件開始時間早于當前時間。
事件自身不支持修改切換時間。
按設定事件切換時間不能晚于“最晚操作時間”,此時間是系統定義的安全操作窗口,如果晚于此時間可能會有故障風險,建議優先在此時間之前執行。如已知曉風險仍需要延期,可以提工單修改。
當前僅展示遷移的開始時間和預估切換時間,由于受網絡、任務隊列、數據量大小等多種因素影響,無法預估結束的時間。
不會,超過截止時間未設置時間會自動取消,系統判定如需繼續變更會重新下發預約通知。
3 關于事件操作
通常不建議取消,您可以推遲計劃切換時間,例如選擇一個業務低峰期時間點來執行。如果您確實有取消事件的訴求,請參考操作步驟6. 可選:取消計劃事件。
大部分事件是巡檢系統周期性巡檢下發的,如果手動取消當次事件,在一定靜默期(1~30天不等)后可能會重復下發,具體下發周期可根據具體原因在附錄2 詳細原因碼和取消風險查看(僅供參考)。
計劃內事件旨在提升服務質量和穩定性,強烈建議開啟,屏蔽后可能有穩定性風險。
如已知曉風險仍需屏蔽,可提工單,但為了保障服務穩定性,對于緊急風險修復事件無法屏蔽,典型場景為:宿主機故障、磁盤滿鎖定、SSL證書過期升級等。
4 其他問題
實例對應的變更動作完成后會從計劃內事件中移除,可在已完成事件中查看,如需事件驅動地感知其狀態可以參考注意事項3訂閱云監控系統事件。
不會,實例的可用區、賬號、網絡、連接地址均不會發生變化。
附錄1 云監控相關系統事件
事件代碼 | 事件名稱 | 觸發時機 | 運維建議 |
Instance:SystemMaintenance.MinorVersionUpgrade:Scheduled | 實例小版本升級(計劃中) | 發起小版本升級預約 | 事件未開始,實例可用性無影響。 |
Instance:SystemMaintenance.MinorVersionUpgrade:Executing | 實例小版本升級(開始執行) | 開始執行小版本升級 | 事件開始進入到執行隊列,此狀態下通常不允許人工干預,容易出現未知問題。 |
Instance:SystemMaintenance.MinorVersionUpgrade:Executed | 實例小版本升級(執行完成) | 完成小版本升級 | 事件執行成功,過程中可能有主備切換,請觀察業務影響。 |
Instance:SystemMaintenance.MinorVersionUpgrade:Canceled | 實例小版本升級(已取消) | 小版本升級失敗或取消 | 事件執行失敗或因為部分原因(比如已經是最新版本無需升級)自動取消,實例可用性無影響。 |
Instance:SystemMaintenance.Transfer:Scheduled | 實例遷移(計劃中) | 發起實例遷移預約 | 事件未開始,實例可用性無影響。 |
Instance:SystemMaintenance.Transfer:Executing | 實例遷移(開始執行) | 開始執行實例遷移 | 事件開始進入到執行隊列,此狀態下通常不允許人工干預,容易出現未知問題。 |
Instance:SystemMaintenance.Transfer:Executed | 實例遷移(執行完成) | 完成實例遷移 | 事件執行成功,過程中可能有主備切換,請觀察業務影響。 |
Instance:SystemMaintenance.Transfer:Canceled | 實例遷移(已取消) | 實例遷移失敗或取消 | 事件執行失敗或因為部分原因(比如用戶提前手動遷移過實例)自動取消,實例可用性無影響。 |
Instance:SystemMaintenance.ScheduledOperation:Scheduled | 實例計劃內事件(計劃中) | 其他計劃運維事件預約 | 事件未開始,實例可用性無影響。 |
Instance:SystemMaintenance.ScheduledOperation:Executing | 實例計劃內事件(開始執行) | 開始計劃運維事件執行 | 事件開始進入到執行隊列,此狀態下通常不允許人工干預,容易出現未知問題。 |
Instance:SystemMaintenance.ScheduledOperation:Executed | 實例計劃內事件(執行完成) | 完成計劃運維事件 | 事件執行成功,過程中可能有主備切換,請觀察業務影響。 |
Instance:SystemMaintenance.ScheduledOperation:Canceled | 實例計劃內事件(已取消) | 計劃運維事件執行失敗或取消 | 實例可用性無影響。 |
更多信息,請參見支持的云產品及其系統事件支持的云產品及其系統事件。
附錄2 詳細原因碼和取消風險
詳細原因碼 | 詳細原因描述 | 取消風險碼 | 取消風險描述 | 補充說明 | 觸發事件周期 |
InfraArchUpgrade | 底層基礎設施架構替換升級 | OutOfGoodPerfByHardwareUpgrade | 將無法體驗軟件升級后更好的性能和穩定性。 | 隨著產品形態和底層依賴的計算、存儲、網絡等資源的架構升級換代,為了提升云產品的服務質量和穩定性而下發實例升級或遷移動作。 | 月/季度 |
EnhanceStabilityAndResUtil | 提升實例穩定性和資源利用率 | ImpactStabAndResContention | 影響實例穩定性, 潛在影響為資源爭搶, 內核漏洞, 性能低于預期。 | - | 不定期 |
KernalExceptionRepair | 內核原因導致實例異常問題修復 | RiskEscatateToFailure | 風險可能升級為故障,影響實例可用性。 | 常見于內核緊急版本風險修復。 | 不定期 |
OldKernelVersionWithHardwareUpgrade | 內核版本過期升級同時升級硬件資源 | KernelVersionEndOfLife | 內核版本生命周期結束,同時實例無法使用新功能和性能優化。 | 常見于例行版本更新升級。 | 月/季度 |
KernelBugFix | 內核漏洞修復 | RiskEscatateToFailure | 風險可能升級為故障,影響實例可用性。 | 常見于內核緊急版本bugFix。 | 不定期 |
HostLoadHigh | 宿主機負載高 | HostLoadHighAffectStability | 宿主機負載過高對實例的性能和穩定性存在一定影響。 | 常見于宿主機硬件風險規避。 | 不定期 |
SoftwareUpgrade | 宿主機軟件升級 | OutOfGoodPerfByHardwareUpgrade | 將無法體驗軟件升級后更好的性能和穩定性。 | 宿主機操作系統或依賴插件冷升級。 | 月/季度 |
HardwareUpgrade | 底層硬件替換升級 | OutOfGoodPerfBySoftwareUpgrade | 將無法體驗軟件升級后更好的性能和穩定性。 | 宿主機硬件升級。 | 月/季度 |
HostSoftHardwareUpgrade | 宿主機軟件/硬件升級 | OutOfGoodPerfBySoftHardwareUpgrade | 將無法體驗軟件升級后更好的性能和穩定性。 | 宿主機軟硬件升級。 | 月/季度 |
HostCPUException | 宿主機CPU異常 | RiskEscatateToFailure | 風險可能升級為故障,影響實例可用性。 | - | 不定期 |
HostMemException | 宿主機內存異常 | RiskEscatateToFailure | 風險可能升級為故障,影響實例可用性。 | - | 不定期 |
HostDiskException | 宿主機磁盤異常 | RiskEscatateToFailure | 風險可能升級為故障,影響實例可用性。 | - | 不定期 |
KernelVersionWithServerlessUpgrade | 內核版本升級,同時公測實例升級至正式版。 | BetaVersionEndOfLife | 公測版本生命周期結束,實例無法使用新功能和性能優化。 | - | 月/季度 |
ParamRiskRepairOrOptimize | 參數風險修復或優化 | UnknownRisks | 可能導致未知風險。 | 常見于云數據庫有不合理的參數設置而下發的自動調優。 | 月/季度 |
PGOldKernelVersionWithHardwareUpgrade | 內核版本過期升級同時升級硬件資源,可能導致數據庫端口和跨庫連接串改變;由于Timescaledb、Postgis以及Ganos插件在版本過低情況下會不可用,因此會升級插件到最新版本。 | KernelVersionEndOfLife | 內核版本生命周期結束,同時實例無法使用新功能和性能優化。 | - | 月/季度 |
MaxScaleExceptionRepair | 代理組件風險修復 | RiskEscatateToFailure | 風險可能升級為故障,影響實例可用性。 | 常見于代理服務的緊急版本風險修復。 | 不定期 |
OriginalNetWorkHasFlawWithSqlTimeoutAndDIsconnection | 原網絡模式存在缺陷,會導致慢sql超時報錯以及偶發斷連,升級之后可提高穩定性。 | FlawNotResolvedAndAbnormalConnectionMayOccur | 網絡模式缺陷未解決,可能出現連接異常問題。 | - | 不定期 |
CKZKKernelResourceFlaws | 原Zookeeper內核資源分配邏輯存在缺陷,導致CPU、內存等硬件資源無法充分利用,升級ZK內核版本之后可以提高資源利用率。 | CKZKKernelResourceFlaws | 內核資源分配缺陷仍然存在,可能導致ZK出現性能瓶頸。 | 僅適用于ClickHouse | 不定期 |
CKZKBugExceptionRepair | 舊版本Zookeeper內核存在bug,可能導致CK節點與ZK連接異常,從而導致實例不可用。新版本ZK內核進行了bug修復,升級之后可提高穩定性。 | CKZKBugRisk | ZK內核bug未解決,仍存在CK節點與ZK連接異常風險,影響實例可用性。 | 僅適用于ClickHouse | 不定期 |
附錄3 事件類型
枚舉值 | 中文描述 | 英文描述 |
rds_apsradb_transfer | 實例遷移 | Instance migration |
rds_apsradb_upgrade | 小版本升級 | Minor version update |
rds_apsaradb_network_upgrade | 網絡升級 | Network upgrade |
rds_apsaradb_ha | 主備切換 | Primary/secondary switchover |
rds_apsaradb_ssl_update | SSL證書更新 | SSL certificate update |
rds_apsaradb_maxscale | 代理小版本升級 | Proxy minor version update |
rds_apsaradb_modify_config | 實例參數調整 | Instance config modify |
rds_apsaradb_major_upgrade | 大版本升級 | Major version update |
其他 | - | - |