異常應急功能展示了數據庫集群在最近 3 天內發生或正在發生的異常事件。您可以通過該功能快速獲取集群的健康狀態,并在異常事件發生時,進行根因分析,定位問題原因。
查看所有實例的異常事件列表
登錄 OceanBase 管理控制臺。
在左側導航欄,選擇 自治服務 > 異常應急。
在 異常事件 區域,查看所有實例的異常事件列表。
系統默認展示最近 3 天的全部異常事件,包括異常中的事件和已恢復的事件。目前支持以下異常事件類型:節點 CPU 異常、租戶 CPU 異常、租戶 SQL 隊列等待時間異常、數據盤 IO 使用率異常、租戶活躍會話數異常、租戶磁盤 IO 耗時異常。
查看單個實例的異常事件
在 異常事件 區域,單擊目標實例 操作 列的 根因分析。
系統自動跳轉到診斷中心的 異常應急 頁面。
在 異常事件 區域,查看目標實例的異常事件,包括 對象、異常類型、異常表現、當前狀態、發生時間、恢復時間、持續時間、操作。
單擊單個事件 操作 列的 根因分析,查看該事件的根因分析和優化建議。
如果異常事件的原因在分析圖譜中,系統會紅色高亮顯示該原因,并提供優化建議。
說明在分析圖譜中,每個節點代表一條分析規則。當進行異常分析時,系統會遍歷圖譜以找到根因節點。根因節點會被紅色高亮顯示,而綠色節點則表示該規則未命中根因。
示例如下:
當指定時間段內 租戶隊列等待變長 時,系統提供 CPU 占比過高 的提示。在可疑原因 區域,您可以單擊紅色高亮方框查看對應的根因分析。
在 SQL 匯總信息 區域,系統默認顯示 SQL 匯總時間段、總執行次數、總報錯次數、最大響應時間、CPU 時間、計劃生成時間。您可以通過單擊 列管理 查看更多信息。
在 可能的根因 SQL 區域,您可以查看可能引起該問題的 SQL,并單擊 操作 列的 查看 SQL 詳情。
如果異常事件的原因不在分析圖譜中,系統會在 解決方案 區域提供優化建議。示例如下:
當發現 租戶 CPU 異常 時,系統仍會顯示分析圖譜,并在 解決方案 區域提供優化建議。