通過阿里云Elasticsearch的事件中心功能,您可以查看對應的系統運維事件,并通過手動運維機制完成事件的追溯與處理。本文為您介紹如何查看事件并進行對應操作。
前提條件
已在支持事件中心功能的地域下創建阿里云Elasticsearch實例:
支持事件中心功能的地域包括:杭州、北京、上海、深圳、青島、張家口、成都、廣州、烏蘭察布、美國東部、美國西部、日本、印度尼西亞、中國香港,具體以控制臺為準。
創建實例的具體操作,請參見創建阿里云Elasticsearch實例。
注意事項
為保障云服務的可持續性,當探測到集群資源存在異常或風險,系統會自動觸發硬件運維事件,從而最大程度減少對集群的影響,運維事件執行期間可能會造成集群短時間的抖動,但正常的集群訪問不會受到影響。當系統無法自動執行或自動執行失敗后,您可以在事件中心頁面手動觸發節點重啟操作,人工可干預的窗口期為48小時。
查看事件
- 登錄阿里云Elasticsearch控制臺。
進入事件中心頁面。
您可以通過以下兩種方式進入事件中心頁面:
在概覽頁面的事件中心區域,單擊查看詳情。
在左側導航欄,單擊高級監控報警。再在高級監控報警頁面的左側導航欄,單擊事件中心。
選擇地域,查看對應地域下的事件。
您可以按照實例ID或節點IP查找事件,也可以按照事件創建時間、系統執行時間或系統完成時間篩選事件。
通過事件中心,您可以查看事件的相關信息或根據事件狀態進行相應操作,具體說明如下。
事件信息
說明
實例ID/實例名稱
觸發事件的目標實例ID和名稱。單擊實例ID,可進入實例管理頁面查看實例的詳細信息。
事件等級
事件的嚴重程度,包含:嚴重、警告。
節點IP
觸發事件的目標節點的IP地址。
事件狀態
事件的執行狀態,包含:待執行、執行中、已完成、執行失敗、已取消。
事件類型
事件的類型,包含:因探測節點失聯觸發的節點重啟、因底層資源運維觸發的節點重啟。
事件創建時間
系統探測到事件的時間。
系統執行時間
系統自動運維動作的開始時間。
系統完成時間
系統自動運維動作的結束時間,不受事件狀態(成功/失敗)影響。
操作
當事件狀態為執行失敗時,在系統完成時間后的48小時窗口期內,您可以在操作列下單擊重啟節點,手動重啟對應節點。
重要重啟操作會觸發底層資源重啟,為了您的集群穩定性,請不要在集群變更期間重啟,并在重啟后30分鐘內避免對集群進行其他變更。若重啟未能生效,系統會在下一次探測到異常后為您生成新事件。