當您需要修改實例或節點的配置,或者遇到集群或節點出現異常等情況時,可能需要重啟阿里云Elasticsearch實例或節點。本文介紹如何通過控制臺重啟阿里云Elasticsearch實例或節點。
前提條件
確保實例的狀態為正常(綠色)、索引至少包含1個副本、資源使用率不是很高。
重要對于多可用區實例,在變更時,需要確保集群中任意一個索引的副本數都小于可用區數。待變更完成后,您可以根據業務手動增加副本數。詳細信息請參見索引模板。
查看索引副本:登錄對應實例的Kibana控制臺(登錄Kibana控制臺),執行
GET _cat/indices?v
命令,在返回結果中查看對應索引的rep值,≥1表示該索引至少包含一個副本。查看資源使用率:在集群監控頁面查看,例如節點CPU使用率為80%左右,節點HeapMemory使用率為50%左右,節點load_1m低于當前數據節點的CPU核數。詳細信息,請參見指標含義與異常處理建議。
在Kibana控制臺執行以下命令,檢查集群中是否存在狀態為close的索引。如果存在,需要將對應索引的狀態暫時設置為open,否則變更不成功。
查看索引狀態
GET /_cat/indices?v
將close狀態的索引暫時設置為open狀態
POST /<index_name>/_open
<index_name>需要替換為狀態為close的索引名稱。
注意事項
如果集群整體負載不高且索引存在副本分片,一般情況下重啟過程中可對外持續提供服務。但在某些場景下,重啟過程中可能會出現訪問超時,例如強制重啟并發度高、集群負載很高并且已經存在集群訪問不可用的情況、沒有副本分片、在重啟或強制重啟過程中存在大量的寫入和查詢等場景,建議重啟前先在客戶端設計好重試機制并且在業務低峰期進行操作。
操作步驟
- 登錄阿里云Elasticsearch控制臺。
- 在左側導航欄,單擊Elasticsearch實例。
- 進入目標實例。
- 在頂部菜單欄處,選擇資源組和地域。
- 在Elasticsearch實例中單擊目標實例ID。
在基本信息頁面,單擊右上角的重啟。
在重啟對話框中,配置重啟參數。
參數
說明
操作類型
支持實例重啟、節點重啟和角色節點重啟:
實例重啟:重啟實例中所包含的所有節點。
節點重啟:重啟所選節點。
角色節點重啟:重啟所選的角色節點。
選擇節點
選擇待重啟的節點或角色節點。僅當操作類型為節點重啟或角色節點重啟時顯示。具體說明如下:
操作類型為節點重啟時:選擇待重啟的節點,支持選擇多個節點,實現批量重啟。
操作類型為角色節點重啟時:選擇待重啟的角色節點,例如數據節點、Kibana節點等。支持選擇多個角色節點。
藍綠變更
選擇是否進行藍綠變更。僅當操作類型為節點重啟或角色節點重啟時顯示。
選擇藍綠變更后進行重啟,阿里云Elasticsearch會在集群中添加一個新節點,將原節點上的數據遷移到新節點后,再將原節點刪除。當集群中單個節點的性能不佳時,例如CPU使用率持續高,可優先選擇藍綠變更功能。
重要請確保實例處于正常(綠色)狀態,以正常的方式觸發藍綠變更重啟。使用藍綠變更時,不允許對實例進行強制重啟。
勾選藍綠變更后進行重啟,會導致節點IP地址發生變化。如果在集群配置中指定了節點IP地址,請在變更完成后及時更新。
1核2 GB規格的實例不支持藍綠變更。如果要進行藍綠變更,需要將實例升配至2核4 GB及以上規格,具體操作請參見升配集群。
重啟方式
支持重啟和強制重啟:
重啟:當實例的狀態為正常(綠色)時,才可進行重啟,否則需要進行強制重啟。實例在重啟過程中可持續提供服務(需要滿足上文的前提條件),但耗時較長。
重要節點在重啟期間,對應的CPU和內存使用率會存在臨時突增的情況,可能會造成服務抖動,正常情況下過一段時間后會恢復正常。
目前阿里云Elasticsearch實例的重啟耗時與集群規模等因素有關。您可以在任務列表中查看實例的重啟進度。
強制重啟:當實例顯示為非正常狀態(黃色或紅色),此時將不支持重啟操作,需要進行強制重啟。
重要當磁盤的使用率超過cluster.routing.allocation.disk.watermark.low的配置時,可能會導致Elasticsearch實例的狀態變為非正常狀態(黃色或紅色)。當實例處于非正常狀態時,不建議對實例進行節點擴容、磁盤擴容、重啟、修改密碼或其他變更配置類的操作,請務必保證實例的狀態變為正常(綠色)后再進行這些操作。
設置并發度
并發度是指并發重啟的節點數,默認值為
(1/實例總節點數)*100%
。例如,并發度為10%,表示同時重啟集群中10%的節點。僅當重啟方式為強制重啟時顯示該參數。
提升并發度可以顯著加快實例強制重啟的速度,但并發度越高,強制重啟的影響也越大。如果并發度為100%,將同時重啟所有節點,導致集群無法訪問,未寫入磁盤的緩存數據可能存在丟失情況,一般建議在集群異常需緊急恢復場景應用。
說明預計所需總時間表示按照前一次單節點重啟時間的均值,乘以總節點個數進行評估。可能存在誤差,實際以真實重啟時間為準。
單擊確認,開始重啟操作。
說明如果是強制重啟,需要先勾選確認要強制重啟,進行重啟確認。
重啟過程中,實例狀態顯示為生效中。在頁面右上角單擊圖標,查看變更進度。重啟成功后,實例狀態顯示為正常。