高級監控報警能夠為阿里云Elasticsearch實例設置更細粒度的指標報警規則。例如某個分片的QPS達到某個量級,就會觸發報警,并發送報警通知。通過報警規則配置,您可以設置多維度的監控指標和Tags,幫助您快速定位Elasticsearch的性能問題,提高運維排查效率。本文為您介紹如何配置報警規則,并提供詳細的參數說明。
前提條件
已創建阿里云Elasticsearch實例。阿里云Elasticsearch所有版本都支持接入高級監控報警服務,僅內核版本大于1.2.0的6.7.0或7.10.0版本支持引擎指標監控。
創建實例的具體操作,請參見創建阿里云Elasticsearch實例。
如果內核版本低于1.2.0,可升級內核版本。具體操作請參見升級版本。
創建報警規則
規則類型
報警規則類型固定為指標報警,表示對指定指標(metric)設置報警閾值。
基本信息
參數 | 說明 |
規則名稱 | 長度為1~30個字符,以大小寫字母、數字或中文開頭,可包含下劃線(_)或連字符(-)。 |
描述備注 | 長度為1~100個字符,請填入規則的簡單描述,便于快速排查定位。 |
指標預覽
定義了報警指標及tags后,系統會自動生成指標預覽圖。默認情況下,組成指標預覽圖中的每個點的間隔是1分鐘。
由于指標預覽圖默認采樣周期為1分鐘,而底層默認采樣周期為5s,因此系統會通過采樣聚合算法,將1分鐘內多個數據點聚合成一個點。
由于索引中包含多個shard,而每個shard會產生一條曲線,因此系統會通過指標聚合算法,將多個曲線合成一條曲線,形成索引的監控曲線圖。
指標
單指標
從指標列表中,選擇報警指標。或在輸入框中輸入指標前綴,例如輸入elasticsearch-server.bulk,系統將匹配以此前綴開頭的所有指標供您選擇。指標說明請參見引擎指標或者基礎指標。
多指標
單擊增加指標,可添加多個指標。添加后,系統會根據多指標運算結果,判斷是否觸發報警。
每個指標都會對應一個標簽名,例如上圖中的指標a、指標b。
必須添加同一類型的指標,例如添加多個QPS監控類指標。
expression:多指標間的計算表達式,運算符支持+、-、*、/、&&、||、>、<,默認為+。例如上圖中生成的指標圖為:在各個時刻,指標a的值與指標b的值進行求和,其結果隨時間變化的曲線圖。
例如expression為(a>1200) && (b<1500) && (c<1),表示系統將繪制這個表達式在各個時刻的計算結果。由于該表達式為布爾表達式,因此這個表達式的指標預覽圖中曲線的取值是0或1。
tags(可選)
定義指標屬性標簽,即進一步對指標進行過濾。取值是一組鍵值對。
屬性說明
根據下表說明,填寫需要進行指標數據采集的屬性值。
參數
說明
instanceId
實例ID。
shard_id
分片ID。
ip
集群中節點的IP地址。
index
索引的名稱。
primary
分片的屬性,取值如下:
true:主分片
false:副本分片
空:主分片和副本分片
高級配置
參數
說明
指標聚合
如果tags中存在多個取值,系統將生成多條曲線。指標聚合用來定義多個曲線合成一條曲線的算法。支持算法:sum()、avg()、max()、min()、count()。
采樣聚合
由于指標預覽圖默認采樣周期為1分鐘,而底層默認采樣周期為5s,因此系統會通過指標聚合算法,將1分鐘內多個數據點聚合成一個點。支持算法:sum()、avg()、max()、min()。
tags語法
tags支持根據多個屬性值進行過濾。例如同時對a集群和b集群的查詢QPS進行監控報警,則instanceId設置為literal_or(a|b),詳細語法如下。
名稱
說明
示例
literal_or
過濾出滿足一個或多個屬性值的數據。
host=literal_or(web01|web02|web03):過濾出host為web01、web02或web03的數據。
not_literal_or
過濾出不包含一個或多個屬性值的數據。
host=not_literal_or(web01|web02|web03):過濾出host不為web01、web02或web03的數據。
wildcard
過濾出滿足通配符的屬性值的數據。
host=wildcard(web*):過濾出host以
web
開頭的數據。
觸發條件
定義報警條件。即當監控指標項滿足您定義的報警觸發條件后,系統將通知您。
參數 | 說明 |
閾值報警 | 當監控指標到達或超過設置的閾值時,系統會觸發對應的WARNING或CRITICAL報警。 |
波動報警 | 波動報警支持對波動變化率或變化值進行監控。例如當前指標的值為a,某個指定時間點前的指標的值為b,系統會計算差值(a-b)或者變化率(a-b)/b,并與設定的閾值進行比較,如果符合條件,則觸發報警。 |
高級配置 |
|
無數據校驗(可選)
當指標數據為空時,是否觸發報警,默認為忽略。如果指定為CRITICAL報警,當連續一段時間(默認1分鐘)沒有監控到數據時,系統將進行無數據報警。
建議您選擇忽略。如果遇到監控自身原因,導致采集的數據為空,也會觸發報警。
規則觸發后動作
參數 | 說明 |
生效時段 | 接收報警消息通知的時間段。默認每天24小時都接收通知,每隔5分鐘發送一次。 |
通知人 | 發生報警時,需要通知的對象。支持選擇聯系人和聯系組,如果選擇聯系組,系統會為該組中的所有成員發送消息。如果您還沒有聯系人或聯系人組,需要在聯系人管理頁面創建,具體操作請參見管理報警聯系人和管理報警聯系人組。 |
通知方式 | 報警通知的方式。您可以為不同等級的報警指定不同的通知方式。 |
完成配置后,您可以單擊校驗,校驗通知人是否已配置對應的聯系方式。校驗結果對創建規則無影響。