高級監控報警服務能夠為您提供豐富的Elasticsearch(簡稱ES)指標,其中基礎指標不僅包含集群狀態、節點及索引數量等資源使用指標和集群或節點的寫入與讀取QPS等并發性能指標,還包括資源使用情況和網絡監控指標等,能夠幫助您更好地掌握ES集群的使用情況。通過使用高級監控報警服務,您不僅可以查看集群基礎指標大盤,還可以自定義相關報警規則,實時監控集群性能并發送報警通知。本文為您介紹默認基礎指標大屏中各監控項中的指標含義。
阿里云ES實例的版本不同,支持的高級監控指標也不同。
僅內核增強版實例支持index寫入和查詢QPS相關高級監控指標,通過引擎指標可獲取相關指標信息。
開啟共享彈性存儲功能的6.7版本實例不支持磁盤使用率相關指標。具體支持的指標請以控制臺為準。
類別 | 指標 | 含義 |
cluster | aliyunes.elasticsearch.index.summary.total.indexing.index_total_qps | 集群總體寫入QPS。展示了集群每秒寫入文檔的數量,具體說明如下:
|
aliyunes.elasticsearch.index.summary.total.search.query_total_qps | 集群總體查詢QPS。展示了集群每秒執行的查詢QPS數量,查詢QPS數量與待查詢索引的主分片個數有關。例如,待查詢索引有5個主分片,則一次查詢請求對應5個QPS。 | |
aliyunes.elasticsearch.cluster.stats.status | 集群狀態,支持以下三種狀態:
| |
aliyunes.elasticsearch.cluster.stats.indices.shards.count | shard數目。 | |
aliyunes.elasticsearch.cluster.stats.indices.total | index數目。 | |
aliyunes.elasticsearch.cluster.stats.nodes.count | 節點數目。 | |
aliyunes.elasticsearch.aliyun_auto_snapshot.latest_duration.ms | 最新快照持續時長,單位:ms。 | |
aliyunes.elasticsearch.cluster.stats.indices.fielddata.memory.bytes | fielddata內存使用情況,單位:Byte。 | |
aliyunes.elasticsearch.cluster.stats.indices.shards.primaries | 主shard數目。 | |
index | aliyunes.elasticsearch.index.segments.memory.bytes | index segments內存使用情況,單位:Byte。 |
aliyunes.elasticsearch.index.store.size.bytes | 索引存儲大小,單位:Byte。 | |
aliyunes.elasticsearch.index.segments.stored_fields_memory.bytes | segments stored fields的內存大小,單位:Byte。 | |
aliyunes.elasticsearch.index.segments.count | index segments數目。 | |
Node Resource | aliyunes.ecs.node_stats_process_cpu_percent_raw | 節點的CPU平均使用率。 |
aliyunes.ecs.node_stats_os_cpu_load_average_1m_raw | 節點每分鐘負載。 | |
aliyunes.ecs.node_stats_os_per_cpu_load_average_1m_raw | 節點單CPU每分鐘負載。 | |
aliyunes.elasticsearch.node.stats.jvm.mem.heap_used_percent | JVM堆內存使用率。 | |
aliyunes.ecs.node_stats_system_disk_space_usage | 系統磁盤使用率。 | |
aliyunes.ecs.node_stats_fs_data_disk_total_usage | 節點磁盤使用率。 | |
Node Network | aliyunes.ecs.node_stats_networkin_packages | 節點網絡流入包。 |
aliyunes.ecs.node_stats_networkout_packages | 節點網絡流出包。 | |
aliyunes.ecs.node_stats_networkin_rate | 節點網絡流入率。 | |
aliyunes.ecs.node_stats_networkout_rate | 節點網絡流出率。 | |
aliyunes.ecs.node_stats_tcp_established | 節點TCP鏈接數。 | |
Node Disk | aliyunes.ecs.node_stats_data_disk_r | 每秒完成的讀請求數量。 |
aliyunes.ecs.node_stats_data_disk_rm | 每秒鐘讀取的大小,單位:MB。 | |
aliyunes.ecs.node_stats_data_disk_w | 每秒完成的寫請求數量。 | |
aliyunes.ecs.node_stats_data_disk_wm | 每秒鐘寫入的大小,單位:MB。 | |
aliyunes.ecs.node_stats_data_disk_r_await | 平均每次讀請求的等待時間,單位:ms。 | |
aliyunes.ecs.node_stats_data_disk_w_await | 平均每次寫請求的等待時間,單位:ms。 | |
aliyunes.ecs.node_stats_data_disk_svctm | 平均每次請求的服務時間,單位:ms。 | |
aliyunes.ecs.node_stats_data_disk_util | 設備的利用率。 | |
aliyunes.ecs.node_stats_data_disk_avgqu_sz | 平均請求隊列的長度。 | |
Node JVM | aliyunes.elasticsearch.node.stats.jvm.mem.heap_used_percent | heap使用率。 |
aliyunes.elasticsearch.node.stats.jvm.mem.pools.old.used.bytes | old區使用情況,單位:Byte。 | |
aliyunes.elasticsearch.node.stats.jvm.gc.collectors.old.collection.ms | old GC耗時,單位:ms。 | |
aliyunes.elasticsearch.node.stats.jvm.gc.collectors.young.collection.ms | young GC耗時,單位:ms。 | |
aliyunes.elasticsearch.node.stats.jvm.gc.collectors.old.collection.count | old GC頻次。 | |
aliyunes.elasticsearch.node.stats.jvm.gc.collectors.young.collection.count | young GC頻次。 | |
aliyunes.elasticsearch.node.stats.jvm.mem.pools.survivor.used.bytes | survivor空間當前使用的內存量,單位:Byte。 | |
aliyunes.elasticsearch.node.stats.jvm.mem.pools.survivor.max.bytes | survivor空間使用的最大內存量,單位:Byte。 | |
aliyunes.elasticsearch.node.stats.jvm.mem.pools.old.peak.bytes | JVM老年代空間使用的最大內存,單位:Byte。 | |
aliyunes.elasticsearch.node.jvm.memory.nonheap.init.bytes | JVM初始化堆外內存,單位:Byte。 | |
aliyunes.elasticsearch.node.jvm.memory.nonheap.max.bytes | 堆外內存最大使用量,單位:Byte。 | |
Thread_pool | aliyunes.elasticsearch.node.stats.thread_pool.search.threads | 線程池中的線程總數。 |
aliyunes.elasticsearch.node.stats.thread_pool.search.rejected | 查詢線程池中被拒絕的請求數。 | |
aliyunes.elasticsearch.node.stats.thread_pool.search.queue | 查詢線程池中排隊的請求數。 | |
aliyunes.elasticsearch.node.stats.thread_pool.generic.queue | 通用線程池中排隊的請求數。 | |
aliyunes.elasticsearch.node.stats.thread_pool.generic.threads | 通用池中的線程總數。 | |
aliyunes.elasticsearch.node.stats.thread_pool.generic.rejected | 通用線程池中被拒絕的請求數。 |
部分指標開啟了rate能力,代表某一段時間的增長速率。監控存在一定的誤差,不是完全的精確,主要用于判斷變化情況,如果數據變化緩慢基本會被平均掉。
例如,old gc次數指標aliyunes.elasticsearch.node.stats.jvm.gc.collectors.old.collection.count是基于監控上兩點間采集count值,如果監控每1分鐘顯示一個點,在一分鐘的開始采集一次數據(gc累計是1000),在一分鐘的結尾采集一次數據(gc累計是1001次),則rate計算的是增長率(1001-1000)/60。
目前開啟rate能力的指標包括:
"metric": "aliyunes.elasticsearch.node.stats.jvm.gc.collectors.old.collection.ms"
"metric": "aliyunes.elasticsearch.node.stats.jvm.gc.collectors.old.collection.count"
"metric": "aliyunes.elasticsearch.node.stats.jvm.gc.collectors.young.collection.count"
"metric": "aliyunes.elasticsearch.node.stats.jvm.gc.collectors.young.collection.ms"
"metric": "aliyunes.elasticsearch.node.stats.thread_pool.search.rejected"
"metric": "aliyunes.elasticsearch.node.stats.thread_pool.write.rejected"
"metric": "aliyunes.elasticsearch.node.stats.thread_pool.generic.rejected"