監(jiān)控指標(biāo)說(shuō)明
本文為您介紹Flink全托管支持的監(jiān)控指標(biāo)詳情。
注意事項(xiàng)
Source端的指標(biāo)表現(xiàn)并不是判斷問(wèn)題根源的充分條件,只反映了Source當(dāng)前的工作狀況,您仍然需要其他輔助指標(biāo)或工具來(lái)判斷問(wèn)題的根源。常見(jiàn)問(wèn)題的指標(biāo)表現(xiàn)如下。
場(chǎng)景
詳情
作業(yè)中某些算子存在反壓
判斷反壓最直接的方式是使用Flink UI提供的反壓檢查功能,而不是通過(guò)指標(biāo)判斷。反壓的存在會(huì)導(dǎo)致Source端數(shù)據(jù)發(fā)送至下游算子的速率下降,您可能會(huì)觀察到sourceIdleTime周期性上升,currentFetchEventTimeLag和currentEmitEventTimeLag不斷增長(zhǎng)。極限情況下(某些算子卡死)sourceIdleTime會(huì)持續(xù)上升。
Source是性能瓶頸點(diǎn)
如果僅是Source的吞吐量不足,那么您的作業(yè)中不應(yīng)該檢測(cè)到反壓,sourceIdleTime會(huì)維持在較低的值(Source一直在工作),currentFetchEventTimeLag和currentEmitEventTimeLag接近,但是兩個(gè)指標(biāo)均較高。
上游數(shù)據(jù)傾斜或某個(gè)分區(qū)為空
數(shù)據(jù)傾斜或空分區(qū)會(huì)導(dǎo)致某一個(gè)或者幾個(gè)Source并行度處于閑置狀態(tài),您會(huì)觀察到這些Source的sourceIdleTime指標(biāo)較大。
如果您發(fā)現(xiàn)作業(yè)的延遲較高,則可以使用以下指標(biāo)幫您分析Flink當(dāng)前的處理能力,以及數(shù)據(jù)在外部系統(tǒng)中的滯留情況。
指標(biāo)
詳情
sourceIdleTime
該指標(biāo)反映Source是否有閑置,如果該指標(biāo)較大,說(shuō)明您的數(shù)據(jù)在外部系統(tǒng)中的產(chǎn)生速率較低。
currentFetchEventTimeLag和currentEmitEventTimeLag
均反映了Flink當(dāng)前處理的延遲,您可以通過(guò)兩個(gè)指標(biāo)的差值(即數(shù)據(jù)在 Source中停留的時(shí)間)分析Source當(dāng)前的處理能力。
如果兩個(gè)延遲非常接近,說(shuō)明Source從外部系統(tǒng)中拉取數(shù)據(jù)的能力(網(wǎng)絡(luò) I/O、并發(fā)數(shù))不足。
如果兩個(gè)延遲差值較大,說(shuō)明Source的數(shù)據(jù)處理能力(數(shù)據(jù)解析、并發(fā)、反壓)不足。
pendingRecords
如果您使用的連接器匯報(bào)了pendingRecords指標(biāo),那么您可以通過(guò)該指標(biāo)分析數(shù)據(jù)在外部系統(tǒng)的滯留量。
概覽
指標(biāo) | 含義 | 詳情 | 單位 | 支持的連接器 |
Num of Restarts | 作業(yè)錯(cuò)誤恢復(fù)次數(shù)。 | 作業(yè)出錯(cuò)重啟次數(shù),不包含JM Failover次數(shù)。查看作業(yè)可用性,協(xié)助您查看作業(yè)狀態(tài)。 | 次數(shù) | 不涉及 |
current Emit Event Time Lag | 業(yè)務(wù)延時(shí)。 | 該延時(shí)較大時(shí),說(shuō)明作業(yè)可能在拉取數(shù)據(jù)或者處理數(shù)據(jù)上存在延時(shí)。 | 毫秒(ms) |
|
current Fetch Event Time Lag | 傳輸延時(shí)。 | 該延時(shí)較大時(shí),說(shuō)明作業(yè)可能在拉取數(shù)據(jù)上存在延時(shí)。您需要查看網(wǎng)絡(luò)I/O或上游系統(tǒng)情況。結(jié)合currentEmitEventTimeLag,您可以通過(guò)兩個(gè)指標(biāo)的差值(即數(shù)據(jù)在Source中停留的時(shí)間)分析Source當(dāng)前的處理能力。詳情如下:
| 毫秒(ms) |
|
numRecordsIn | 所有Operator的輸入的記錄總數(shù)。 | 如果某個(gè)算子的numRecordsIn值長(zhǎng)時(shí)間未增漲,可能存在上游把數(shù)據(jù)都吞掉的情況,需要查看上游數(shù)據(jù)。 | 條 | 所有內(nèi)置連接器均支持。 |
numRecordsOut | 輸出記錄總數(shù)。 | 如果某個(gè)算子的numRecordsOut的值長(zhǎng)時(shí)間未增漲,說(shuō)明可能是作業(yè)代碼邏輯錯(cuò)誤,導(dǎo)致數(shù)據(jù)都被吞掉了,需要查看作業(yè)代碼邏輯。 | 條 | 所有內(nèi)置連接器均支持。 |
numRecordsInofSource | 每個(gè)Operator中僅source operator的輸入記錄。 | 查看上游數(shù)據(jù)輸入情況。 | 條 |
|
numRecordsOutOfSink | Sink端輸出記錄總數(shù)。 | 查看上游數(shù)據(jù)輸出情況。 | 條 |
|
numRecordsInPerSecond | 整個(gè)數(shù)據(jù)流每秒鐘輸入的記錄數(shù)。 | 用于需要監(jiān)控整個(gè)數(shù)據(jù)流的處理速度的場(chǎng)景。例如,您可以使用numRecordsInPerSecond來(lái)觀察整個(gè)數(shù)據(jù)流的處理速度是否達(dá)到了預(yù)期的水平,以及在不同的輸入數(shù)據(jù)負(fù)載下性能的變化情況。 | 條/秒 | 所有內(nèi)置連接器均支持。 |
numRecordsOutPerSecond | 整個(gè)數(shù)據(jù)流每秒鐘輸出的記錄數(shù)。 | 用于測(cè)量整個(gè)數(shù)據(jù)流每秒鐘輸出的記錄數(shù),適用于需要監(jiān)控整個(gè)數(shù)據(jù)流的輸出速度的場(chǎng)景。 例如,您可以使用numRecordsOutPerSecond來(lái)觀察整個(gè)數(shù)據(jù)流的輸出速度是否達(dá)到了預(yù)期的水平,以及在不同的輸出數(shù)據(jù)負(fù)載下性能的變化情況。 | 條/秒 | 所有連接器均支持。 |
numRecordsInOfSourcePerSecond (IN RPS) | 數(shù)據(jù)源Source端每秒輸入記錄數(shù)。 | 用于測(cè)量每個(gè)數(shù)據(jù)源每秒鐘生成的記錄數(shù),適用于需要了解每個(gè)數(shù)據(jù)源的生成速度的場(chǎng)景。例如,在一個(gè)數(shù)據(jù)流中,不同的數(shù)據(jù)源可能會(huì)產(chǎn)生不同數(shù)量的記錄,使用numRecordsInOfSourcePerSecond可以幫助您了解每個(gè)數(shù)據(jù)源的生成速度,并對(duì)數(shù)據(jù)流進(jìn)行調(diào)整以達(dá)到更好的性能,同時(shí)該數(shù)據(jù)用于監(jiān)控告警。 如果該值為0,說(shuō)明可能存在上游把數(shù)據(jù)都吞掉的情況,需要查看上游數(shù)據(jù)是否一直未被消費(fèi),導(dǎo)致輸出阻塞。 | 條/秒 |
|
numRecordsOutOfSinkPerSecond (OUT RPS) | 數(shù)據(jù)目的Sink端每秒輸出記錄數(shù)。 | 用于測(cè)量每個(gè)Sink端每秒鐘輸出的記錄數(shù),適用于需要了解每個(gè)Sink的輸出速度的場(chǎng)景。例如,在一個(gè)數(shù)據(jù)流中,不同的Sink可能會(huì)輸出不同數(shù)量的記錄。 使用numRecordsOutOfSinkPerSecond可以幫助您了解每個(gè)Sink的輸出速度,并對(duì)數(shù)據(jù)流進(jìn)行調(diào)整以達(dá)到更好的性能。該數(shù)據(jù)用于監(jiān)控告警,如果該值為0,說(shuō)明可能是作業(yè)代碼邏輯錯(cuò)誤,導(dǎo)致全部數(shù)據(jù)被過(guò)濾了,需要查看作業(yè)代碼邏輯。 | 條/秒 |
|
pendingRecords | 源端未讀取數(shù)據(jù)的條數(shù)。 | 外部系統(tǒng)中尚未被Source拉取的數(shù)據(jù)條數(shù)。 | 條 |
|
sourceIdleTime | 源端未處理數(shù)據(jù)的時(shí)間。 | 該指標(biāo)反映Source是否有閑置。如果該指標(biāo)的值較大時(shí),說(shuō)明您的數(shù)據(jù)在外部系統(tǒng)中的產(chǎn)生速率較低。 | 毫秒(ms) |
|
系統(tǒng)檢查點(diǎn)
指標(biāo) | 含義 | 詳情 | 單位 |
Num of Checkpoints | Checkpoint數(shù)量。 | 總覽Checkpoint狀態(tài),協(xié)助您設(shè)置Checkpoint告警。 | 個(gè) |
lastCheckpointDuration | 最近一個(gè)Checkpoint的持續(xù)時(shí)間。 | 如果Checkpoint耗時(shí)過(guò)長(zhǎng)或者超時(shí),可能由于狀態(tài)過(guò)大、臨時(shí)網(wǎng)絡(luò)原因、Barrier未對(duì)齊或者數(shù)據(jù)存在反壓等原因造成。 | 毫秒(ms) |
lastCheckpointSize | 最近一個(gè)Checkpoint的大小。 | 最近一次實(shí)際上傳的Checkpoint大小,可以在Checkpoint有瓶頸時(shí)協(xié)助分析Checkpoint性能。 | Bytes |
狀態(tài)
latency狀態(tài)指標(biāo)需要設(shè)置后才可以使用,因此您需要在更多Flink配置中設(shè)置state.backend.latency-track.keyed-state-enabled: true
,啟用latency狀態(tài)指標(biāo)后,可能會(huì)對(duì)作業(yè)運(yùn)行時(shí)的性能造成一定影響。
指標(biāo) | 含義 | 詳情 | 單位 | 版本限制 |
State Clear Latency | 單次狀態(tài)清理延遲最大值。 | 查看State清理的性能。 | 納秒(ns) | 實(shí)時(shí)計(jì)算引擎VVR 4.0.0及以上版本。 |
Value State Latency | 單次Value State訪問(wèn)延遲的最大值。 | 查看Value State訪問(wèn)的性能。 | 納秒(ns) | |
Aggregating State Latency | 單次Aggregating State訪問(wèn)延遲的最大值。 | 查看Aggregating State訪問(wèn)的性能。 | 納秒(ns) | |
Reducing State Latency | 單次Reducing State訪問(wèn)延遲的最大值。 | 查看Reducing State訪問(wèn)的性能。 | 納秒(ns) | |
Map State Latency | 單次Map State訪問(wèn)延遲的最大值。 | 查看Map State訪問(wèn)的性能。 | 納秒(ns) | |
List State Latency | 單次List State訪問(wèn)延遲的最大值。 | 查看List State訪問(wèn)的性能。 | 納秒(ns) | |
Sorted Map State Latency | 單次Sorted Map State訪問(wèn)延遲的最大值。 | 查看Sorted Map State訪問(wèn)的性能。 | 納秒(ns) | |
State Size | 狀態(tài)數(shù)據(jù)的大小。 | 通過(guò)觀測(cè)該指標(biāo),您可以:
| Bytes | 實(shí)時(shí)計(jì)算引擎VVR 4.0.12及以上版本。 |
State File Size | 狀態(tài)數(shù)據(jù)文件的大小。 | 通過(guò)觀測(cè)該指標(biāo),您可以:
| Bytes | 實(shí)時(shí)計(jì)算引擎VVR 4.0.13及以上版本。 |
IO
指標(biāo) | 含義 | 詳情 | 單位 | 支持的連接器 |
numBytesIn | 輸入字節(jié)總數(shù)。 | 查看上游吞吐的輸入情況,協(xié)助您觀察作業(yè)流量表現(xiàn)。 | Bytes |
|
numBytesInPerSecond | 每秒輸入字節(jié)總數(shù)。 | 查看上游流速的輸入情況,協(xié)助您觀察作業(yè)流量表現(xiàn)。 | Bytes/秒 |
|
numBytesOut | 輸出字節(jié)總數(shù)。 | 查看上游吞吐的輸出情況,協(xié)助您觀察作業(yè)流量表現(xiàn)。 | Bytes |
|
numBytesOutPerSecond | 每秒輸出字節(jié)總數(shù)。 | 查看上游吞吐輸出情況,協(xié)助您觀察作業(yè)流量表現(xiàn)。 | Bytes/秒 |
|
Task numRecords I/O | 每個(gè)Subtask收到和輸出的總數(shù)據(jù)量。 | 根據(jù)該指標(biāo)判斷作業(yè)是否存在I/O瓶頸。 | 條 |
|
Task numRecords I/O PerSecond | 每個(gè)Subtask每秒收到和輸出的總數(shù)據(jù)量。 | 判斷作業(yè)是否存在I/O瓶頸并且通過(guò)速率判斷嚴(yán)重程度。 | 條/秒 |
|
currentSendTime | 輸出到下游系統(tǒng)的每個(gè)Subtask發(fā)送最近一條數(shù)據(jù)的用時(shí)。 | 該指標(biāo)值較小時(shí),說(shuō)明Subtask輸出過(guò)慢。 | 毫秒(ms) |
|
水印
指標(biāo) | 含義 | 詳情 | 單位 | 支持的連接器 |
Task InputWatermark | 每個(gè)Task收到最近一條水印的時(shí)間。 | 說(shuō)明TM收到數(shù)據(jù)的延時(shí)情況。 | 無(wú) | 不涉及連接器 |
watermarkLag | Watermark延遲。 | 判斷Subtask級(jí)別的作業(yè)延遲情況。 | 毫秒(ms) |
|
CPU
指標(biāo) | 含義 | 詳情 | 單位 |
JM CPU Usage | 單個(gè)JM CPU的CPU使用率。 | 該值反映Flink對(duì)CPU時(shí)間片的占用情況,1個(gè)Core的CPU用滿了就是100%,4個(gè)Core用滿了就是400%。如果該值長(zhǎng)期大于100%則說(shuō)明CPU很繁忙。如果負(fù)載很高,但CPU使用率卻比較低,可能因?yàn)轭l繁的讀寫操作導(dǎo)致不可中斷睡眠狀態(tài)的進(jìn)程過(guò)多。 說(shuō)明 僅實(shí)時(shí)計(jì)算引擎VVR 6.0.6及以上版本支持該指標(biāo)。 | 無(wú) |
TM CPU Usage | 單個(gè)TM CPU的CPU使用率。 | 該值反映Flink對(duì)CPU時(shí)間片的占用情況,1個(gè)Core的CPU用滿了就是100%,4個(gè)Core用滿了就是400%。如果該值長(zhǎng)期大于100%則說(shuō)明CPU很繁忙。如果負(fù)載很高,但CPU使用率卻比較低,可能是因?yàn)轭l繁的讀寫操作導(dǎo)致不可中斷睡眠狀態(tài)的進(jìn)程過(guò)多。 | 無(wú) |
內(nèi)存
指標(biāo) | 含義 | 詳情 | 單位 |
JM Heap Memory | JM的堆內(nèi)存。 | 查看JM堆內(nèi)存的變化。 | Bytes |
JM NonHeap Memory | JM的非堆內(nèi)存。 | 查看JM非堆內(nèi)存的變化。 | Bytes |
TM Heap Memory | TM的堆內(nèi)存。 | 查看TM堆內(nèi)存的變化。 | Bytes |
TM nonHeap Memory | TM的非堆內(nèi)存。 | 查看TM非堆內(nèi)存的變化。 | Bytes |
TM Mem (RSS) | 通過(guò)Linux獲取整個(gè)進(jìn)程的內(nèi)存。 | 查看進(jìn)程內(nèi)存的變化。 | Bytes |
JVM
指標(biāo) | 含義 | 詳情 | 單位 |
JM Threads | JM線程數(shù)。 | JM線程數(shù)過(guò)多會(huì)導(dǎo)致占用過(guò)大的內(nèi)存空間,從而降低作業(yè)穩(wěn)定性。 | 個(gè) |
TM Threads | TM線程數(shù)。 | TM線程數(shù)過(guò)多會(huì)導(dǎo)致占用過(guò)多內(nèi)存,從而降低作業(yè)穩(wěn)定性。 | 個(gè) |
JM GC Count | JM GC次數(shù)。 | GC次數(shù)過(guò)多會(huì)導(dǎo)致占用過(guò)大內(nèi)存空間,從而影響作業(yè)性能。該指標(biāo)協(xié)助您進(jìn)行作業(yè)診斷,排查作業(yè)級(jí)別的故障原因。 | Times |
JM GC Time | 每次JM GC時(shí)間。 | 長(zhǎng)時(shí)間GC會(huì)導(dǎo)致占用過(guò)大內(nèi)存空間,從而影響作業(yè)性能。該指標(biāo)協(xié)助您進(jìn)行作業(yè)診斷,排查作業(yè)級(jí)別的故障原因。 | 毫秒(ms) |
TM GC Count | TM GC次數(shù)。 | GC次數(shù)過(guò)多會(huì)導(dǎo)致占用過(guò)大內(nèi)存空間,從而影響作業(yè)性能。該指標(biāo)協(xié)助您進(jìn)行作業(yè)診斷,排查作業(yè)Task級(jí)別的故障原因。 | 次數(shù) |
TM GC Time | 每次TM GC時(shí)間。 | 長(zhǎng)時(shí)間GC會(huì)導(dǎo)致占用過(guò)大內(nèi)存空間,從而影響作業(yè)性能。該指標(biāo)協(xié)助您進(jìn)行作業(yè)診斷,排查作業(yè)級(jí)別的故障原因。 | 毫秒(ms) |
JM ClassLoader | JM所在的JVM在創(chuàng)建后,加載或卸載的類總數(shù)。 | JM所在的JVM創(chuàng)建后,加載類的總數(shù)或卸載類的總數(shù)過(guò)大,會(huì)導(dǎo)致占用過(guò)大的內(nèi)存空間,從而影響作業(yè)性能。 | 無(wú) |
TM ClassLoader | TM所在的JVM創(chuàng)建后,加載或卸載的類總數(shù)。 | JM所在的JVM創(chuàng)建后加載類的總數(shù)或卸載類的總數(shù)過(guò)大,會(huì)導(dǎo)致占用過(guò)大內(nèi)存空間,從而影響作業(yè)性能。 | 無(wú) |
連接器 - Mysql
指標(biāo) | 含義 | 單位 | 應(yīng)用場(chǎng)景 | 版本限制 |
isSnapshotting | 作業(yè)是否在處理全量數(shù)據(jù)階段(1表示處于該階段) | 無(wú) | 確定作業(yè)處理階段 | 實(shí)時(shí)計(jì)算引擎VVR 8.0.9及以上版本。 |
isBinlogReading | 作業(yè)是否在處理增量數(shù)據(jù)階段(1表示處于該階段) | 無(wú) | 確定作業(yè)處理階段 | |
Num of remaining tables | 全量階段等待處理的表的個(gè)數(shù) | 個(gè) | 查看剩余未處理的表數(shù)量 | |
Num of snapshotted tables | 全量階段已經(jīng)處理的表的個(gè)數(shù) | 個(gè) | 查看已經(jīng)處理的表數(shù)量 | |
Num of remaining SnapshotSplits | 全量階段等待處理的分片的個(gè)數(shù) | 個(gè) | 查看已經(jīng)處理的分片數(shù) | |
Num of processed SnapshotSplits | 全量階段已經(jīng)處理的分片的個(gè)數(shù) | 個(gè) | 查看未處理的分片數(shù) | |
currentFetchEventTimeLag | 數(shù)據(jù)從產(chǎn)生到從數(shù)據(jù)庫(kù)讀取出來(lái)之間的延遲 | ms | 查看從數(shù)據(jù)庫(kù)讀取binlog的延遲 | |
currentReadTimestampMs | 當(dāng)前讀取到的最新數(shù)據(jù)的時(shí)間戳 | ms | 查看讀取到最新數(shù)據(jù)時(shí)間 | |
numRecordsIn | 已經(jīng)讀取的數(shù)據(jù)條數(shù) | 條 | 查看已經(jīng)處理的全部數(shù)據(jù)量 | |
numSnapshotRecords | 全量階段已經(jīng)處理的數(shù)據(jù)條數(shù) | 條 | 查看全量階段已處理的數(shù)據(jù)量 | |
numRecordsInPerTable | 每個(gè)表已經(jīng)讀取的數(shù)據(jù)條數(shù) | 條 | 查看每個(gè)表已經(jīng)處理的全部數(shù)據(jù)量 | |
numSnapshotRecordsPerTable | 每個(gè)表全量階段已經(jīng)處理的數(shù)據(jù)條數(shù) | 條 | 查看每個(gè)表全量階段已處理的數(shù)據(jù)量 |
連接器 - Kafka
指標(biāo) | 含義 | 單位 | 應(yīng)用場(chǎng)景 | 版本限制 |
commitsSucceeded | 位點(diǎn)提交成功的次數(shù) | 次 | 判斷位點(diǎn)提交是否成功 | 實(shí)時(shí)計(jì)算引擎VVR 8.0.9及以上版本。 |
commitsFailed | 位點(diǎn)提交失敗的次數(shù) | 次 | 判斷位點(diǎn)提交是否成功 | |
Fetch Rate | 拉取數(shù)據(jù)的頻率 | 次/秒 | 判斷數(shù)據(jù)拉取的延遲和速度 | |
Fetch Latency Avg | 拉取數(shù)據(jù)操作的延遲 | 毫秒 | 判斷數(shù)據(jù)拉取的延遲和速度 | |
Fetch Size Avg | 每次拉取的平均字節(jié)數(shù) | 字節(jié) | 判斷數(shù)據(jù)拉取的延遲和速度 | |
Avg Records In Per-Request | 每次拉取的平均消息數(shù) | 條 | 判斷數(shù)據(jù)拉取的延遲和速度 | |
currentSendTime | 發(fā)送上一條記錄的時(shí)間 | 無(wú) | 判斷消費(fèi)進(jìn)度 | |
batchSizeAvg | 每個(gè)批次的平均字節(jié)數(shù) | Bytes | 判斷數(shù)據(jù)寫入延遲和速度 | |
requestLatencyAvg | 請(qǐng)求的平均延遲 | ms | 判斷數(shù)據(jù)寫入延遲和速度 | |
requestsInFlight | 正在進(jìn)行的請(qǐng)求數(shù) | 無(wú) | 判斷數(shù)據(jù)寫入延遲和速度 | |
recordsPerRequestAvg | 每次請(qǐng)求的平均消息數(shù) | 條 | 判斷數(shù)據(jù)寫入延遲和速度 | |
recordSizeAvg | 消息的平均字節(jié)數(shù) | Bytes | 判斷數(shù)據(jù)寫入延遲和速度 |
連接器 - Paimon
指標(biāo) | 含義 | 單位 | 應(yīng)用場(chǎng)景 | 版本限制 |
Number of Writers | Writer實(shí)例數(shù)量 | 個(gè) | 當(dāng)前有幾個(gè)分桶正在寫入。若數(shù)量過(guò)大,可能會(huì)影響寫入效率,增加內(nèi)存消耗。分析分桶數(shù)或分區(qū)鍵設(shè)置是否合理。 | 實(shí)時(shí)計(jì)算引擎VVR 8.0.9及以上版本。 |
Max Compaction Thread Busy | 小文件合并線程的最大繁忙程度 | 比例 | 當(dāng)前正在寫入的各個(gè)分桶中,最近一分鐘內(nèi),小文件合并線程最多有多少時(shí)間在活動(dòng)。可以反映小文件合并的壓力 | |
Average Compaction Thread Busy | 小文件合并線程平均繁忙程度 | 比例 | 當(dāng)前正在寫入的各個(gè)分桶中,最近一分鐘內(nèi),小文件合并線程最多有多少時(shí)間在活動(dòng)。可以反映小文件合并的壓力 | |
Max Number of Level 0 Files | 最大Level 0 文件數(shù)量 | 個(gè) | 當(dāng)前正在寫入的各個(gè)分桶中,level 0文件(小文件)最多有幾個(gè)。僅對(duì)主鍵表有意義,可以反映小文件合并的效率能否跟上寫入效率 | |
Average Number of Level 0 Files | 平均Level 0 文件數(shù)量 | 個(gè) | 當(dāng)前正在寫入的各個(gè)分桶中,level 0文件(小文件)平均有幾個(gè)。僅對(duì)主鍵表有意義,可以反映小文件合并的效率能否跟上寫入效率 | |
Last Commit Duration | 上次Commit耗時(shí) | 毫秒 | 若時(shí)間太長(zhǎng),應(yīng)檢查是否有過(guò)多的分桶正在同時(shí)寫入。 | |
Number of Partitions Last Committed | 上次Commit中寫入的分區(qū)數(shù)量 | 個(gè) | 若數(shù)量過(guò)大,可能會(huì)影響寫入效率,增加內(nèi)存消耗。分析分桶數(shù)或分區(qū)鍵設(shè)置是否合理。 | |
Number of Buckets Last Committed | 上次Commit中寫入的分桶數(shù)量 | 個(gè) | 若數(shù)量過(guò)大,可能會(huì)影響寫入效率,增加內(nèi)存消耗。分析分桶數(shù)或分區(qū)鍵設(shè)置是否合理。 | |
Used Write Buffer | 已使用的Write Buffer的內(nèi)存大小 | 字節(jié) | 所有task manager的writer節(jié)點(diǎn)已使用的buffer大小。該buffer將占用Java堆內(nèi)存,若設(shè)置過(guò)大可能會(huì)導(dǎo)致OOM。 | |
Total Write Buffer | 分配給Write Buffer的總內(nèi)存大小 | 字節(jié) | 所有task manager的writer節(jié)點(diǎn)設(shè)置的uffer大小。該buffer將占用Java堆內(nèi)存,若設(shè)置過(guò)大可能會(huì)導(dǎo)致OOM,。 |
數(shù)據(jù)攝入
指標(biāo) | 含義 | 單位 | 應(yīng)用場(chǎng)景 | 版本限制 |
isSnapshotting | 作業(yè)是否在處理全量數(shù)據(jù)階段(1表示處于該階段) | 無(wú) | 確定作業(yè)處理階段 | 實(shí)時(shí)計(jì)算引擎VVR 8.0.9及以上版本。 |
isBinlogReading | 作業(yè)是否在處理增量數(shù)據(jù)階段(1表示處于該階段) | 無(wú) | 確定作業(yè)處理階段 | |
Num of remaining tables | 全量階段等待處理的表的個(gè)數(shù) | 個(gè) | 查看剩余未處理的表數(shù)量 | |
Num of snapshotted tables | 全量階段已經(jīng)處理的表的個(gè)數(shù) | 個(gè) | 查看已經(jīng)處理的表數(shù)量 | |
Num of remaining SnapshotSplits | 全量階段等待處理的分片的個(gè)數(shù) | 個(gè) | 查看已經(jīng)處理的分片數(shù) | |
Num of processed SnapshotSplits | 全量階段已經(jīng)處理的分片的個(gè)數(shù) | 個(gè) | 查看未處理的分片數(shù) | |
currentFetchEventTimeLag | 數(shù)據(jù)從產(chǎn)生到從數(shù)據(jù)庫(kù)讀取出來(lái)之間的延遲 | ms | 查看從數(shù)據(jù)庫(kù)讀取binlog的延遲 | |
currentReadTimestampMs | 當(dāng)前讀取到的最新數(shù)據(jù)的時(shí)間戳 | ms | 查看讀取到最新數(shù)據(jù)的時(shí)間 | |
numRecordsIn | 已經(jīng)讀取的數(shù)據(jù)條數(shù) | 條 | 查看已經(jīng)處理的全部數(shù)據(jù)量 | |
numRecordsInPerTable | 每個(gè)表已經(jīng)讀取的數(shù)據(jù)條數(shù) | 條 | 查看每個(gè)表已經(jīng)處理的全部數(shù)據(jù)量 | |
numSnapshotRecords | 全量階段已經(jīng)處理的數(shù)據(jù)條數(shù) | 條 | 查看全量階段已處理的數(shù)據(jù)量 | |
numSnapshotRecordsPerTable | 每個(gè)表全量階段已經(jīng)處理的數(shù)據(jù)條數(shù) | 條 | 查看每個(gè)表全量階段已處理的數(shù)據(jù)量 |