查看集群日報與分析
您可以通過集群的集群日報功能,了解當(dāng)前集群的健康狀態(tài),并根據(jù)改進(jìn)建議對集群進(jìn)行調(diào)整,以保持健康的狀態(tài)。
注意信息
默認(rèn)情況下,Hadoop集群健康檢查功能不包括集群日報分析。如果您需要查看集群日報分析,則需要開通EMR Doctor。開通EMR Doctor的具體操作,請參見開通EMR Doctor(Hadoop集群類型)。
查看報告
進(jìn)入監(jiān)控診斷頁面。
在頂部菜單欄處,根據(jù)實際情況選擇地域和資源組。
在集群管理頁面,單擊目標(biāo)集群的集群ID。
單擊上方的監(jiān)控診斷頁簽。
單擊集群日報頁簽,您可以看到當(dāng)前集群的所有健康診斷報告列表。
集群日報區(qū)域的健康狀態(tài)列顯示了該集群的健康度。集群健康狀態(tài)信息如下表所示。
健康狀態(tài)
描述
0 <= x <= 60
集群處于不健康狀態(tài),請及時處理。
60 < x <= 80
集群處于亞健康狀態(tài),建議優(yōu)化。
80 < x <= 100
集群處于健康狀態(tài),無需處理。
說明集群狀態(tài)以分?jǐn)?shù)表示,取值為0~100。
查看報告詳情。
單擊操作列的查看報告,可以查看當(dāng)前集群詳細(xì)檢查信息。
該頁面為您展示集群健康狀態(tài)總覽,報告的基本信息,例如健康評分、當(dāng)前集群ID、報告ID和診斷時間等。針對不同類型的集群,報告總覽會展示診斷項以及診斷項的總覽分析。總覽分析會將集群的問題進(jìn)行匯總分析,簡明扼要地指出問題,具體的問題分析您可以查看后面的診斷項詳細(xì)分析。
資源分析
計算資源
詳細(xì)信息
該頁面為您展示計算資源的詳細(xì)分析。您可以了解到集群計算資源使用的基本信息,例如計算得分、掃描的任務(wù)數(shù)和任務(wù)的狀態(tài)分布。同時為您指明具體的問題,例如內(nèi)存使用率過低等,您可以根據(jù)后面的具體任務(wù)得分進(jìn)行處理。
計算基礎(chǔ)信息
該區(qū)域為您展示集群計算評分趨勢圖、集群算力內(nèi)存時(GB*Sec)趨勢圖和集群算力CPU時(VCore*Sec)趨勢圖,以及計算任務(wù)的綜合健康評分、各分?jǐn)?shù)段任務(wù)數(shù)量的分布以及相關(guān)的趨勢圖。
管理算力內(nèi)存時和算力CPU時的定義如下表。
指標(biāo) | 描述 |
集群算力內(nèi)存時(GB*Hour) | 集群所有任務(wù)的算力內(nèi)存時之和,任務(wù)的算力內(nèi)存時是一個累積值,計算方式是 |
集群算力CPU時(Core*Hour) | 集群所有任務(wù)的算力CPU時之和,任務(wù)的算力CPU時是一個累積值,計算方式是 |
計算引擎分析
該區(qū)域為您展示以下圖表信息:
計算引擎評分趨勢圖
計算引擎任務(wù)數(shù)量趨勢圖
計算引擎內(nèi)存算力時餅圖、趨勢圖
計算引擎算力CPU時餅圖、趨勢圖
計算隊列信息
該區(qū)域為您展示計算隊列算力內(nèi)存時Top 20的圖表信息。
計算任務(wù)信息
EMR Doctor采集計算任務(wù),處理和分析后為您展示影響集群最重要的任務(wù),您可以進(jìn)行針對性的調(diào)優(yōu)、處理,從而增強(qiáng)集群的計算效率,提升集群的使用率,達(dá)到增效的目的。
目前支持任務(wù)算力內(nèi)存時(GB*Sec)Top50和計算任務(wù)評分倒序Top50任務(wù)列表。每條數(shù)據(jù)包含以下信息。
參數(shù) | 說明 |
任務(wù)名 | 任務(wù)的名稱。 |
引擎類型 | 任務(wù)的引擎類型。 |
SQL語句 | 僅SQL類才有。 |
APP IDS | 對于Hive on MR,一個語句可能有多個APP ID。 |
用戶名 | 提交任務(wù)的用戶。 |
評分 | 任務(wù)得分。 |
健康狀態(tài) | 標(biāo)記任務(wù)是否需要治理。 |
建議 | 指明任務(wù)的優(yōu)化方向。 |
內(nèi)存時(GB*Sec) | 任務(wù)的算力內(nèi)存時之和。 |
內(nèi)存利用率 | 任務(wù)的平均內(nèi)存利用率。 |
CPU時(vCore*Sec) | 任務(wù)的算力CPU時之和。 |
CPU利用率 | 任務(wù)的平均CPU利用率。 |
當(dāng)前配置 | 任務(wù)當(dāng)前的配置,可以配合建議來考慮如何調(diào)整當(dāng)前配置。 |
IO信息 | 任務(wù)的讀寫、Shuffle等數(shù)據(jù)。 |
YARN調(diào)度資源
您可以通過YARN調(diào)度資源分析了解到最準(zhǔn)確的YARN引擎、隊列、用戶等維度下的資源使用和任務(wù)運(yùn)行分布。
詳細(xì)分析
該頁面為您展示YARN調(diào)度資源的詳細(xì)分析。在詳細(xì)分析中,您可以了解到Y(jié)ARN內(nèi)存資源使用、任務(wù)運(yùn)行數(shù)量、不健康節(jié)點等分析。對于有著明顯的資源使用波峰波谷以及任務(wù)運(yùn)行的繁忙期和空閑期,詳細(xì)分析中將為您具體指出內(nèi)存資源使用以及任務(wù)運(yùn)行的峰谷時段,您可以配合圖表中的使用曲線了解資源使用情況。
YARN基礎(chǔ)信息
在YARN基礎(chǔ)信息中,您可以獲取YARN全天結(jié)束的任務(wù)數(shù)量、Failed和Killed任務(wù)數(shù)量、算力內(nèi)存時、算力CPU時以及以下圖表信息:
YARN內(nèi)存資源使用趨勢圖
YARN CPU資源使用趨勢圖
YARN運(yùn)行中任務(wù)數(shù)量趨勢圖
YARN引擎信息
該區(qū)域為您展示以下圖表信息:
引擎算力內(nèi)存時分布餅圖
引擎任務(wù)數(shù)量分布餅圖
YARN用戶信息
該區(qū)域為您展示以下圖表信息:
用戶算力內(nèi)存時分布餅圖
用戶任務(wù)數(shù)量分布餅圖
YARN隊列信息
該區(qū)域為您展示以下圖表信息:
隊列算力內(nèi)存時分布餅圖
隊列任務(wù)數(shù)量分布餅圖
YARN不健康節(jié)點信息
YARN不健康節(jié)點信息為您展示全天中出現(xiàn)過不健康狀態(tài)的節(jié)點Hostname,以及它們不健康狀態(tài)的起止時間、持續(xù)時間和YARN提供的Health report。
HDFS存儲資源
EMR Doctor默認(rèn)不會采集存儲資源信息,如果您想分析HDFS或者Hive的存儲資源,可以在監(jiān)控診斷 > 集群日報中打開存儲資源信息采集開關(guān),或者根據(jù)配置說明中修改采集存儲信息。
詳細(xì)分析
該頁面為您展示HDFS存儲資源的詳細(xì)分析。在詳細(xì)分析中,您可以了解到集群資源的基本狀態(tài),例如總文件數(shù)和總存儲量等。同時為您指明具體的問題,例如小文件數(shù)占比過高、冷數(shù)據(jù)存儲量占比過高等。在具體問題中會告知您出現(xiàn)問題的目錄位置以及處理方式,您可以進(jìn)行對應(yīng)處理。
HDFS基礎(chǔ)信息
在HDFS基礎(chǔ)信息中,您可以獲取以下圖表信息:
存儲量趨勢圖
文件數(shù)趨勢圖
HDFS存儲評分趨勢圖
文件總數(shù),總存儲量,小文件、極小文件個數(shù),冷數(shù)據(jù)存儲大小
HDFS使用分析
在HDFS使用分析中,您可以獲取以下圖表信息:
HDFS User存儲使用量餅圖
HDFS User文件數(shù)量餅圖
HDFS Group存儲使用量餅圖
HDFS Group文件數(shù)量餅圖
HDFS文件大小分布餅圖
HDFS冷熱數(shù)據(jù)分布餅圖
HDFS一級目錄存儲量分布
目錄文件大小分布信息
HDFS的小文件會導(dǎo)致NameNode壓力以及分片問題,所以HDFS小文件是一個非常重要的指標(biāo)。目錄文件大小分布信息會展示空文件、極小文件、小文件、中等文件以及大文件在各個層級目錄下的比例分布,目前EMR Doctor分析支持四級目錄的下鉆分析。
文件定義如下表所示。
參數(shù) | 描述 |
空文件 | 大小為0的文件。 |
極小文件 | 大于0且小于1 MB的文件。 |
小文件 | 大于等于1且小于128 MB的文件。 |
中等文件 | 大于等于128 MB且小于等于1 GB的文件。 |
大文件 | 大于1 GB的文件。 |
目錄文件大小分布信息中會展示以下信息:
層級目錄空文件個數(shù)Top
層級目錄極小文件個數(shù)Top
層級目錄小文件個數(shù)Top
層級目錄中等文件個數(shù)Top
層級目錄大文件個數(shù)Top
每個表格會展示具體路徑、存儲大小、日環(huán)比和日增量等信息。
目錄冷熱數(shù)據(jù)分布信息
冷數(shù)據(jù)是長時間不訪問的數(shù)據(jù),推薦放到冷備存儲,例如OSS冷備等。目錄冷熱數(shù)據(jù)分布可以幫助您了解集群使用情況,有針對性的進(jìn)行成本優(yōu)化。目錄冷熱數(shù)據(jù)分布信息會展示極冷數(shù)據(jù)、冷數(shù)據(jù)、溫數(shù)據(jù)、熱數(shù)據(jù)在各個層級目錄下的比例分布,目前EMR Doctor分析支持四級目錄的下鉆分析。
參數(shù) | 描述 |
極冷數(shù)據(jù) | 超過3個月未訪問的數(shù)據(jù)。 |
冷數(shù)據(jù) | 超過1個月未訪問,但三個月內(nèi)有訪問的數(shù)據(jù)。 |
溫數(shù)據(jù) | 超過7天未訪問,但一個月內(nèi)有訪問的數(shù)據(jù)。 |
熱數(shù)據(jù) | 近7天有訪問的數(shù)據(jù)。 |
在目錄冷熱數(shù)據(jù)分布信息中會展示如下信息:
層級目錄極冷數(shù)據(jù)量分布Top
層級目錄冷數(shù)據(jù)量分布Top
層級目錄溫數(shù)據(jù)量分布Top
層級目錄熱數(shù)據(jù)量分布Top
每個表格會展示具體路徑、存儲大小、日環(huán)比和日增量等信息。
HBase存儲資源
詳細(xì)分析
該頁面為您展示HBase存儲資源的詳細(xì)分析。在詳細(xì)分析中,您可以了解HBase使用的基本狀態(tài),例如集群平均負(fù)載、集群分區(qū)均衡度,以及RegionServer和用戶表的健康狀態(tài)。同時為您指明具體的問題,例如集群平均負(fù)載偏高、集群分區(qū)均衡度偏低,以及RegionServer和表健康度異常等。在具體問題中會告知您出現(xiàn)問題的RegionServer、表以及分區(qū)等信息,您可以進(jìn)行相應(yīng)的優(yōu)化。
集群總覽分析
在集群總覽信息中,您可以獲取以下圖表信息:
集群健康度評分趨勢圖
集群分區(qū)均衡度趨勢圖
集群分區(qū)數(shù)量分布餅圖
集群請求數(shù)趨勢圖
總表數(shù)、總分區(qū)數(shù)、總節(jié)點數(shù)、平均負(fù)載、總數(shù)據(jù)量、總讀請求數(shù)、總寫請求數(shù)、總請求數(shù)
RegionServer相關(guān)信息
在RegionServer相關(guān)信息中展示RegionServer的緩存命中率、GC平均耗時以及單日讀、寫請求數(shù)等詳細(xì)信息。
緩存命中率倒序排名:RegionServer、緩存命中率
GC平均時間排名:RegionServer、GC平均時間
單日讀請求排名:RegionServer、讀請求數(shù)
單日讀請求日環(huán)比排名:RegionServer、讀請求日環(huán)比增量
單日寫請求排名:RegionServer、寫請求數(shù)
單日寫請日環(huán)比排名:RegionServer、寫請求日環(huán)比增量
表相關(guān)信息
在表相關(guān)信息中展示表熱點分區(qū)、表數(shù)據(jù)量、表分區(qū)數(shù),以及表讀寫請求數(shù)等詳細(xì)信息。
存在分區(qū)熱點的表詳細(xì)信息
表分區(qū)均衡度倒排Top
表分區(qū)平均數(shù)據(jù)量倒排Top
表數(shù)據(jù)量Top
表數(shù)據(jù)量日環(huán)比Top
表分區(qū)數(shù)Top
表分區(qū)日環(huán)比Top
表讀請求數(shù)Top
表讀請求數(shù)日環(huán)比Top
表寫請求數(shù)Top
表寫請求數(shù)日環(huán)比Top
Hive存儲資源
詳細(xì)分析
該頁面為您展示了Hive存儲資源的詳細(xì)分析。在詳細(xì)分析中,您可以了解Hive使用的基本狀態(tài),例如總的Hive庫數(shù),總的Hive表數(shù),Hive表總文件數(shù)和總存儲量等。同時為您指明具體的問題,例如小文件數(shù)占比過高,冷數(shù)據(jù)存儲量過多,以及存儲格式分布不合理等。在具體問題中會告知您出現(xiàn)問題的庫、表以及處理方式,您可以進(jìn)行對應(yīng)處理。
Hive基礎(chǔ)信息
該區(qū)域匯總了Hive使用過程中常用的幾個存儲指標(biāo),包含存儲使用量趨勢,文件數(shù)量趨勢及評分趨勢等。
Hive使用量分析
在Hive使用分析中,您可以獲取以下圖表:
Hive庫存儲量使用量分布圖
Hive用戶總存儲量分布
Hive表文件大小分布比例
Hive表熱冷數(shù)據(jù)分布
Hive表存儲格式分布
Hive詳細(xì)信息
在Hive信息中會展示Hive庫和Hive表的詳細(xì)信息。
Hive庫信息
Hive庫信息包含以下部分:
Hive庫詳細(xì)信息
Hive庫文件大小分布Top信息
Hive庫冷熱數(shù)據(jù)分布Top信息
Hive庫存儲格式分布Top信息
Hive庫詳細(xì)信息提供以下數(shù)據(jù):
存儲使用量排名:名稱、存儲量,日環(huán)比和日增量。
文件數(shù)量排名:名稱、文件數(shù)量、日環(huán)比和日增量。
評分排名:分?jǐn)?shù)排名。
分區(qū)個數(shù)排名:名稱、分區(qū)個數(shù)、日環(huán)比和日增量。
Hive文件大小分布Top信息提供以下數(shù)據(jù):
Hive庫空文件個數(shù)Top
Hive庫極小文件個數(shù)Top
Hive庫小文件個數(shù)Top
Hive庫中等文件個數(shù)Top
Hive庫大文件個數(shù)Top
Hive小文件會導(dǎo)致NameNode壓力以及分片問題,大量的小文件會嚴(yán)重拖累計算流程,所以Hive小文件是一個非常重要的指標(biāo)。
Hive庫冷熱數(shù)據(jù)分布Top信息會展示如下:
庫極冷數(shù)據(jù)量分布Top
庫冷數(shù)據(jù)量分布Top
庫溫數(shù)據(jù)量分布Top
庫熱數(shù)據(jù)量分布Top
冷數(shù)據(jù)是長時間不訪問的數(shù)據(jù),推薦放到冷備存儲,例如OSS冷備等。冷熱數(shù)據(jù)分布可以幫助您了解集群使用情況,有針對性的進(jìn)行成本優(yōu)化。
Hive支持不同的存儲格式,不同的存儲格式對應(yīng)了不同的應(yīng)用場景,通常主流的列式格式會大大的節(jié)約存儲成本,并提升查詢效率。
Hive庫存儲格式分布Top信息展示如下:
庫TextFile存儲格式數(shù)據(jù)量分布Top
庫Parquet存儲格式數(shù)據(jù)量分布Top
庫ORC存儲格式數(shù)據(jù)量分布Top
Hive表信息
Hive表信息包含以下部分:
Hive表詳細(xì)信息
Hive表文件大小分布Top信息
Hive表冷熱數(shù)據(jù)分布Top信息
Hive表存儲格式分布Top信息
相關(guān)的功能說明請參見Hive庫信息。