EMR Doctor的基本配置在安裝過程中已設置,主要控制集群元數據和任務元數據的采集行為,通常情況下不需要修改和下發配置。本文為您介紹EMR Doctor的基本配置信息以及如何修改基本配置。
本文為您列出了EMR Doctor中可以修改的配置。其余配置請勿修改,否則會導致任務運行失敗等嚴重問題。
本文配置中的新版本集群指的是數據湖(DataLake)和數據服務(DataServing)場景以及自定義集群場景的集群。舊版本集群指的是舊版控制臺的Hadoop集群和Gateway集群。
存儲元數據采集配置
配置名稱 | 默認配置 | 說明 |
collect.storage.enable | false | 是否采集存儲元數據,EMR Doctor默認不采集存儲元數據。 您可以在 頁面手動打開存儲資源信息采集開關,開啟該配置。 |
collect.storage.intermediate.path | /mnt/disk1/log/doctor/derby/ | 存儲元數據采集過程產生的中間數據的路徑。 存儲元數據采集過程會產生中間數據,數據大小與FSImage成正比。 |
collect.storage.max.depth | 6 | 高級配置。存儲元數據遍歷目錄層深,包含從'/'開始的目錄層級。 說明 不建議您將該參數值修改的過大,過大可能會造成分析時間過長、中間存儲數據過大等問題。 |
collect.storage.top.size | 100 | 高級配置。存儲元數據每個層級獲取的top目錄個數,默認是每個層級獲取top100。 說明 不建議您將該參數值修改得過大,可能會造成分析時間過長、中間存儲數據過大等問題。 |
collect.oss.bucket | 無 | 被分析的Bucket名稱。 分析OSS數據時使用,相關功能請參見開通并配置OSS存儲分析。 |
collect.oss.manifest.dir | 無 | 清單文件的目錄。 分析OSS數據時使用,相關功能請參見開通并配置OSS存儲分析。 |
您可以在EMR控制臺TAIHAODOCTOR服務的配置頁面,查看或修改以上配置項。具體操作如下。
進入任意服務的配置頁面。
說明因為EMR Doctor是隱藏的服務,所以您需要修改相應鏈接才能訪問EMR Doctor。本文以HDFS為例。
在EMR控制臺,單擊目標集群操作列的集群服務。
在集群服務頁面,單擊HDFS區域的配置。
修改瀏覽器鏈接中的服務名稱為TAIHAODOCTOR。
替換服務名稱后,即可進入TAIHAODOCTOR服務的配置頁面。
在TAIHAODOCTOR服務配置頁面,您可以根據實際情況修改上述配置,然后保存并生效配置。
修改配置項詳情,請參見修改配置項。
調度器采集配置
您可以在EMR控制臺TAIHAODOCTOR服務的配置頁面,查看或修改以下配置項。修改以下配置的具體操作,請參見存儲元數據采集配置。
配置名稱 | 默認配置 | 說明 |
collect.job.interval | 120 | 對YARN調度的任務狀態進行采集,默認每120S采集一次。 |
collect.jobs.intermediate.path | /mnt/disk1/log/doctor/jobs/ | 存儲YARN調度任務狀態中間數據的路徑。 |
通用配置
您可以在EMR控制臺TAIHAODOCTOR服務的配置頁面,查看或修改以下配置項。修改以下配置的具體操作,請參見存儲元數據采集配置。
配置名稱 | 默認配置 | 說明 |
collect.metrics.interval | 15 | 對引擎每個任務的Counters采集的時間間隔,默認每15S采集一次。 說明 不建議您將該參數值修改的過大或過小,過大會造成任務建議不準確,過小會造成采集的壓力過大,影響任務穩定性。 |
collect.rate.limit | 5000 | 流控配置,每個進程每秒最大采集的記錄條數。超過流控的數據會被直接丟棄,防止影響進程穩定性。 |
MR任務采集配置
您可以在EMR控制臺YARN服務的配置頁面,查看或修改以下配置項。
修改配置項詳情,請參見修改配置項。
配置名稱 | 默認配置 | 說明 |
yarn.app.mapreduce.am.command-opts |
| 采集MR AppMaster元數據。
|
mapreduce.map.java.opts |
| 采集MR Map任務元數據。
|
mapreduce.reduce.java.opts |
| 采集MR Reduce任務元數據。
|
Tez任務采集配置
您可以在EMR控制臺Tez服務的配置頁面,查看或修改以下配置項。
修改配置項詳情,請參見修改配置項。
配置名稱 | 默認配置 | 說明 |
tez.am.launch.cmd-opts |
| 采集Tez AppMaster元數據。 |
tez.task.launch.cmd-opts |
| 采集Tez Task元數據。 |
Spark任務采集配置
您可以在EMR控制臺Spark服務的配置頁面,查看或修改以下配置項。
修改配置項詳情,請參見修改配置項。
配置名稱 | 默認配置 | 說明 |
spark.driver.extraJavaOptions |
| 采集Spark Driver元數據。
|
spark.executor.extraJavaOptions |
| 采集Spark Executor元數據。
|
YARN Timeline Server配置
您可以在EMR控制臺YARN服務的配置頁面,查看或修改以下配置項。
修改配置項詳情,請參見修改配置項。
配置名稱 | 默認配置 | 說明 |
YARN_TIMELINESERVER_OPTS |
| 采集任務結束標志。
|