EMR Doctor支持分析OSS上的數據,開通OSS存儲分析功能可以幫助您進一步了解OSS存儲資源的使用情況和健康狀態,讓您更好地治理存儲在OSS上的數據。
背景信息
OSS提供了存儲清單功能,配置該功能后會定期為Bucket生成清單文件,清單文件中保存了OSS Bucket中Object的數量,大小等存儲信息。EMR Doctor借助您Bucket中最新的清單文件,分析該Bucket的數據使用,健康狀態以及與Hive存儲分析關聯。
使用EMR Doctor OSS存儲分析需要您為Bucket預先開通存儲清單功能。清單功能的詳細介紹,具體請參見存儲空間清單。
注意事項
開通OSS存儲清單功能會產生一定的費用,具體請參見存儲空間清單。
開通OSS清單功能
如果您的集群同時使用多個OSS Bucket并希望獲取所有Bucket的存儲分析,請按照以下開通流程在OSS控制臺為所有Bucket開通存儲清單功能。
配置OSS存儲分析
OSS存儲分析依賴于您通過存儲清單功能生成的清單文件,需要您配置以下參數,更多配置請參見配置說明。
- collect.oss.bucket:被分析的Bucket名稱。
- collect.oss.manifest.dir:清單文件的目錄,參照開通OSS清單功能中介紹的清單文件目錄結構,您只需要配置
destination-prefix/src_bucket/inventory_id/
這部分目錄即可,即上述示例配置規則下的path1/doctor-hive-oss-test1/oss-manifest
目錄。
重要 如果您的集群同時使用了多個Bucket,并為每一個Bucket開通了存儲清單功能,則可以按順序將多個Bucket名稱和其對應的清單文件目錄配置到配置項中,并使用英文逗號(,)分隔。請確保Bucket填寫順序與清單文件的填寫順序對應。
單Bucket配置示例
Bucket以
doctor-hive-oss-test1
為例,最終存儲分析配置如下所示。collect.oss.bucket: doctor-hive-oss-test1
collect.oss.manifest.dir: path1/doctor-hive-oss-test1/oss-manifest
多Bucket配置示例
Bucket以
doctor-hive-oss-test1
和doctor-hive-oss-test2
為例,最終存儲分析配置如下所示。collect.oss.bucket: doctor-hive-oss-test1,doctor-hive-oss-test2
collect.oss.manifest.dir: path1/doctor-hive-oss-test1/oss-manifest,path2/doctor-hive-oss-test2/test