EMR Doctor支持分析OSS上的數據,開通OSS存儲分析功能可以幫助您進一步了解OSS存儲資源的使用情況和健康狀態,讓您更好地治理存儲在OSS上的數據。

背景信息

OSS提供了存儲清單功能,配置該功能后會定期為Bucket生成清單文件,清單文件中保存了OSS Bucket中Object的數量,大小等存儲信息。EMR Doctor借助您Bucket中最新的清單文件,分析該Bucket的數據使用,健康狀態以及與Hive存儲分析關聯。

使用EMR Doctor OSS存儲分析需要您為Bucket預先開通存儲清單功能。清單功能的詳細介紹,具體請參見存儲空間清單

注意事項

開通OSS存儲清單功能會產生一定的費用,具體請參見存儲空間清單

開通OSS清單功能

如果您的集群同時使用多個OSS Bucket并希望獲取所有Bucket的存儲分析,請按照以下開通流程在OSS控制臺為所有Bucket開通存儲清單功能。

  1. 登錄OSS管理控制臺
  2. 單擊Bucket列表,然后單擊目標Bucket名稱。
  3. 在左側導航欄,選擇數據管理 > Bucket清單
  4. Bucket清單頁面,單擊創建清單
  5. 設置清單報告規則面板,設置相關參數,具體請參見存儲空間清單
    重要
    • 確保存儲清單Bucket與當前正在開通OSS存儲清單功能的Bucket一致。
    • 如果您存儲在OSS中的文件數量較多(大于100億時),建議清單報告導出周期選擇每周,其他情況下可以選擇導出周期為每天。
    • 確保清單內容可選信息包含Object大小存儲類型兩項。
  6. 選中我知曉并同意授予阿里云OSS服務訪問Bucket資源的權限后,單擊確定
    生成清單文件需要一定的時間,生成后清單文件的完整目錄如下。
    dest_bucket
        └──destination-prefix/
            └──src_bucket/
                └──inventory_id/
                    ├──YYYY-MM-DDTHH-MMZ/
                    │   ├──manifest.json
                    │   └──manifest.checksum
                    └──data/
                            └──745a29e3-bfaa-490d-9109-47086afcc****.csv.gz

    其中,dest_bucket是您存儲清單文件的Bucket,即當前Bucket,destination-prefix是您上一步配置的清單報告存儲路徑,inventory_id是您上一步配置的清單名稱。

    以上方展示的配置清單為例,最終生成的清單文件目錄為path1/doctor-hive-oss-test1/oss-manifest

配置OSS存儲分析

OSS存儲分析依賴于您通過存儲清單功能生成的清單文件,需要您配置以下參數,更多配置請參見配置說明
  • collect.oss.bucket:被分析的Bucket名稱。
  • collect.oss.manifest.dir:清單文件的目錄,參照開通OSS清單功能中介紹的清單文件目錄結構,您只需要配置destination-prefix/src_bucket/inventory_id/這部分目錄即可,即上述示例配置規則下的path1/doctor-hive-oss-test1/oss-manifest目錄。
重要 如果您的集群同時使用了多個Bucket,并為每一個Bucket開通了存儲清單功能,則可以按順序將多個Bucket名稱和其對應的清單文件目錄配置到配置項中,并使用英文逗號(,)分隔。請確保Bucket填寫順序與清單文件的填寫順序對應。

單Bucket配置示例

Bucket以doctor-hive-oss-test1為例,最終存儲分析配置如下所示。
collect.oss.bucket:   doctor-hive-oss-test1
collect.oss.manifest.dir:      path1/doctor-hive-oss-test1/oss-manifest

多Bucket配置示例

Bucket以doctor-hive-oss-test1doctor-hive-oss-test2為例,最終存儲分析配置如下所示。
collect.oss.bucket:   doctor-hive-oss-test1,doctor-hive-oss-test2
collect.oss.manifest.dir:      path1/doctor-hive-oss-test1/oss-manifest,path2/doctor-hive-oss-test2/test